Nota estadística

The enormous difference between not rejecting a null hypothesis and stating that it is true

C. Carazo-Díaz, L. Prieto-Valiente [REV NEUROL 2024;79:31-33] PMID: 38934947 DOI: https://doi.org/10.33588/rn.7901.2024090 OPEN ACCESS
Volumen 79 | Number 01 | Nº of views of the article 1.606 | Nº of PDF downloads 110 | Article publication date 01/07/2024
Icono-PDF-OFF Download PDF Castellano Citation Search in PubMed
Share in: Facebook Twitter
Go to another issue
ABSTRACT Artículo en español English version
Abstract. Assuming that a hypothesis is true because insufficient evidence has been found to reject it is a very common error when interpreting the p-value of a test in biomedical research. For example, a value of p = 0.28 obviously does not mean the null hypothesis should be ruled out, but if we understand what it means (which is not a mathematical issue, but instead a purely logical one) that it is equally obvious that it cannot be stated that it is true. If the samples in a comparison of a new drug with an old one show that the new one has a higher healing percentage and the p-value of the test is 0.0004, for example, the scientific community concludes that the new one is better. However, if for example the p-value of the test is 0.14, the scientific community does not conclude that the new one is as good as the old one. It merely concludes that the new one has not been shown to outperform the other one. It is therefore possible that an extension of the study with more cases may demonstrate that the new one is better. KeywordsClinical trialMedical researchNormality testNull hypothesisp-valueStatistical significance
FULL TEXT (solo disponible en lengua castellana / Only available in Spanish)

Introducción


El error cometido al afirmar que una hipótesis es cierta, cuando no hay evidencia para afirmar que es falsa, lo encontramos con notable frecuencia, incluso en las revistas médicas de más nivel, incluida el New England Journal of Medicine. En varias ocasiones esta revista publicó una revisión sobre la frecuencia con que aparece en sus páginas ese error. Por ejemplo, ya en 1978 Freiman et al encontraron que en un período de 10 años aparecía ese error en, al menos, 72 artículos [1]. Rothman, en 2021, comentó ese dato con estas palabras [2]: ‘Al no poder rechazar la hipótesis, los investigadores aceptaron inapropiadamente la hipótesis como correcta, lo que probablemente dio lugar a un claro error para muchos de estos llamados estudios negativos’. Pero el problema continúa con lamentable regularidad. Una consulta rápida en PubMed detecta el mismo error en 2006 [3] y en 2023 [4].

La lista de bioestadisticos de primer nivel y de investigadores médicos que, año tras año, han insistido en denunciar ese error es interminable. Martínez-Sellés et al (2005) lo consideran el más grave de los errores que encontramos en la bibliografía médica [5]. En el mismo sentido se expresan Zinsmeister y Connor (2008) [6], Armitage y Berry (2010) [7], etc.

El valor de p del test no ayuda a tomar postura ante la disyuntiva de si la hipótesis es cierta o falsa

Hay que insistir en que el valor de p del test no ayuda a tomar postura ante la disyuntiva de si la hipótesis es cierta o es falsa. Cuando el valor de p del test es muy pequeño, invita a decantarnos por pensar que la hipótesis nula es falsa, pero si el valor de p es grande, no nos invita a pensar que es cierta. Para mostrar que esto es así no recurriremos al ‘criterio de autoridad’ de ningún autor en particular, sino a la lógica más básica y obligada que se impone cuando se entiende lo que indica el valor de p del test [8].

Al médico no versado en estadística puede ayudarle considerar ejemplos de situaciones de la vida cotidiana donde no rechazar la hipótesis es muy diferente a afirmar que es cierta. El razonamiento es idéntico al que se hace con el valor de p del test.

Pensemos que se comete un crimen en el Empire State de Nueva York a las 12:00 horas. Juan es uno de los sospechosos y planteamos como hipótesis que es el asesino. Si a las 13:00 horas fue visto en Los Ángeles, está claro que no puede ser el autor material del crimen. El dato observado es incompatible con la hipótesis y por ello la rechazamos. Pero si a las 13:00 horas fue visto en Central Park, es claro que el dato es compatible con la hipótesis. Puede haber cometido el crimen en el Empire State y llegar al Central Park en una hora. Pero ello no nos permite afirmar que es el asesino. Sólo decimos que el dato observado es compatible con que sea el asesino. Miles de personas también estaban en Central Park a esa hora y no decimos que cada una de ellas sea el asesino.
 

Ejemplos al tomar postura en la clínica
 

  • A la vista de ciertos síntomas iniciales de una paciente planteamos como hipótesis inicial que se trata de un caso de embarazo ectópico, pero aún no sabemos su edad. Si seguidamente nos dicen que la paciente tiene 70 años, rechazamos esa hipótesis. Su edad no es compatible con la hipótesis. Y, si nos dicen que tiene 40 años, no rechazamos la hipótesis, pero eso no quiere decir que la demos por cierta. Sólo decirnos su edad no nos lleva a rechazar. Su edad es compatible con la hipótesis.
  • Sabemos que la enfermedad ‘D’ afecta al 40% de la población de mujeres. Planteamos como hipótesis que ocurre lo mismo en los varones. Tomamos una muestra al azar de n = 30 varones. Si encontramos, por ejemplo, que todos tienen la enfermedad, el test da valor de p = 0,000000000001. Es decir, que si la enfermedad afecta al 40% de los varones, es extremadamente difícil que en la muestra de 30 varones aparezcan los 30 enfermos [8]. Ello nos invita fuertemente a pensar que la hipótesis no es cierta. Pero si en la muestra de 30 varones se encuentran 14, supone el 47% de enfermos y un valor p del test = 0,39, lo que quiere decir que si la enfermedad afecta al 40% de los varones, es fácil que en la muestra de 30 varones aparezcan 14 enfermos. Ello no nos invita a rechazar la hipótesis. El dato obtenido es compatible con ella y decimos que puede ser cierta, pero no afirmamos que lo sea. El porcentaje de enfermos en la población de varones puede ser el 40% u otros valores. El intervalo de confianza al 95% nos dice que en la población de varones el porcentaje con D probablemente esté entre el 29 y el 65%. El dato muestral es compatible con cualquier valor poblacional dentro de ese intervalo.


Ejemplo al tomar postura en los ensayos clínicos


Insistamos con un ejemplo de la situación que más frecuentemente contemplan los ensayos clínicos. En una muestra de n = 20 enfermos con placebo se curaron ocho, es decir, el 40%. Y en una muestra de n = 20 enfermos con el fármaco ‘F’ se curaron 12, es decir, el 60%. El valor de p del test es = 0,21, que no supone notable evidencia en contra de la hipótesis que dice que el porcentaje de curaciones es, en la población, igual con el fármaco que con el placebo. Pero cualquier frase del tipo de ‘el estudio muestra que el fármaco no es superior al placebo’ es una afirmación no justificada, que podría –y debería– recibir la reprobación de la comunidad e, incluso, condena judicial si el perjudicado por esa afirmación lo llevara a los tribunales, porque los datos obtenidos son compatibles con que el porcentaje de curaciones con el fármaco sea mayor o sea igual o sea menor que con el placebo. El intervalo de confianza al 95% nos dice que el porcentaje de curaciones con el fármaco muy probablemente está entre 10 puntos porcentuales por debajo del porcentaje de curaciones con el placebo y 50 puntos porcentuales por encima. Afirmar que el fármaco es inútil tiene como consecuencia que se abandone su estudio y se descarte la posibilidad de usarlo, cuando podría ser enormemente útil, como el intervalo de confianza indica.
 

Ejemplo al tomar postura en los test de normalidad


Con mucha frecuencia en la bibliografía científica se leen frases del tipo de ‘Se hizo el test de Kolmogorov para comprobar que la variable en estudio tiene distribución normal’. Y con mucha frecuencia los revisores de artículos científicos y miembros de comités evaluadores aceptan esa frase como correcta. Pero es básicamente errónea. Ningún test estadístico puede comprobar que una variable tiene en la población una distribución normal (o de alguna otra forma). La normalidad de la variable en cuestión es precisamente la hipótesis nula de ese test y, si el valor de p obtenido es muy pequeño, indica una fuerte evidencia contra esa hipótesis, es decir, indica que no hay distribución normal. Pero, si se obtiene un valor de p grande, no se puede decir que quede comprobada la normalidad. Lo que dice ese valor de p es que los datos son compatibles con que en la población la variable se distribuya como normal y, también, con que no sea así.

Terminamos con estas palabras del editorial de Nature de febrero de 2014, volumen 506: ‘La mayoría de los médicos no entiende lo que indica el valor de p del test, que usan todos los días. Al usarlo mal ayudan a enterrar la verdad científica bajo una avalancha de falsas conclusiones. Ha habido un fracaso histórico en esta enseñanza’.
 

Conclusión


El razonamiento empleado en la inferencia estadística es el mismo que el que realizan todas las personas en la vida diaria. No hay una complejidad intelectual especial en él. Si se entiende que el valor de p de un test es simplemente la proporción de veces que aparece cierto resultado si es cierta la denominada hipótesis nula, la lógica más básica invita a pensar que si el valor de p es grande, puede que la hipótesis nula sea cierta y se acepta como posible. Pero es muy distinto concluir que es posible que cierto suceso ocurra a afirmar que ocurre. Es fundamental darse cuenta de ello. En un ensayo clínico, afirmar que un fármaco es inútil si el valor de p del test es, por ejemplo, 0,12, tiene como consecuencia que se abandone su estudio y se descarte la posibilidad de usarlo, cuando podría ser enormemente útil. Debe estar claro que ese valor de p indica que el resultado del estudio es compatible con que el fármaco sea inútil, pero también es compatible con que pueda ser útil, y por ello puede ser pertinente hacer más estudios que puedan sacarnos de la duda. La interpretación correcta de los valores de p ‘grandes’ evitará abandonar líneas de investigación que pueden ser muy fructíferas.

 

Bibliografía
 


 1. Freiman JA, Chalmers TC, Smith H Jr, Kuebler RR. The importance of beta, the type II error and sample size in the design and interpretation of the randomized control trial. Survey of 71 ‘negative’ trials. N Engl J Med 1978; 299: 690-4.

 2. Rothman KJ. The origin of modern epidemiology, the book. Eur J Epidemiol 2021; 36: 763-5.

 3. Montalescot G, White HD, Gallo R, Cohen M, Steg PG, Aylward PEG, et al. Enoxaparin versus unfractionated heparin in elective percutaneous coronary intervention. N Engl J Med 2006; 355: 1006-17.

 4. Suverein MM, Delnoij TSR, Lorusso R, Brandon Bravo Bruinsma GJ, Otterspoor L, Elzo Kraemer CV, et al. Early extracorporeal CPR for refractory out-of-hospital cardiac arrest. N Engl J Med 2023; 388: 299-309.

 5. Martínez-Sellés M, Prieto L, Herranz I. Frequent mistakes in the statistical inference of biomedical data. Ital Heart J 2005; 6: 90-5.

 6. Zinsmeister AR, Connor JT. Ten common statistical errors and how to avoid them. Am J Gastroenterol 2008; 103: 262-6.

 7. Armitage P, Berry G. Statistical methods in medical research. 4 ed. Massachusetts, MA: Blackwell; 2010.

 8. Carazo-Díaz C, Prieto Valiente L. El valor de p del test no es un ‘índice matemático’, es simplemente una frecuencia relativa. Rev Neurol 2024; 78: 209-11.

 

The enormous difference between not rejecting a null hypothesis and stating that it is true


Abstract. Assuming that a hypothesis is true because insufficient evidence has been found to reject it is a very common error when interpreting the p-value of a test in biomedical research. For example, a value of p = 0.28 obviously does not mean the null hypothesis should be ruled out, but if we understand what it means (which is not a mathematical issue, but instead a purely logical one) that it is equally obvious that it cannot be stated that it is true. If the samples in a comparison of a new drug with an old one show that the new one has a higher healing percentage and the p-value of the test is 0.0004, for example, the scientific community concludes that the new one is better. However, if for example the p-value of the test is 0.14, the scientific community does not conclude that the new one is as good as the old one. It merely concludes that the new one has not been shown to outperform the other one. It is therefore possible that an extension of the study with more cases may demonstrate that the new one is better.

Key words. Clinical trial. Medical research. Normality test. Null hypothesis. p-value. Statistical significance.
 

 

© 2024 Revista de Neurología

Si ya es un usuario registrado en Neurologia, introduzca sus datos de inicio de sesión.


Rellene los campos para registrarse en Neurologia.com y acceder a todos nuestros artículos de forma gratuita
Datos básicos
He leído y acepto la política de privacidad y el aviso legal
Seleccione la casilla si desea recibir el número quincenal de Revista de Neurología por correo electrónico. De forma quincenal se le mandará un correo con los títulos de los artículos publicados en Revista de Neurología.
Seleccione la casilla si desea recibir el boletín semanal de Revista de Neurología por correo electrónico. El boletín semanal es una selección de las noticias publicadas diariamente en Revista de Neurología.
Seleccione la casilla si desea recibir información general de neurologia.com (Entrevistas, nuevos cursos de formación, eventos, etc.)
Datos complementarios

Se os solicita los datos de redes para dar repercusión por estos medios a las publicaciones en las que usted participe.

En cumplimiento de la Ley 34/2002, de 11 de julio, de Servicios de la Sociedad de la Información y de Comercio Electrónico (LSSI-CE), Viguera Editores, S.L.U. se compromete a proteger la privacidad de sus datos personales y a no emplearlos para fines no éticos.

El usuario otorga su consentimiento al tratamiento automatizado de los datos incluidos en el formulario. Los datos facilitados se tratarán siempre con la máxima confidencialidad, salvaguardando su privacidad y con los límites que establecen las leyes vigentes en España, y nunca se cederán a personas ajenas a la organización.

Usted tiene derecho a rectificar sus datos personales en cualquier momento informándolo a secretaria@viguera.com. También se le informa de la posibilidad de ejercitar el derecho de cancelación de los datos personales comunicados.



¡CONVIÉRTASE EN USUARIO PREMIUM DE NEUROLOGIA.COM!

Además, por convertirte en usuario premium, recibirá las siguientes ventajas:

  • Plaza asegurada en todos nuestros Másteres (www.ineurocampus.com)
  • Descuento del 5% en los cursos de “Actualización en Neurología”, la FMC que estará disponible próximamente en la web.
  • Descarga gratuita en formato PDF dos de las obras con más éxito publicadas por Viguera Editores:
    • Oromotors Disorders in childhood (M. Roig-Quilis; L. Pennington)
    • Manual de Neuropsicología 2ª ed. (J. Tirapu-Ustárroz; M. Ríos-Lago; F. Maestú)

El precio para hacerse Premium durante el periodo de un año es de 5€, que podrá pagar a continuación a través de una pasarela de pago seguro con tarjeta de crédito, transferencia bancaria o PayPal:

QUIERO HACERME PREMIUM

No deseo hacerme premium


QUIERO MATRICULARME

No deseo matricularme