Nota estadística

El valor de p del test no es un ‘índice matemático’, es simplemente una frecuencia relativa

C. Carazo-Díaz, L. Prieto-Valiente [REV NEUROL 2024;78:209-211] PMID: 38502169 DOI: https://doi.org/10.33588/rn.7807.2023164

OPEN ACCESS

Volumen 78 | Número 07 | Nº de lecturas del artículo 2.131 | Nº de descargas del PDF 175 | Fecha de publicación del artículo 01/04/2024

Descarga PDF Castellano Citación Buscar en PubMed

Compartir en:

Introducción El valor de p del test en la investigación médica Conclusión The p-value of the test is not a ‘mathematical index’, it is simply a relative frequency

Ir a otro artículo del número

RESUMEN

Las revistas científicas más importantes en campos como medicina, biología y sociología publican reiteradamente artículos y editoriales denunciando que un gran porcentaje de médicos no entiende los conceptos básicos del análisis estadístico, lo que favorece el riesgo de cometer errores al interpretar los datos, los hace más vulnerables frente a informaciones falsas y reduce la eficacia de la investigación. Este problema se extiende a lo largo de toda su carrera profesional y se debe, en gran parte, a una enseñanza deficiente en estadística que es común en países desarrollados. En palabras de H. Halle y S. Krauss, ‘el 90% de los profesores universitarios alemanes que usan con asiduidad el valor de p de los test no entiende lo que mide ese valor’. Es importante destacar que los razonamientos básicos del análisis estadístico son similares a los que realizamos en nuestra vida cotidiana y que comprender los conceptos básicos del análisis estadístico no requiere conocimiento matemático alguno. En contra de lo que muchos investigadores creen, el valor de p del test no es un ‘índice matemático’ que nos permita concluir claramente si, por ejemplo, un fármaco es más efectivo que el placebo. El valor de p del test es simplemente un porcentaje. Palabras claveFrecuencia Hipótesis Inferencia estadística Investigación médica Muestra Valor de p

TEXTO COMPLETO (solo disponible en lengua castellana / Only available in Spanish)

Introducción

En contra de lo que muchos médicos creen –y temen– el valor de p del test no es un ‘índice matemático’ que nos permita concluir claramente si, por ejemplo, un fármaco es más efectivo que el placebo. El valor de p del test es simplemente una frecuencia relativa, que se puede expresar como proporción o porcentaje o tanto por mil. Nos dice qué proporción de veces aparece cierto resultado si es cierta una determinada hipótesis [1,2]. Aquí mostraremos cómo se usa ese valor en el contexto en que su interpretación es más fácil y directa. Si se entiende claramente en esta situación básica, es mucho más fácil entender lo que dice este valor en cualquier otra situación del análisis estadístico.

Previamente tenemos que recordar el mecanismo lógico básico de la inferencia estadística, que consiste en que los resultados de un estudio invitan a rechazar una hipótesis si son claramente incompatibles con ella, es decir, si es muy difícil que aparezca ese resultado si la hipótesis es cierta. Si son claramente compatibles con ella (es fácil que aparezca ese resultado si la hipótesis es cierta), no invitan a rechazarla y en ese caso se acepta como posible. Es obvio que aceptar una hipótesis como posible no implica afirmar que es cierta. Esto es un razonamiento básico, que usan correcta y constantemente todos los adultos de cualquier nivel cultural en su día a día [3].

Si me proponen como hipótesis que el animal oculto tras la mampara es un toro y me entero de que tiene alas, rechazo esa hipótesis, porque, si fuera un toro, no tendría alas. Y si me entero de que tiene cuatro patas, acepto la hipótesis como posible, pero no afirmo que sea cierta. Puede ser un toro y puede no serlo.

Si me proponen como hipótesis que las dos personas llegadas a urgencias con dolor de abdomen agudo tienen torsión de ovarios y me entero de que una de ellas es un varón, rechazo la hipótesis, porque el dato es incompatible con ella. Si la otra es una mujer, acepto la hipótesis como posible, pero no afirmo que sea cierta. Puede ser que tenga ese problema u otro que cause dolor abdominal.

Muchos médicos cometen el error lógico fundamental de afirmar que la hipótesis es cierta, porque el dato es compatible con ella. Afirman que el animal es un toro y que la paciente tiene torsión de ovarios.

El valor de p del test en la investigación médica

En la investigación médica se aplica la misma lógica. En muchos casos planteamos como hipótesis que, en una población, la frecuencia relativa de personas con cierta enfermedad (E), tiene cierto valor. Tomamos una muestra al azar (es decir, sin escoger intencionadamente cierto tipo de individuos) de esa población. Nos inclinamos más a rechazar la hipótesis cuanto más se aleja la frecuencia relativa de personas enfermas en la muestra del valor que propone la hipótesis.

Por ejemplo, sabemos que en la población con dieta A son E el 20% y nos preguntamos si en la población con dieta B ocurre lo mismo. Si en una muestra de 200 personas con dieta B encontramos 198 con E, el 99%, nos obliga a pensar que en la población con esa dieta no son E el 20%, porque de una población con 20% de E es prácticamente imposible obtener al azar una muestra de 200 con el 98% de E. Por otra parte, si en una muestra de 200 personas con dieta C encontramos 44 con E, es el 22% y pensamos que en la población con dieta C pueden ser E el 20%, porque de una población con 20% de E es fácil obtener al azar una muestra de 200 con el 22% de E. Estos sencillos razonamientos son la esencia de la inferencia estadística. Todos los humanos compartimos este modo de razonar y no hay en ello nada ‘matemático’, ‘filosófico’ ni ‘científico’.

Pero con muestras más pequeñas cabría pensar que puede salir casi cualquier frecuencia relativa de E en la muestra, haya mucho o poco porcentaje en la población [4]. Si en una muestra de 10 personas con dieta D encontramos 0 E, es el 0%. ¿Es compatible una muestra de 10 con 0 E con que en la población sean E el 20%? Esta pregunta es la misma que ¿de una población con 20% de E es fácil obtener al azar una muestra de N = 10 con el 0% de E?

Para responder hay que concretar cómo se mide esa dificultad. Y se mide mirando la proporción de muestras que tiene el 0% de E cuando se toman millones de muestras de ese tamaño de una población que tiene el 20% de E. Esta idea es la clave de la inferencia estadística. Entenderla con claridad es crucial para entender el análisis estadístico. Por eso la repetimos: hay que averiguar la proporción de muestras que tiene el 0% cuando se toman muchas muestras de una población que tiene el 20%. Esa proporción es el valor de p del test. Así de fácil.

Si de una población donde hay un 20% de enfermos se toman muchas muestras de 10 personas cada una, se encuentra que 11 de cada 100 muestras tienen 0 E. Decimos que el valor de p del test es = 0,11. El dato es compatible con que en la población con dieta D sean E el 20%. Pero no afirmamos que sea el 20%, solo decimos que puede serlo.

Por otra parte, en una muestra de N = 10 con dieta F, se encuentra que los 10 son E. La pregunta es: ¿de una población con el 20% de E es fácil obtener al azar una muestra de N = 10 con el 100% de E? Para responder hay que mirar la proporción de muestras que tiene el 100% de E cuando se toman muchas muestras de ese tamaño de una población que tiene el 20% de E. Esa proporción es el valor de p del test. Se encuentra que sólo 1 de cada 10 millones de muestras tiene los 10 con E, por lo que es extremadamente difícil obtener al azar este tipo de muestra si en población son E el 20%. Decimos que el valor de p del test es = 0,0000001. El dato es muy difícilmente compatible con que en la población con dieta F sean E el 20%. Por ello, consideramos este dato fuerte evidencia contra la hipótesis que dice que en la población son E el 20%.

En todos los ejemplos anteriores en la muestra había ningún enfermo o todos enfermos. Cuando el resultado no está en el extremo, en una o en otra dirección, se calcula la proporción de veces que aparecen tantos individuos como los encontrados en nuestro estudio u otra cantidad más alejada de la esperada bajo la hipótesis. Por ejemplo, se sabe que en la población de andaluces (padres y cuatro abuelos nacidos en Andalucía) tiene la mutación K12 el 10% de las personas. Sospechamos que en otras regiones ese porcentaje es mayor y estudiamos una muestra de 80 personas en dos regiones.

En Galicia encontramos 10 personas K12, que es el 12,5%. El valor de p del test es la proporción de muestras que tiene 10 o más K12 si tomamos miles de muestras de N = 80 de una población con el 10% de K12. Resulta ser un valor de p = 0,27. Si en Galicia tuvieran esa mutación el 10%, es relativamente fácil que en una muestra de 80 gallegos haya 10 o más con la mutación. Decimos que el resultado es compatible con que en la población gallega haya igual porcentaje de mutaciones que en Andalucía. Aceptamos esa hipótesis de igualdad. Tampoco afirmamos que sea cierta. Decimos que los datos son compatibles con que sea cierta.

En Cataluña encontramos 24 personas K12, que es el 30%. El valor de p del test es la proporción de muestras que tiene 24 o más K12 si tomamos miles de muestras de N = 80 de una población con un 10% de K12. Resulta ser un valor de p = 0,0000009. Si en Cataluña tuviera esa mutación el 10%, es muy difícil que en una muestra de 80 catalanes haya 24 o más con la mutación. Decimos que el resultado es muy difícilmente compatible con que en la población catalana haya igual porcentaje de mutaciones que en Andalucía. Rechazamos esa hipótesis y nos inclinamos fuertemente a pensar que la proporción en Cataluña es mayor del 10%.

Lo visto en estos ejemplos contiene la esencia de lo que indica el valor de p del test y por qué consideramos que cuantifica la evidencia que tenemos contra la hipótesis. En otras situaciones, la explicación es un poquito más compleja, pero la esencia del razonamiento es exactamente la misma. El investigador que consiga entender lo aquí expuesto tiene mucho avanzado para entender lo que indica el valor de p del test en cualquier otra situación.

Conclusión

El mecanismo lógico básico de la inferencia estadística consiste en rechazar una hipótesis si el resultado del estudio es claramente incompatible con ella, es decir, si es muy difícil que aparezca cuando la hipótesis es cierta. Si el resultado es claramente compatible con ella (es fácil que aparezca si la hipótesis es cierta), se acepta como posible. Es obvio que aceptar una hipótesis como posible no implica afirmar que es cierta. Estos razonamientos sencillos son la esencia del análisis estadístico. Todos los humanos compartimos este mismo modo de razonar.

El valor de p del test es simplemente la proporción de veces que aparece cierto resultado al sacar muchas muestras al azar de una población en la que es cierta la hipótesis. Por tanto, el valor de p cuantifica el grado de incompatibilidad del resultado con la hipótesis.

Bibliografía

↵ 1. Valiente LP, Tejedor IH. Bioestadística sin dificultades matemáticas. Madrid: Ediciones Díaz de Santos; 2010.

↵ 2. Prieto-Valiente L, Herranz-Tejedor I. ¿Qué significa ‘estadísticamente significativo’?: la falacia del criterio del 5% en la investigación. Madrid: Ediciones Díaz de Santos; 2005.

↵ 3. Martínez-Sellés M, Prieto L, Herranz I. Frequent mistakes in the statistical inference of biomedical data. Ital Heart J 2005; 6: 90-5.

↵ 4. Valiente LP, Merino DP. El ‘valor de p’ y otras notas estadísticas. CONAREC 2015; 31: 87-90.

The p-value of the test is not a ‘mathematical index’, it is simply a relative frequency

Abstract. Leading scientific journals in fields such as medicine, biology and sociology repeatedly publish articles and editorials claiming that a large percentage of doctors do not understand the basics of statistical analysis, which increases the risk of errors in interpreting data, makes them more vulnerable to misinformation and reduces the effectiveness of research. This problem extends throughout their careers and is largely due to the poor training they receive in statistics – a problem that is common in developed countries. As stated by H. Halle and S. Krauss, ‘90% of German university lecturers who regularly use the p-value in tests do not understand what that value actually measures’. It is important to note that the basic reasoning of statistical analysis is similar to what we do in our daily lives and that understanding the basic concepts of statistical analysis does not require any knowledge of mathematics. Contrary to what many researchers believe, the p-value of the test is not a ‘mathematical index’ that allows us to clearly conclude whether, for example, a drug is more effective than a placebo. The p-value of the test is simply a percentage.

Key words. Frequency. Hypothesis. Medical research. p-value. Sample. Statistical inference.

Acceso directo al último número