Introducción
Con cierta frecuencia, cuando el médico presenta un proyecto de investigación, el comité evaluador le pide que indique la potencia estadística de ese estudio. Si la potencia es, por ejemplo, 0,12, quiere decir que, si en realidad existe el efecto que la investigación está buscando, la probabilidad de que el test de p sea ≤ 0,05, u otra cantidad a que el investigador elija, es del 12%. Es decir, sólo en 12 de cada 100 veces que repitamos esa investigación aparecerá p ≤ 0,05. En este caso no procedería hacer ese estudio, pues la probabilidad de encontrar el efecto cuando realmente existe es baja. Por el contrario, si la potencia es 0,97, en el 97% de las veces que repitamos ese estudio aparecerá p ≤ 0,05. Es muy probable obtener ese valor de p y, por ello, procede hacer el estudio [1].
Todo esto parece lógico y dicha apariencia de razonabilidad es lo que ha dado origen a que los evaluadores que no conocen bien el tema cometan errores que perjudican a los médicos y entorpecen la investigación [2]. A continuación, se muestran esos errores y la utilidad del concepto de potencia y sus limitaciones.
Potencia estadística: utilidad y limitaciones
Pongamos un estudio destinado a indagar si el fármaco ‘F’ modifica los niveles en sangre del neurotransmisor ‘N12’. Mediremos el nivel de N12 en cada individuo de dos muestras, tratamiento y placebo, de tamaño N. ¿Cómo calculamos la potencia estadística? Usando la fórmula,
Z Potencia = [(N/2)0,5 D/σ] – ZValor de p
que el médico no entiende, ni tiene obligación de entender, porque no es su especialidad. Los programas informáticos calculan la potencia pidiéndonos cuatro valores: tamaño de la muestra, N, valor de p que elegimos como barrera, a, desviación estándar de la variable, σ, y diferencia de las medias poblacionales, D, que mide el efecto real del fármaco [1]. Por ello, una vez fijado N, aún quedan tres parámetros más que hay que concretar y, según sean sus valores, se pueden obtener potencias muy diferentes, como ilustra la tabla I.
Tabla I. Potencia estadística (en negrita) correspondiente a dos valores distintos de N, α, σ y D.
|
N en cada brazo
|
p
|
σ = 12
|
σ = 15
|
D = 12
|
D = 6
|
D = 12
|
D = 6
|
40
|
0,05
|
99%
|
60%
|
94%
|
42%
|
40
|
0,01
|
96%
|
35%
|
82%
|
20%
|
20
|
0,05
|
87%
|
34%
|
69%
|
23%
|
20
|
0,01
|
67%
|
14%
|
44%
|
8%
|
Vemos que, a igualdad de otros parámetros, la potencia es menor cuanto menor sea el efecto real del fármaco, D. Así, con N = 40 y una desviación estándar de 12, la probabilidad de que el test muestre p ≤ 0,05 es del 99%, si realmente con F la media del neurotransmisor es 12 unidades mayor que con el placebo. Pero esa probabilidad es del 60% para D = 6. De igual modo, vemos que, a igualdad de otros parámetros, la potencia es menor cuanto menor sea el valor de p del test acordado y cuanto mayor sea la desviación estándar de la variable. Y si proyectamos el estudio con N = 20, en cada muestra, los valores de potencia bajan notablemente.
Cuenta la leyenda que un viejo general muy autoritario preguntó a su ayudante qué hora era y éste, poniéndose firme, le contestó: ‘la que usted quiera, mi general’. Del mismo modo, cuando el evaluador de un proyecto pregunta cuál es la potencia del estudio propuesto, se le podría contestar, sin faltar a la verdad: ‘Casi la que usted quiera’.
Si, por ejemplo, sólo contamos con recursos para realizar el estudio con 20 pacientes en cada brazo y se considera D = 6, σ = 15 y p = 0,01, la potencia es del 8% (Tabla I). Con tan baja potencia, parece lógico y obligado no aprobar este proyecto. Pero si usamos D = 12, σ = 12 y p = 0,05, la potencia es del 87%, que invita claramente a autorizarlo.
Observe que el valor de p = 0,05 es una opcion válida, y también lo es σ = 12, no muy distinta de σ = 15; y en cuanto al efecto real del fármaco, 12 es mucho mayor que 6, pero, si el médico estima que el efecto real puede ser del orden de 12, será muy difícil encontrar razones objetivas para negar esa posibilidad.
Siempre que un evaluador pregunte cuál es la potencia de un estudio planeado con N individuos, debe tener claro que depende de otros tres parámetros y que, jugando adecuadamente con esos tres valores dentro de márgenes razonables, la potencia puede salir casi cualquier valor. Si se le responde diciendo que la potencia es, por ejemplo, del 93% y se da por satisfecho alegando que es razonablemente alta y por ello autoriza el proyecto, quiere decir que no entiende este concepto. Si lo entendiera, preguntaría obligatoriamente los valores del efecto real, la desviación y p que se corresponden con esa potencia. Y, por la misma razón, si a un médico le rechazan un proyecto argumentando baja potencia, el evaluador debe preguntar para qué valores de D, σ y p se ha calculado la potencia [3]. Curiosamente, en la mayoría de los casos ocurre que, variando ligeramente esas tres cantidades, dentro de márgenes razonables, la potencia toma un valor aceptable.
Por tanto, aunque la idea original de rechazar estudios con baja potencia y autorizarlos si es alta es razonable e incluso obligada, en la práctica es de escasa utilidad, porque realmente no existe ‘la’ potencia de un estudio. Además, hay que tener claro que no hay un valor frontera que separe los valores ‘altos’ de potencia de los ‘bajos’. Así, 97 u 89% son claramente altos, mientras que 7 u 11% son muy bajos, pero no hay una cifra de corte, sino una amplia zona de transición, como ocurre con otros muchos parámetros de la investigación médica y de la vida en general [4].
Qué postura tomar tras hacer un estudio con poca potencia estadística y resultado muy significativo
En algunas situaciones, aunque poco frecuentes, los tres parámetros que determinan la potencia tienen valores muy definidos y aceptan poco margen de variación. En la tabla I veíamos que usando N = 20, con desviación 15 y efecto 6, la potencia para obtener p ≤ 0,01 es del 8%. Si el investigador tiene razones fuertes para no aceptar variar más de una unidad cada parámetro, encontramos que, con desviación 14 y efecto real 7, la potencia para obtener p ≤ 0,02 es del 21% (no incluida en la tabla I), que sigue siendo muy baja. En este caso, hay claro consenso en que este proyecto no debe ser financiado [3]. Pero si, a pesar de la pequeña probabilidad de éxito, decide hacer el estudio con N = 20 en cada brazo, consideremos el posible resultado ilustrado en la tabla II, en el que las desviaciones en cada muestra y la diferencia de medias muestrales no están muy alejadas de los valores que presumía el investigador.
Tabla II. Valor de p e intervalo de confianza al 95% correspondientes a un contraste de medias con N = 20 y desviación estándar en torno a 14, en cada brazo, y efecto real en torno a 7.
|
|
N
|
Media
|
Desviación
|
Placebo
|
20
|
50
|
10
|
Fármaco F
|
20
|
63
|
11
|
Efecto muestral: 13 (6,3, 19,7), p = 0,0004
|
Al ser el valor de p muy pequeño, existe evidencia a favor de que la media poblacional con el fármaco es mayor que con el placebo. En esta situación no ha lugar a objetar que el estudio tenía baja potencia estadística para los valores inicialmente estimados y desestimar su resultado [5]. Esto no es una cuestión matemática, es pura lógica básica que todos los humanos compartimos si entendemos lo esencial de la inferencia estadística.
Un sencillo ejemplo puede ayudarnos a entender la lógica de este razonamiento. Supongamos que al terminar un largo paseo por Central Park caemos en la cuenta de que probablemente en él, pero no sabemos en qué punto, hemos perdido una valiosa joya. A la mañana siguiente nos disponemos a buscarla. Dado el gran tamaño del parque, si la búsqueda la hace una sola persona, la probabilidad de encontrar la joya es muy pequeña. Esa acción tiene ‘poca potencia’ y se desaconseja. Si colaboran N = 20 personas, esa probabilidad es mayor, y si colaboran N = 200 personas, es mucho mayor. Si usted no tiene recursos para contratar más personas y decide ir solo a buscarla, está claro que tiene muy pequeña probabilidad de encontrarla. Pero, si va solo y encuentra la joya, no podemos cuestionar el resultado, alegando que su acción tenía poca potencia. Antes de realizar la búsqueda podemos valorar si cierto número de personas es suficiente o no. Pero, una vez hecha, si ha tenido éxito, no tiene sentido discutir sobre el número de buscadores.
Conclusión
La potencia de un estudio no es única. Jugando adecuadamente con los parámetros de los que depende, puede ser casi cualquier valor. Por tanto, la idea razonable de rechazar estudios con baja potencia y autorizarlos si es alta es de escasa utilidad. Además, cuando se presenta un estudio con resultados muy significativos, no tiene sentido preguntarnos por la potencia que tenía. Una vez realizado, si ha habido éxito, sólo cabe celebrarlo y aprovechar su resultado. Consideración aparte merece el caso en que el resultado del estudio no es estadísticamente significativo. Entonces sí puede ser pertinente considerar la potencia que tenía. A ello dedicaremos un artículo aparte.
Bibliografía
↵ 1. Norton BJ, Strube MJ. Understanding statistical power. J Orthop Sports Phys Ther 2001; 31: 307-15.
↵ 2. Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol 2016; 31: 337-50.
↵ 3. Tsang R, Colley L, Lynd LD. Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials. J Clin Epidemiol 2009; 62: 609-16.
↵ 4. Prieto L, Prieto-Merino D. Errores más frecuentes al elaborar conclusiones en trabajos científicos. Fisiología 2003; 6: 4-5.
↵ 5. Prieto L. How to avoid frequents mistakes when inferring in physiological research. In XXXII Congress of the Spanish Society of Physiological Sciences and international joint meeting with the physiological society. Tenerife, España, 13-17 de febrero de 2003.
Statistical power in medical research. What stance should be taken when the research results are significant?
Abstract. When researchers request funding and authorisation from financial institutions to carry out their project, one of the first questions they are asked is: what is the statistical power of the study you are proposing? If the researcher answers, for example, 90%, and the evaluator is satisfied, it is certain that he/she is not really familiar with the subject. The power of a study is not unique. It depends on certain parameters and what happens is that, in most cases, by introducing a slight variation in the values of these parameters, the power takes on an acceptable value. If this is not the case and the study is carried out anyway, and its results are very significant, there is no room to question its success by arguing that the power of the study was very low. It is just the time to celebrate.
Key words. Medical research. p-value. Real effect. Standard deviation. Statistical inference. Statistical power.
|
© 2023 Revista de Neurología