Nota estadística

The dramatic loss of statistical power when dichotomising continuous variables

C. Carazo-Díaz, L. Prieto-Valiente [REV NEUROL 2024;78:27-29] PMID: 38112654 DOI: https://doi.org/10.33588/rn.7801.2023163 OPEN ACCESS
Volumen 78 | Number 01 | Nº of views of the article 2.022 | Nº of PDF downloads 118 | Article publication date 01/01/2024
Icono-PDF-OFF Download PDF Castellano Citation Search in PubMed
Share in: Facebook Twitter
Go to another issue
ABSTRACT Artículo en español English version
Abstract. A very common practice in medical research, during the process of data analysis, is to dichotomise numerical variables in two groups. This leads to the loss of very useful information that can undermine the effectiveness of the research. Several examples are used to show how the dichotomisation of numerical variables can lead to a loss of statistical power in studies. This can be a critical aspect in assessing, for example, whether a therapeutic procedure is more effective or whether a certain factor is a risk factor. Dichotomising continuous variables is therefore not recommended unless there is a very specific reason to do so. KeywordsDichotomisationMedical researchp-valueReal effectStatistical inferenceStatistical power
FULL TEXT (solo disponible en lengua castellana / Only available in Spanish)

Introducción


Con cierta frecuencia, los médicos que realizan estudios de investigación y que necesitan analizar variables continuas las dicotomizan asumiendo puntos de corte, que en muchos casos adoptan porque así lo han visto en otras publicaciones, sin que haya motivo razonado para ello [1].

Ese procedimiento puede ayudar ocasionalmente a la interpretación de los resultados, pero suele implicar la pérdida de información, que generalmente se traduce en una disminución de la potencia estadística del estudio [2]. La potencia estadística es la probabilidad que tenemos de encontrar un valor de p del test suficientemente pequeño, si hay efecto real. Menor potencia estadística implica menor capacidad para detectar efectos que hay en la naturaleza, como puede ser la eficacia de un nuevo fármaco o el efecto pernicioso de un factor de riesgo.

Médicos y promotores hacen un esfuerzo humano y económico muy considerable para consumar un estudio serio. Desperdiciar parte de esa valiosa inversión por seguir una rutina que, en muchos casos, no tiene ninguna justificación es un despilfarro que la comunidad científica no se puede permitir.

Para ilustrar esta realidad consideramos un ejemplo concreto. Un estudio analiza la relación entre la concentración de lipoproteínas de alta densidad (HDL) en mg/dL y el número de horas de ejercicio que un individuo hace al mes. Los datos recogidos se ilustran en la tabla I.

 

Tabla I. Concentración de lipoproteínas de alta densidad (HDL) y horas de ejercicio al mes realizadas por 16 sujetos elegidos al azar.
 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16


HDL (mg/dL)
 

42

50

44

51

54

59

63

65

53

59

54

58

68

65

75

70


Horas
 

0

5

9

16

18

12

17

19

20

24

27

33

34

36

38

43


 

Se plantea como hipótesis nula, Ho, que la concentración de HDL no está asociada a la práctica de ejercicio.

Análisis con ambas variables dicotomizadas: comparación de dos proporciones


Se decide realizar el estudio tratando ambas variables como dicotómicas. Se considera cantidad de ejercicio ‘baja’ si es inferior a 20 horas y ‘alta’ en caso contrario, y se considera la concentración de HDL ‘baja’ si es menor de 60 mg/dL y ‘alta’ en caso contrario.

En la muestra, tienen HDL altas el 25% (2/8) de los individuos con ejercicio bajo y el 50% (4/8) de los individuos con ejercicio alto, es decir, hay un mayor porcentaje de individuos con HDL altas entre los que hacen ‘alta’ cantidad de ejercicio. Para la hipótesis nula (el % de personas con HDL altas es igual en la población de ejercicio bajo y en la de ejercicio alto) se encuentra un valor de p del test = 0,3, lo que no invita a rechazar la hipótesis. El test exacto de Fisher da p = 0,6.

Análisis con el ejercicio dicotomizado y el HDL en su valor original: comparación de dos medias


Las HDL medias de los ocho individuos con ejercicio bajo son 53,5 (±3) y en los ocho pacientes con ejercicio alto son 62,8 (±2,8). Para la hipótesis nula (la media de HDL es igual en la población de ejercicio bajo y en la de ejercicio alto), encontramos un valor de  la t de Student = 2,24 y una p = 0,04, lo que constituye una evidencia modesta contra la hipótesis.

Análisis con ambas variables en su valor original: regresión lineal


En los individuos de la muestra, en promedio, mayores niveles de HDL se corresponden con mayor cantidad de horas de ejercicio realizadas. La recta de mínimos cuadrados que mejor expresa esta tendencia es HDL = 11,4 + 0,61 horas. Para la hipótesis nula: ‘en la población, los niveles de HDL no varían, en promedio, con el nivel de ejercicio’, al hacer la inferencia, encontramos p = 0,0001, lo que constituye una evidencia muy fuerte contra la hipótesis [3].

En resumen, al dicotomizar ambas variables, el valor de p del test = 0,3 no aporta evidencia contra la Ho. Al dicotomizar únicamente el ejercicio, el valor de p del test = 0,04 aporta evidencia moderada contra la Ho. Si ambas variables se usan con sus valores originales, el valor de p del test = 0,0001 aporta evidencia contundente contra la Ho, lo que nos permite concluir que por cada 10 horas más de ejercicio al mes, las HDL de los individuos aumentan, en promedio, 6,1 mg/dL (intervalo de confianza: 3,7 y 8,5).

Aunque este es un ejemplo muy particular (para un punto de corte concreto en ambas variables), si se eligieran otros dos puntos de corte, el resultado sería muy similar [4]. La realidad es que con la dicotomización siempre se pierde potencia estadística, tal y como se muestra en el siguiente apartado.

Potencia estadística de un test comparando dos medias


Asumamos que la media poblacional de HDL es 50 mg/dL en personas con dieta estándar y 60 mg/dL en personas con dieta enriquecida con aceite de oliva, con desviación estándar de 10 mg/dL y distribución normal en ambos casos. Ésta es la realidad poblacional que el médico no conoce y a la que trata de aproximarse estudiando dos muestras con N = 20 individuos en cada grupo.

Si analizamos los datos usando la concentración de HDL encontrada en cada individuo y planteamos como hipótesis nula que las medias poblacionales son iguales, la comparación de las medias muestrales con el test de la t de Student tiene una potencia estadística del 89% para encontrar un valor de p ≤ 0,05. Aunque los cálculos pertinentes no competen al médico, sino al estadístico y a los ordenadores, el médico puede entender perfectamente los conceptos implicados sin necesidad de recurrir a ningún recurso matemático. Lo que indica la potencia del 89% es que el test mostrará un valor de p ≤ 0,05 en 89 de cada 100 veces que se haga ese estudio. En cambio, si dicotomizamos la variable considerando, por ejemplo, ‘HDL bajo’ menos de 55 mg/dL y ‘HDL alto’ en otro caso, y planteamos como hipótesis nula que el porcentaje de ‘bajos’ es igual en ambas poblaciones (con y sin aceite de oliva), la comparación de los porcentajes muestrales con el test de la χ2 tiene una potencia estadística del 68% para un valor de p ≤ 0,05. Es decir, el test mostrará un valor de p ≤ 0,05 en 68 de cada 100 veces que se haga ese estudio. La pérdida de potencia estadística es de 21 puntos porcentuales (89%-68% = 21 puntos), que también se puede expresar como pérdida del 23,6% (21/89 = 23,6%).

Si el punto de corte de las HDL se pone, por ejemplo, en 65 mg/dL, la comparación de los porcentajes muestrales para un valor de p ≤ 0,05 tiene una potencia estadística del 49%, 40 puntos porcentuales menor que la potencia del 89% manteniendo la puntuación original.

Esta pérdida de potencia ocurre igualmente si se elige otro valor de p del test como criterio para rechazar la hipótesis nula [5]. Si elige, por ejemplo, el valor de p ≤ 0,01, la potencia estadística de ambos tipos de test es menor, pero sigue siendo considerablemente menor si se dicotomiza la variable, como se ve en la tabla II.

 

Tabla II. Potencia del estudio con N = 20 en cada brazo si las lipoproteínas de alta densidad (HDL) medias poblacionales de los individuos con dieta estándar aventajan a las de los de dieta enriquecida en 10 mg/dL, la desviación estándar es 10 mg/dL y se acuerda rechazar la hipótesis nula, con valor de p ≤ 0,05 bilateral, o bien p ≤ 0,01.
 

p ≤ 0,05

p ≤ 0,01


HDL (en mg/dL) consideradas como:
 

Potencia


Variable continua
 

89%

67%


Dicotómica (en % con HDL bajas < 55)
 

68%

43%


Dicotómica (en % con HDL bajas < 65)
 

49%

25%


 

Aun sin estos resultados tan claros, hay otra razón básica para no realizar una dicotomización de variables continuas si no hay un motivo concreto para ello. Si, por ejemplo, dicotomizamos la edad, estableciendo tres categorías: ‘jóvenes de 20 a 40 años, maduros de 41 a 65 y viejos mayores de 65’, estamos considerando equivalentes en edad al anciano de 96 años y al de 66, lo que parece contrario a la realidad biológica. Y estamos considerando en distintos grupos al de 64 años y al de 65, cuando biológicamente son muy próximos. Con cualquier otra variable continua que se dicotomice, se cae en las mismas contradicciones. 
 

Conclusión


Como conclusión, podemos afirmar que la dicotomización de variables continuas implica una pérdida de información que reduce la potencia estadística de los estudios a los que se aplica, ya que disminuye la capacidad para detectar diferencias reales. Esto puede ser un aspecto crítico que impida valorar, por ejemplo, si un procedimiento terapéutico es más efectivo o si un método diagnóstico es más eficaz. Además, al dicotomizar, consideramos como equivalentes cantidades que en realidad son muy distintas.
 

Bibliografía
 


 1. Rothman KJ, Greenland S, Lash TL. Modern epidemiology. Philadelphia: Wolters Kluwer Health/Lippincott Williams & Wilkins; 2008.

 2. Cumsille F, Bangdiwala SI. Categorización de variables en el análisis estadístico de datos: consecuencias sobre la interpretación de resultados. Revista Panamericana de Salud Pública 2000; 8: 348-54.

 3. Núñez E, Steyerberg EW, Núñez J. Estrategias para la elaboración de modelos estadísticos de regresión. Rev Esp Cardiol 2011; 64: 501-7.

 4. Armitage P, Berry G, Matthews JNS. Statistical methods in medical Research. Hoboken: John Wiley & Sons; 2008.

 5. Cole SR, Edwards JK, Greenland S. Surprise! Am J Epidemiol 2021; 190: 191-3.

 

The dramatic loss of statistical power when dichotomising continuous variables


Abstract. A very common practice in medical research, during the process of data analysis, is to dichotomise numerical variables in two groups. This leads to the loss of very useful information that can undermine the effectiveness of the research. Several examples are used to show how the dichotomisation of numerical variables can lead to a loss of statistical power in studies. This can be a critical aspect in assessing, for example, whether a therapeutic procedure is more effective or whether a certain factor is a risk factor. Dichotomising continuous variables is therefore not recommended unless there is a very specific reason to do so.

Key words. Dichotomisation. Medical research. p-value. Real effect. Statistical inference. Statistical power.
 

 

© 2024 Revista de Neurología

Si ya es un usuario registrado en Neurologia, introduzca sus datos de inicio de sesión.


Rellene los campos para registrarse en Neurologia.com y acceder a todos nuestros artículos de forma gratuita
Datos básicos
He leído y acepto la política de privacidad y el aviso legal
Seleccione la casilla si desea recibir el número quincenal de Revista de Neurología por correo electrónico. De forma quincenal se le mandará un correo con los títulos de los artículos publicados en Revista de Neurología.
Seleccione la casilla si desea recibir el boletín semanal de Revista de Neurología por correo electrónico. El boletín semanal es una selección de las noticias publicadas diariamente en Revista de Neurología.
Seleccione la casilla si desea recibir información general de neurologia.com (Entrevistas, nuevos cursos de formación, eventos, etc.)
Datos complementarios

Se os solicita los datos de redes para dar repercusión por estos medios a las publicaciones en las que usted participe.

En cumplimiento de la Ley 34/2002, de 11 de julio, de Servicios de la Sociedad de la Información y de Comercio Electrónico (LSSI-CE), Viguera Editores, S.L.U. se compromete a proteger la privacidad de sus datos personales y a no emplearlos para fines no éticos.

El usuario otorga su consentimiento al tratamiento automatizado de los datos incluidos en el formulario. Los datos facilitados se tratarán siempre con la máxima confidencialidad, salvaguardando su privacidad y con los límites que establecen las leyes vigentes en España, y nunca se cederán a personas ajenas a la organización.

Usted tiene derecho a rectificar sus datos personales en cualquier momento informándolo a secretaria@viguera.com. También se le informa de la posibilidad de ejercitar el derecho de cancelación de los datos personales comunicados.



¡CONVIÉRTASE EN USUARIO PREMIUM DE NEUROLOGIA.COM!

Además, por convertirte en usuario premium, recibirá las siguientes ventajas:

  • Plaza asegurada en todos nuestros Másteres (www.ineurocampus.com)
  • Descuento del 5% en los cursos de “Actualización en Neurología”, la FMC que estará disponible próximamente en la web.
  • Descarga gratuita en formato PDF dos de las obras con más éxito publicadas por Viguera Editores:
    • Oromotors Disorders in childhood (M. Roig-Quilis; L. Pennington)
    • Manual de Neuropsicología 2ª ed. (J. Tirapu-Ustárroz; M. Ríos-Lago; F. Maestú)

El precio para hacerse Premium durante el periodo de un año es de 5€, que podrá pagar a continuación a través de una pasarela de pago seguro con tarjeta de crédito, transferencia bancaria o PayPal:

QUIERO HACERME PREMIUM

No deseo hacerme premium


QUIERO MATRICULARME

No deseo matricularme