Articulo:

Rehabil. integral 2010; 5 (2): 99-107

Uso de medidas estadísticas de resumen en el área de rehabilitación

Abstract

Use of summery statistical measures in rehabilitation

The global characteristics from a study population’s data can be summarized by representative numerical values called statistical parameters. In the health area it is usually not possible to work with the whole universe; therefore, it is necessary to calculate statistics from samples. Among them, we have the measures of central tendency, such as the arithmetic or geometric media, the median and the dispersion measures such as the standard deviation, range, the interquartile amplitude and the coefficient of variation, among others. These measures provide information regarding the behavior of the statistical distribution when analyzing the sample’s results. Later on, specific statistical tests must be selected, whose results will go to support or refute the hypothesis. As medicine is increasingly quantitative, the knowledge of the correct application of these measures will allow us to read the medical literature more critically to detect potential errors, fallacies, and evaluating study protocols and reports submitted for publication.

Key words: Measures of central tendency, measures of dispersion, standardized variable.

Resumen

Las características globales de un conjunto de datos provenientes de una población en estudio, pueden resumirse mediante valores numéricos representativos llamados parámetros estadísticos. En el área de salud, habitualmente no es posible trabajar con todo el universo, por lo tanto, se debe calcular estadísticas provenientes de muestras. Entre ellas, las medidas de tendencia central, como la media aritmética o geométrica, la moda o la mediana y, las medidas de dispersión como la desviación estándar, el rango, la amplitud intercuartílica y el coeficiente de variación entre otras. Estas medidas informan del comportamiento de la distribución estadística de los resultados en las muestras. Posteriormente, se deben seleccionar las pruebas estadísticas específicas, cuyos resultados irán a apoyar o rechazar la hipótesis de trabajo. Como la medicina es cada vez más cuantitativa, el conocimiento de la correcta aplicación de estas medidas, permitirá leer la bibliografía médica con mayor capacidad crítica para detectar errores potenciales, falacias, valorar protocolos de estudio e informes remitidos para su publicación.

Palabras clave: Medidas de tendencia central, medidas de dispersión, variable tipificada.

Introducción

El profesional del área de rehabilitación, una vez que ha recolectado los datos de diferentes variables en estudio, por ejemplo, el puntaje obtenido en actividades de la vida diaria medido con pauta WeeFIM o el tipo de parálisis cerebral (PC), se pregunta: ¿Cómo puedo resumir los datos observados en un grupo de niños en una sola medida? ¿Esta medida reflejará la variabilidad del conjunto de observaciones?, para responder a este cuestionamiento, se debe tomar en cuenta la necesidad de considerar dos factores muy importantes: uno es la escala de medición de la variable cuantitativa, es decir, variables numéricas a las cuales se les asigna una escala de intervalo, en que por su naturaleza, el valor cero es arbitrario, porque cada peldaño de la escala es el resultado de una batería de preguntas, por ejemplo, la dimensión autocuidado en WeeFIM; o una escala de razón, en que cada grada representa un número entero o decimal donde el valor cero tiene sentido, como es el caso de las variables peso o estatura1. Otro factor es la forma de distribución de las observaciones, es decir, si la distribución de los datos se desvía a la izquierda o a la derecha de la media o de la mediana y cuanto se alejan. Si existen observaciones distantes en una sola dirección, se trata de una distribución sesgada. Si los valores distantes son pequeños se sesga a la izquierda, sesgo negativo. Si los valores distantes son grandes se sesga a la derecha, sesgo positivo. Si no se obtienen valores muy distantes ni a izquierda ni derecha, estamos en presencia de una distribución sin sesgo o simétrica. Esta situación se gráfica en la Figura 1.

Sin título

Medidas de tendencia central2

a) La media o promedio aritmético (x)
En Figura 2, se presenta la posición que ocupa el promedio aritmético en una distribución de puntajes WeeFIM en cognición observado en 70 niños de 6 años en condiciones de extrema pobreza.Como la distribución de frecuencias es simétrica, sin sesgo, la media estadística representa el centro de gravedad de los valores de la variable estudiada. No necesariamente coincide con alguna de las cifras observadas en la población.
En Tabla 1, se muestra el cálculo del promedio, que corresponde a 30,93 puntos. Como esta medida es sensible a los valores extremos, sólo se recomienda su cálculo en distribuciones de frecuencias simétricas, sin sesgo.

b) La media geométrica
La media geométrica, se usa en presencia de variables de incremento porcentual constante o bien, cuando se desea expresar un porcentaje medio de crecimiento o de decrecimiento. También se aplica cuando se considera adecuado dar mayor importancia a los valores pequeños de la variable en estudio. Por ejemplo, si la tasa de crecimiento en cinco años del número de niños atendidos en un Instituto de Rehabilitación de la Región X es de: 0,9 %, 1,1%, 2%, 1,8% y 2,3%, no debería calcularse el promedio aritmético que es de 1,62, sino que, el promedio geométrico:La media geométrica presenta el inconveniente que si uno de los valores de la serie es cero, la media también resultará cero. Tampoco se puede usar si hay valores negativos.

c) La mediana
En situaciones de asimetría o sesgo, la mediana es la medida de preferencia. Se define como el valor que en un conjunto ordenado de datos según magnitud, deja igual número de observaciones a su izquierda y a su derecha, es decir, divide el conjunto de datos en dos partes iguales y se denota por Me. Si los datos no están agrupados en rangos/categorías, la mediana se determina ordenando las observaciones de menor a mayor y determinando el valor central (Tabla 2). Si la cantidad de datos es impar, la mediana se representa justamente por ese valor. En cambio, si la cantidad es par, la mediana es el promedio de los datos centrales.
En la Figura 3, se grafica la posición que ocupa el promedio y la mediana en la distribución del puntaje en movilidad y transferencias de WeeFIM. Como la distribución de puntajes tiene asimetría positiva, el promedio aritmético es de 12,4 puntos, es decir, se encuentra influido por los valores más altos, mientras que, la mediana es de 11 puntos y se mantiene en el centro de la distribución.gh

d) La moda
Es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. Puede haber más de una moda en una distribución. Se denota por Mo. Para el puntaje de movilidad y transferencias, existen dos modas 9 y 10 puntos, ya que representan las mayores frecuencias. La moda no se usa a menudo como medida de tendencia central para los datos cuantitativos, sin embargo, es la medida de tendencia central que puede ser calculada en datos cualitativos.

Medidas de dispersión3-5

Cuando se tiene una serie de mediciones como el peso, la estatura o el puntaje en calidad de vida en salud, provenientes de un grupo de niños, no basta con calcular la media o la mediana, porque poblaciones muy diferentes pueden tener la misma media. Además y debido a la variabilidad biológica, al graficar las distribuciones de frecuencias, se pueden obtener distribuciones con forma apuntada o estrecha, amplia o dispersa.
Varias son las medidas estadísticas que se utilizan para dar una idea clara de cómo es la dispersión o variación de las mediciones. Entre otras, el rango, recorrido, extensión o amplitud,la desviación estándar, el coeficiente de variación,percentiles y la amplitud intercuartíl.

a) Rango
El rango, es la más sencilla de las medidas de dispersión. Consiste en la diferencia entre el mayor valor de la serie de datos y el menor, o sea, restar ambos extremos. Es muy fácil de determinar. Da una descripción rápida de la variabilidad máxima de un grupo de observaciones. No es muy descriptiva de la misma, en el caso que el grupo de datos no sea simétrico, ya que sólo toma los valores extremos de la serie, según se observa en la Tabla 3.
Resulta obvio que ambas distribuciones de puntaje tienen el mismo rango o amplitud (22), pero no tienen la misma dispersión. En el puntaje de los niños de 6 años, los valores se sitúan de forma bastante dispersa entre los extremos; en el segundo la mayoría está cercana al mayor valor del puntaje. El rango es sensible a los valores extremos, por lo tanto, sólo se recomienda su cálculo en distribuciones de frecuencias simétricas.

b) La desviación estándar (DE)6
Es una medida que nos indica cuánto tienden a alejarse los valores de la variable de la media de una distribución. Específicamente la desviación estándar es el promedio de la distancia de cada punto respecto de su media. Por ejemplo,la distancia entre las puntuaciones de los valores del puntaje WeeFIM en cognición de los niños de 6 años en extrema pobreza es de ± 1,7 puntos respecto a su media de 30,93 puntos (Tabla 4).
Una desviación estándar grande indica que los puntos están lejos de la media, y una desviación pequeña indica que los datos están agrupados cerca de la media.
En una distribución simétrica 67% de las observaciones queda entre la media ± 1DE, 95% se sitúa entre la media ± 2 DE y el 99,7% se agrupa entre la media ± 3DE.

c) El coeficiente de variación
En muchas ocasiones resulta necesario comparar la dispersión entre dos o más conjuntos de datos, y sucede que las variables tienen diferentes unidades de medida. Con las medidas de dispersión estudiadas anteriormente, no se podrá llegar a una conclusión válida acerca de las desviaciones de los datos. Incluso, aún cuando se trate de una sola unidad de medida,las mediciones pueden variar considerablemente: si se compara la desviación estándar de la estatura de los niños portadores de PC de 1 a 5 años, con los niños portadores de PC de 6 a 14 años, es muy probable que esta última sea mayor que la primera, debido a que las tallas sean mayores, y no porque la variabilidad sea mayor precisamente.
En estos casos, es imprescindible contar con una medida de variabilidad relativa, como es el coeficiente de variación (CV), que expresa la desviación estándar como porcentaje de la media, y su cálculo se realiza mediante:Observe que, por tener la desviación estándar y la media la misma unidad de medida, quedan canceladas dichas unidades, de ahí que el coeficiente de variación no tenga unidades propias, o sea, es adimensional lo que facilita la comparación.En el siguiente ejemplo, si se comparan las desviaciones estándares de los dos grupos de edades, se pudiera creer que ambos tienen igual variabilidad:

formulas3

Sin embargo, al calcular el CV entonces: CVgrupo 1 = 6,66% y CVgrupo 2 = 2,66%, representando el grupo 1 casi tres veces más dispersión que el grupo 2.

d) Percentiles6
Como su nombre lo indica, son valores de la variable que dividen el conjunto de datos (ordenados de menor a mayor) en cien partes iguales. Así cuando se habla del percentil 20 (P20), se quiere expresar que es el valor de la variable que deja el 20% de los datos a su izquierda y el 80% de los mismos a su derecha, o lo que es lo mismo decir, que es el valor de la variable que deja el 20% de los datos por debajo de él y el 80% por encima. El percentil 25 equivale al cuartil 1 (Q1) y el percentil 75 al cuartil 3 (Q3). Es importante, de acuerdo a esta definición,recordar que: P50 = Me = Q2.
Para el puntaje de movilidad y transferencias, el P20 corresponde a 8 puntos, quiere decir, que el 20% de los pacientes alcanza como máximo los 8 puntos en la evaluación, mientras el resto (80% de ellos), alcanzan puntajes superiores a 8 puntos (Tabla 5).

e) Amplitud intercuartíl7
Para eliminar la influencia de los extremos,cuando nos encontramos con distribuciones asimétricas, se suele analizar la situación de la distribución intermedia de los datos; a esto se refiere el rango o amplitud intercuartíl, que es la diferencia entre el tercer y primer cuartíl,expresado como la diferencia entre el percentil 75 y percentil 25.
En la Figura 4, se muestra la ubicación del percentil 75 y percentil 25, entonces el 50% central de la distribución tiene una diferencia de: AI = 14-9 = 5 puntos.

f) Tipificación o estandarización8
Se conoce como tipificación al proceso de restar la media y dividir por su desviación estándar a una variable X, de este modo se obtiene una nueva variable denominada Z o variable tipificada, que tiene la particularidad de tener una media = 0 y una desviación estándar = 1.

Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son. Así por ejemplo, es posible comparar las pautas WeeFIM con la GMFM, cada una en relación a su población. También es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo si se desea comparar el nivel de autocuidado a través de WeeFIM de los Institutos Teletón de Arica y Puerto Montt, en principio sería injusto concederla directamente al que posea la mayor puntuación, ya que la dificultad de obtener una mayor puntuación puede ser mayor en Arica que en Puerto Montt. En este caso, lo más correcto es comparar las puntuaciones de ambos grupos, pero tipificadas cada una de ellas por las medias y desviaciones estándar respectivas. En Tabla 6, se presentan puntajes de autocuidado brutos y luego estandarizados.
En la Figura 5, es posible observar lo que sucede al estandarizar o tipificar el puntaje de 47 obtenido en la dimensión autocuidado de WeeFIM por niños de Institutos de Arica y Puerto Montt. Se verifica que efectivamente para el Instituto de Arica la puntuación 47 tiene más peso, es decir, es más significativa (1,31) porque se encuentra más alejada de la media que para el Instituto de Puerto Montt (0,44).
Es importante no confundir el coeficiente de variación con la variable Z tipificada. Los coeficientes de variación sirven para comparar las variabilidades de dos conjuntos de muestras,mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores tipificados. Ninguno de ellos posee unidades y es un error frecuente confundirlos.
En síntesis, se ha explicado el uso de las medidas de resumen de posición y dispersión de mayor frecuencia utilizadas en el área de rehabilitación y su correcta interpretación, lo que permitirá posteriormente seleccionar pruebas de hipótesis en todos aquellos estudios que, según su diseño lo requieran. Para facilitar aún más la comprensión de estas medidas, se adjunta el siguiente cuadro de resumen (Tabla 7).

 

Referencias

  1. Solís F. El problema de medir en rehabilitación. Rehabil Integral 2009; 4 (1): 41-7.
  2. Medidas de tendencia central. Disponible en: http://bibliotecavirtual.lasalleurubamba.edu.pe/Estadistica/res/pdf/estadisticadescriptivavariables2.pdf [Consulta:10 junio 2010].
  3. Sackett D, Haynes R, Guyat G, Tugwel P. Epidemiología clínica: Ciencia básica para la medicina clínica. 2ªed. Madrid. Médica Panamericana. 1994.
  4. Fletcher RH, Fletcher SW, Wagner E. Epidemiología clínica. 2ª ed. Barcelona. Masson, Williams & Wilkins.1998.
  5. Estadística descriptiva de los datos. Disponible en:http://fisterra.com/mbe/investiga/10descriptiva/10descriptiva.asp [Consulta: 15 marzo 2010].
  6. Bioestadística: Métodos y aplicaciones. Disponible en:http://www.bioestadistica.uma.es/libro/ [Consulta: 15 marzo 2010].
  7. Canavos G. Probabilidad y estadística: Aplicaciones y métodos. 1ª ed. España. McGraw Hill. 1988.
  8. Nociones básicas de estadística en educación. Disponible en: http://www.demre.cl/text/doc_tecnicos/p2009/estadistica_descriptiva.pdf [Consulta: 15 marzo 2010].