Articulo:

Rehabil. integral 2009; 4 (2): 112-117

Técnicas gráficas en el análisis exploratorio de datos en rehabilitación

Abstract

Graphical techniques in explorative data analysis in rehabilitation

Considering the capabilities of current software package, there are several applications of graphical representations in the rehabilitation area, that allows to visualize straightforward partial and total structural data disposition, to suggest relationships between variables or to compare different samples which makes an easy reading and its later interpretation.

Key words: Graphical representation, statistical table, explorative data analysis.

Resumen

Considerando las capacidades de los programas computacionales actuales, se presentan diversas aplicaciones de representaciones gráficas en el área de rehabilitación usando el problema de la parálisis cerebral. Estas representaciones permiten de una forma sencilla, visualizar la disposición parcial y estructura total de los datos, sugerir relaciones entre variables o hacer comparaciones entre varias muestras, lo que facilita su lectura e interpretación posterior.

Palabras clave: Representación gráfica, tablas estadísticas, análisis exploratorio de datos.

Introducción

La parálisis cerebral (PC) comprende un grupo de trastornos del desarrollo del movimiento y la postura, causantes de limitación de la actividad, que se atribuyen a trastornos no progresivos que ocurrieron en el cerebro fetal o infantil en desarrollo. Los trastornos motores de la PC se acompañan a menudo de alteraciones sensoriales, cognitivas, de la comunicación, perceptivas y/o por un trastorno convulsivo. La prevalencia de PC se encuentra entre 2 y 3 sujetos por cada 1 000 nacidos vivos1.
Una herramienta muy utilizada en niños con PC es el Gross Motor Function Measure-88 (GMFM-88), la cual evalúa la habilidad motora gruesa en 8 pruebas, agrupadas en 5 dimensiones: A: decúbito y giros, B: sentado, C: gateo y arrodillado, D: pararse y E: caminar, correr y saltar. Además se dispone de la GMFM-66, escala de más reciente introducción, que usa solamente 66 pruebas ordenadas por nivel de dificultad (Russell et al 2000)2. Es una pauta unidimensional3 que se obtuvo en el año 2000 cuando Avery et al4, aplicó el análisis de Rasch a la GMFM-88, logrando determinar el ordenamiento jerárquico de las pruebas, eliminar algunos ítem de las dimensiones decúbito y sentado y estimar un intervalo de puntajes representativo de la habilidad motora global del niño. Estos cambios pueden facilitar un seguimiento clínico del progreso del niño e identificar actos motores emergentes en el momento del desarrollo en que se producen.
Lo anterior, presenta la disyuntiva de describir resultados de la evaluación GMFM-66, aplicada a un grupo de niños con PC, de una manera sencilla y fácil de comprender a través del uso de técnicas gráficas en una etapa inicial de análisis exploratorio.

Elementos del análisis exploratorio

El análisis exploratorio de datos, hace posible la descripción en forma precisa de las variables facilitando su lectura e interpretación. Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de frecuencias y b) la representación gráfica. Estos permiten realizar análisis univariado referido a la descripción de una variable, bivariado, estableciendo relaciones entre dos variables mediante tablas con tabulaciones cruzadas, o trivariado. En el análisis bivariado, las categorías de una variable se cruzan con las categorías de una segunda variable. En el análisis trivariado, se incluye una tercera variable de control, dependiendo de los objetivos y de la naturaleza de la investigación que se realiza.

Distribución de frecuencias. Comúnmente llamada tabla de frecuencias en el ámbito de investigación5, se utiliza para presentar datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la división en categorías o clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar (Tabla 1).
En la tabla de contingencia o datos cruzados, se puede relacionar más de una variable y extender así el análisis univariado a bivariado. Si se quiere mostrar la distribución de puntajes de GMFM-66 por tipo de compromiso motor, el porcentaje se calcula por fi las; si el objetivo es comparar los puntajes de GMFM-66 según tipo de compromiso motor, el porcentaje se obtiene por columnas (Tabla 2).

Representación gráfica univariada. A partir de la distribución de frecuencias se procede a presentar los datos por medio de gráficos, a fin de facilitar la lectura e interpretación de las variables medidas. Los actuales programas computacionales como Excel, Lotus, Minitab, SAS, Stath Graph y SPSS, entre otros, permiten obtener representaciones gráficas de diversos conjuntos de datos.

Gráfico de tallo y hoja (stem and leaf diagram). Esta representación se basa en la ordenación de los datos a manera de gráfico, pero sin llegar a ello, utilizando las decenas y las unidades6. Ejemplo, se dispone de resultados de 20 niños evaluados con GMFM-66: 

58 63 69 35 27 44 39 21 12 40
24 23 33 40 23 53 18 55 23 35

Observando cada uno de los datos, se separan las decenas de las unidades, es decir, el número 58 se considerará como 5 | 8. De esta manera las decenas se pondrán en la primera columna, en forma vertical, y las unidades a su derecha:

En la primera fila aparecen los dígitos 1| 2 8, y significa que en la lista de datos se encuentran los valores 12 y 18. En esta representación gráfica, la primera columna a la izquierda es una posición de tallo y cada dígito de la derecha es una hoja. Para graficar, primero empezar por el tallo, es decir la columna de la izquierda, y después dato a dato, ir llenando las hojas de la columna vertical, en la fila del tallo correspondiente.
A pesar de no ser un gráfico definitivo para la presentación de datos, es fácil y rápido para realizar manualmente; con él se puede dar una mirada inicial a los datos y posibilitar su interpretación, respecto del valor que se repite con mayor frecuencia, la forma general de la distribución (simetría, asimetría derecha o izquierda), grado de dispersión en relación de algún valor característico (mediana, promedio aritmético) y “outliers” (observaciones individuales que se escapan del patrón general de los datos), entre otras características.

Gráfico circular. También conocido como gráfico de torta o de sectores, se utiliza para variables categóricas o cualitativas, es decir, aquellas en que se pueden clasificar las frecuencias de las categorías de la variable7, como son: compromiso funcional, diagnóstico, tipo de PC, etc. Se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponda un arco de círculo proporcional a su frecuencia absoluta o relativa. (Figura 1).

Diagrama de barras. Es similar al gráfico de sectores. Se representan tantas barras como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada categoría. Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman valores (número de atenciones, número de lesiones, etc) (Figura 2). 

Histograma. Es un gráfico que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia a disponerse en torno a la mediana o el promedio aritmético, su forma y dispersión8. Para variables numéricas continuas, tales como la edad o el puntaje de un test, se usa el histograma. Para construir un gráfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo, un rectángulo que tiene a éste como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas expresadas en porcentaje) de los datos en cada intervalo y el área de los rectángulos. El gráfico incluido muestra una asimetría derecha, es decir, hay menos pacientes de edades mayores comparativamente con los que presentan menos edad (Figura 3).

Ojiva. Se emplea para representar frecuencias acumuladas, es decir, la suma de frecuencias de intervalos o categorías contiguas. Consiste en obtener la poligonal al unir los puntos definidos, en cada intervalo. Por ejemplo, informa que hasta los 15 años, se han evaluado 428 pacientes mediante GMFM-66 en los Institutos Teletón, durante el año 2008 (Figura 4).

Diagrama de cajas. Es otro modo de resumir una variable de tipo numérica. La caja central indica el rango en el que se concentra el 50% de los datos, el extremo inferior de la caja, corresponde al percentil 25, es decir, el 25% inferior de valores y el extremo superior, indica el percentil 75; la línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Fuera de la caja, se encuentran “los bigotes”, que representan el valor mínimo y máximo observado. También se suelen  representar aquellas observaciones que caen fuera de este rango (“outliers” o valores atípicos y extremos)9,10. Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos (Figura 5).

Gráfico de series de tiempo. Es un gráfico de línea, en que la línea horizontal representa el tiempo. Es utilizada para representar tendencias como puede ser las atenciones de un diagnóstico específico por año (Figura 6). 

 

Representación gráfica bivariada

Diagrama de dispersión. Es la forma más sencilla de identificar si existe relación entre dos variables y que tan consistente es esta relación. Por ejemplo, edad y Gross Motor Ability Estimator (GMAE), el gráfico indica ausencia de correlación entre ambas variables, ya que la disposición de los puntos no describe ninguna tendencia (Figura 7). La Figura 8, muestra presencia de correlación positiva o directa entre las variables, es decir, a medida que aumenta la estatura, aumenta el peso en las niñas entre 1 mes y 10 años de edad. 

Barras agrupadas. Estos gráficos comparan valores entre categorías. Se utilizan para representar distribuciones de frecuencias de variables discretas por categorías de dos variables cualitativas o categóricas, donde la altura de la barra se identifica con una variable y la otra con el color o achurado de la misma; el objetivo es efectuar comparaciones con mayor facilidad. Por ejemplo en la Figura 9 se muestran niños evaluados con GMFM-66 por tipo de PC y género.

Síntesis

Hemos visto, la importancia y utilidad que las representaciones gráficas pueden alcanzar en el proceso de análisis de datos en rehabilitación. La mayoría de los textos estadísticos y epidemiológicos10 hacen hincapié en los distintos tipos de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados en el proceso de análisis exploratorio. No obstante, precisar cuándo es más apropiado usar un gráfico que una tabla, dependerá de los objetivos planteados en el estudio. Generalmente, en las presentaciones con diapositivas se aconseja el uso de gráficos por su fácil comprensión; en los estudios para publicar, las tablas pueden aportar mayor contenido de información.

Referencias

  1. Robaina-Castellanos GS, Riesgo-Rodríguez S, Robaina-Castellanos MS. Definición y clasificación de la parálisis cerebral: ¿Un problema ya resuelto? Rev Neurol 2007; 45: 110-7. (Link)
  2. Wang HY, Yang YH. Evaluating the responsiveness of 2 versions of the Gross Motor Function Measure for Children with cerebral palsy. Arch Phys Med Rehabil 2006; 87: 51-6. (Link)
  3. Russell D, Avery L, Rosenbaum P, Raina P, Walter S, Palisano R. Improved scaling of the Gross Motor Function Measure for children with cerebral palsy: Evidence of reliability and validity. Phys Ther 2000; 80: 873-85. (Link)
  4. Russell D, Rosenbaum P, Avery L, Lane M. Gross Motor Function Measure (GMFM-66 & GMFM-88). User’s Manual. Ontario, Canada. Cambridge University, 2002. 234p.
  5. Ávila Baray HL. (2006). Introducción a la metodología de la investigación. Edición electrónica. Texto completo en www.eumed.net/libros/2006c/203/ [Consulta: 29 mayo 2009].
  6. Escalante E, Caro A, Barahona L. Análisis y tratamiento de datos en SPSS. Valparaíso, Chile. Universidad de Playa Ancha de Ciencias de la Educación, 2002; 217 p.  (Link)
  7. Singer PA, Feinstein AR. Graphical display of categorical data. J Clin Epidemiol 1993; 46 (3): 231-6 [Medline] [Consulta: 28 mayo 2009]. (Link)
  8. Gutiérrez H. (1998). Calidad total y productividad. México. Editorial McGraw-Hill.
  9.  Representación gráfica en el análisis de datos. Disponible en www.fisterra.com/mbe/investiga/graficos/graficos.asp [Consulta: 28 mayo 2009].
  10. Simpson RJ, Johnson TA, Amara IA. The box-plot: an exploratory analysis for biomedical publications. AmHeart J 1988; 116 (6 Part 1): 1663-5.x (Link)