Tema 3b. Medidas de dispersión

Una vez organizados los datos en distribuciones de frecuencias y calculadas diferentes medidas para resumir las distribuciones de frecuencias, lo siguiente que cabe plantearse es hasta qué punto las medidas de posición constituyen un buen resumen de la muestra, o dicho de otro modo son representativas. Para dar respuesta a esta pregunta debemos tener en cuenta que una medida de posición central será más representativa cuanto más agrupados en torno a ella se encuentren los datos de la muestra. Por el contrario, si los datos se encuentran muy alejados de una medida de posición central, diremos que la muestra presenta mucha dispersión o variabilidad y que la medida de posición central es menos representativa.

Nos interesará por tanto la distancia entre cada valor de la muestra y la medida de posición central considerada en cada caso. Así, si las distancias de los valores a la medida de posición central considerada son pequeñas diremos que es representativa. Llamaremos dispersión o variabilidad a distancia entre los valores de la muestra y una medida de posición central. Si la dispersión con respecto a una medida de posición central el grande podremos decir que esta medida de posición no es representativa.

Medidas de dispersión absolutas

Recorrido

Definimos el recorrido de una muestra como la diferencia entre el valor máximo y el mínimo:

Re=x_n-x_1

Recorrido Intercuartílico

Definimos el recorrido intercuartílico como la distancia entre el primer y el tercer cuartil.

Ri=Q_{3/4}-Q_{1/4}

El recorrido intercuartílico nos indica la longitud del intervalo en el que están incluidos el 50% de los valores centrales de la muestra.

Así, si Ri es pequeño podemos intuir que la muestra presentará poca dispersión.

Estás dos medidas nos dan una idea de la dispersión de la muestra pero no utilizan ninguna medida de posición central, por lo que no pueden utilizarse para analizar la representatividad de ninguna medida en concreto.

Ejemplo.- Para el ejemplo de las líneas de móvil por unidad familiar tendremos:

x_i n_i N_i
1 12 12
2 36 48
3 28 76
4 19 95
5 13 108
6 2 110
7 2 112
112

Re=x_n-X_1=7-1=6

Q_{1/4}=2  (Posición 28)

Q_{3/4}=4  (Posición 84)

Ri=Q_{3/4}-Q_{1/4}=4-2=2

Desviaciones medias

Las desviaciones medias obtienen el valor absoluto de las distancias entre la medida de posición considerada y los datos. Se calculan habitualmente respecto a la media aritmética y respecto a la mediana.

Desviación respecto a la media aritmética

La desviación media respecto a la media aritmética se define como la media de las distancias en a la media aritmética en valor absoluto, es decir,

Un valor grande de esta medida de dispersión nos indicará una gran dispersión en la distribución y una media aritmética poco representativa.

D_{\overline x} =\frac{\sum_{i=1}^N |x_i-\overline x|\cdot n_i}{N}

Un valor grande de esta medida de dispersión nos indicará una gran dispersión en la distribución y una media aritmética poco representativa.

Desviación respecto a la mediana

La desviación media respecto a la mediana se obtiene como la media entre el valor absoluto de las distancias a la mediana, es decir,

D_{Me} =\frac{\sum_{i=1}^N |x_i-Me|\cdot n_i}{N}

Un valor grande para esta medida, indicará al igual que en el caso anterior, gran dispersión en la muestra, y en este caso podremos afirmar que la median no es representativa.

Como comentamos en las propiedades de la mediana, la desviación media se hace mínima al calcularla con la mediana, por lo que:

D_{Me} < D_{\overline x}

Las medidas de desviación medias presentan el inconveniente de utilizar el valor absoluto, función que no es derivable y no resulta muy adecuada para determinados cálculos.

Ejemplo.- Para el ejemplo de las líneas de móvil por unidad familiar tendremos:

x_i n_i |x_i-\overline x|\cdot n_i |x_i-Me|\cdot n_i
1 12 23,89 24
2 36 35,68 36
3 28 0,25 0
4 19 19,17 19
5 13 26,12 26
6 2 6,02 6
7 2 8,02 8
112 119,14 119

D_{\overline x} =\frac{\sum_{i=1}^N |x_i-\overline x|\cdot n_i}{N}=\frac{119;14}{112}=1,064

D_{Me} =\frac{\sum_{i=1}^N |x_i-Me|\cdot n_i}{N}=\frac{119}{112}=1,063

La varianza

La varianza es la media de las desviaciones con respecto a la media al cuadrado, es decir:

S^2 =\frac{\sum_{i=1}^N (x_i-\overline x)^2\cdot n_i}{N}

Podemos decir que la varianza, junto con su raíz cuadrada son las medidas de dispersión con respecto a la media aritmética más importantes y por tanto más utilizadas.

La varianza toma valores más elevados cuanto mayores son las desviaciones respecto a la media que presenta la muestra, por lo que un valor más elevado indica mayor dispersión y menos representatividad de la media.

La Desviación típica

Las desviaciones medias, al calcularse en términos de valor absoluto vienen expresadas en las mismas unidades que la variable en cuestión. Sin embargo, la varianza está expresada en las unidades correspondientes al cuadrado y esto dificulta su interpretación. Para resolver este inconveniente se define la desviación típica o desviación estándar

S= \sqrt {S^2} =\sqrt{ \frac{\sum_{i=1}^N (x_i-\overline x)^2\cdot n_i}{N}}

La desviación típica es la raíz cuadrada con signo positivo de la varianza, es decir,

De este modo las unidades de medida de la desviación típica son las mismas que las de la distribución siendo por tanto una medida de  dispersión más sencilla de interpretar que la varianza. La desviación típica se ve más influida por valores extremos que en la desviación media.

Propiedades de la varianza

  1. La varianza nunca puede es negativaS^2 para cualquier distribución.
  2. Por minimizar las distancias cuadráticas de los datos de la muestra a cualquier punto, la varianza se considera la medida cuadrática de dispersión óptima: S^2 = \frac{\sum_{i=1}^N (x_i-\overline x)^2\cdot n_i}{N} < \frac{\sum_{i=1}^N (x_i-k)^2\cdot n_i}{N}
  3. La varianza es el momento central de orden dos y como tal se puede calcular a partir de los momentos con respecto al origen iguales o inferiores. Es posible obtenerla tomando el momento con respecto al origen de segundo orden y restándole el de primer orden elevado al cuadrado: S^2 = \alpha_2 -\alpha_1^2
  4. La varianza permanece invariante ante cambios de origen, o dicho de otro modo, si transformamos los valores de la variable sumando a todos una constante, la varianza no varía: S^2(X+a) = S^2(X)
  5. Los cambios de escala sí afectan a la varianza. En este caso la varianza de la variable que se obtiene al multiplicar los valores de una distribución de frecuencias por cualquier constante k, es la varianza de la variable original multiplicada por el cuadrado de la constante:  S^2(X\cdot b) = S^2(b)

Ejemplo.- Para el ejemplo de las líneas de móvil por unidad familiar tendremos:

x_i n_i (xi-Media)^2 \cdot ni
1 12 47,57
2 36 35,36
3 28 0,00
4 19 19,34
5 13 52,47
6 2 18,11
7 2 32,14
112 204,99

S^2 = \frac{\sum_{i=1}^N (x_i-\overline x)^2\cdot n_i}{N}=\frac{204,99}{112}=1,83

S= \sqrt {S^2} =\sqrt{1,83}

Para cualquier distribución de frecuencias se cumple la siguiente relación entre las desviaciones típicas y las desviaciones medias:

D_{Me} < D_{\overline x} < S

Como hemos visto, las medidas de dispersión absolutas están siempre referidas a alguna medida de posición central, por lo que nos ayudarán a obtener información sobre su representatividad.

Medidas de dispersión relativas

Como hemos visto, las medidas de dispersión absolutas vienen dadas en las mismas unidades que los datos de la variable o en dichas unidades al cuadrado. Esto supone un problema cuando lo que nos interesa es comparar dos distribuciones a fin de obtener cual de ellas presenta menor dispersión o variabilidad o en cual de ellas el promedio es más representativo. Para esta comparación necesitaremos construir medidas adimensionales, es decir, que no vengan afectadas por las unidades de medida. Estas medidas adimensionales se construirán en forma de cocientes, es decir, de índices.

Coeficiente de apertura

El coeficiente de apertura se obtiene como el cociente entre el mayor valor de la distribución y el menor, es decir,

A=\frac{x_n}{x_1}

Aunque es fácil de calcular, el coeficiente de apertura presenta algunas desventajas:

  • La primera es que mide la dispersión de la distribución sin hacer referencia a ninguna medida de posición central, por lo que no nos permite comparar la representatividad de ninguna de estas medidas.
  • Además, como únicamente tiene en consideración los dos valores más extremos de la distribución nos dará una gran dispersión si estos valores están muy separados, incluso si el resto de valores están muy concentrados.

Recorrido relativo

El recorrido relativo es el cociente entre el recorrido y la media aritmética.

Rr=\frac{Re}{\overline x}

Nos indica, por tanto, el número de veces que el recorrido contiene a la media aritmética.

Recorrido semi-intercuartílico

El recorrido semi-intercuartílico es el cociente entre el recorrido intercuartílico y la suma del primer y tercer cuartil:

Rs=\frac{Q_{3/4}-Q_{1/4}}{Q_{3/4}+Q_{1/4}}

Ejemplo.- Para el ejemplo de las líneas de móvil por unidad familiar tendremos:

x_i n_i
1 12
2 36
3 28
4 19
5 13
6 2
7 2
112

A=\frac{x_n}{x_1}=\frac{7}{1}=7

Rr=\frac{Re}{\overline x}=\frac{7-1}{2,99}=2,005

Rs=\frac{Q_{3/4}-Q_{1/4}}{Q_{3/4}+Q_{1/4}}=\frac{4-2}{4+2}=0,33

Coeficiente de Variación de Pearson

El coeficiente de variación de Pearson es probablemente la medida de dispersión relativa más importante ya que es el cociente entre la desviación típica y la media aritmética:

V=\frac{S}{\overline x}

De este modo representa el representa el número de veces que la desviación típica contiene a la media aritmética.  Así, cuanto mayor sea el coeficiente de variación mayor será el número de veces que S contiene a \overline x, por lo que \overline x será menos representativa.

Utiliza todos los datos de la distribución y relaciona las medidas de posición y dispersión más relevantes. El problema que presenta este coeficiente es que no se puede calcular para aquella distribuciones cuya media es exactamente cero y se verá afectado por valor muy pequeños de la media aritmética, perdiendo representatividad en estos casos.

Índice de dispersión respecto a la mediana

Podemos definir una medida similar al coeficiente de variación pero referida a la mediana, el índice de dispersión con respecto a la mediana. Este índice se obtiene como el cociente entre la desviación con respecto a la mediana y la mediana, es decir,

V_{Me}=\frac{D_{Me}}{Me}

Este índice mide el número de veces que la mediana está contenida en la desviación con respecto a la mediana de la distribución, por lo que valores más grandes nos indican una mayor dispersión y por tanto una menor representatividad de la mediana.

De forma análoga al coeficiente de variación no se puede calcular si la mediana es cero y se verá muy afectado por valores pequeños para esta medida.

Ejemplo.- Para el ejemplo de las líneas de móvil por unidad familiar tendremos:

V=\frac{S}{\overline x}=\frac{1,35}{2,99}=0,45

V_{Me}=\frac{D_{Me}}{Me}=\frac{1,063}{3}=0,35