Tema 3c. Medidas de forma

Para la posterior modelización de las distribuciones debemos fijarnos en la forma que presenta su representación gráfica. Esto nos permitirá compararla con la forma que toman las distribuciones de probabilidad que conocemos, para seleccionar así la que mejor representa el comportamiento de los datos. En este sentido tendremos en cuenta dos tipos de medidas, las medidas de asimetría y las medidas de curtosis.

  • Las medidas de asimetría se encargar de medir la simetría o asimetría que presenta la distribución.
  • Las medidas de curtosis se encargan de medir el apuntamiento o la concentración alrededor de la media que presentan los datos.

Medidas de asimetría

Las medidas de asimetría son indicadores que permiten establecer el grado de simetría (o asimetría) que presentan los datos de la distribución sin tener que representarlos gráficamente. Para medir la simetría de una distribución de frecuencias se toma como eje de asimetría la recta paralela al eje de ordenadas que pasa por la media aritmética de la muestra.

Si una distribución es simétrica, podemos afirmar que existe el mismo número de valores a la derecha que a la izquierda de la media aritmética, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo. Necesitaremos por tanto, para construir una medida de asimetría calcular las distancias entre los datos y la media aritmética pero conservando ahora los signos, para así comprobar si las distancias entre la media y los valores inferiores coincide con las distancias entre la media y los valores superiores. De este modo, el momento de orden 3 con respecto a la media aritmética constituye una medida de asimetría, es decir:

m_3=\frac{\sum_{i=1}^N (x_i - \overline x )^3 \cdot n_i}{N}

  • Si la distribución es simétrica, m_3=0.
  • Si las distribución es asimétrica positiva o a derechas, m_3>0.

[En este caso la suma de las desviaciones positivas es mayor que la suma de las desviaciones negativas, o dicho de otro modo los valores a la derecha de la media están más alejados de esta formando una rama más larga a este lado.]

  • Si la distribución es asimétrica negativa o a izquierdas, m_3<0.

[En este caso la suma de las desviaciones negativas es mayor que la suma de las desviaciones positivas, o dicho de otro modo los valores a la izquierda de la media están más alejados de esta formando una rama más larga a este lado.]

m_3 esta expresado en las mismas unidades que las de la variable pero elevadas al cubo  y se puede obtener a partir de los momento con respecto al origen haciendo uso de la siguiente expresión:

m_3=\alpha_3 - 3 \alpha_2 \alpha_1 + 2 \alpha_1^3

Coeficiente de asimetría de R.A.Fisher

Si dividimos m3 entre la desviación típica al cubo obtenemos el coeficiente de asimetría de fisher, que se calcula:

g_1=\frac{m_3}{S^3}=\frac{\frac{\sum_{i=1}^N (x_i - \overline x )^3 \cdot n_i}{N}}{\left(\frac{\sum_{i=1}^N (x_i - \overline x )^2 \cdot n_i}{N}\right)^{3/2}}

S es siempre positiva de modo que el signo de g_1 es el de m_3 y por lo tanto:

  • Si la distribución es simétrica, g_1=0.
  • Si la distribución es asimétrica positiva o a derechas, g_1>0.
  • Si la distribución es asimétrica negativa o a izquierdas, g_1<0

Decimos que una distribución simétrica tiene m_3=0 y por tanto g_1=0, pero eso no significa que toda distribución que tenga g_1=0 sea necesariamente simétrica. Es por esto que todo estudio cuantitativo sobre la simetría de la distribución debe ir acompañado de una representación gráfica, ya que existen distribuciones asimétricas en las que se obtiene que m_3=0.

Para el ejemplo de las líneas de móvil por unidad familiar tendremos:

xi ni (xi-Media)^3*ni
1 12 -94,72
2 36 -35,04
3 28 0,00
4 19 19,51
5 13 105,40
6 2 54,48
7 2 128,86
112 178,49

m_3=\frac{\sum_{i=1}^N (x_i - \overline x )^3 \cdot n_i}{N}=\frac{178,49}{112}=1,59

g_1=\frac{m_3}{S^3}=\frac{1,59}{1,35^3}=0,64

La distribución es ligeramente asimétrica a la derecha.

Coeficiente de asimetría de K.Pearson

Si la distribución es campaniforme y moderadamente asimetríca se puede utilizar para analizar su simetría el coeficiente de asimetría de Pearson, definido como el cociente entre la diferencia entre la media y la moda y la desviación típica:

 A_p=\frac{\overline X -Mo}{S}

Esta medida se puede aproximar mediante la siguiente expresión, según estudios empíricos:

 A_p \approx \frac{3(\overline X - Me)}{S}

El coeficiente de asimetría de Pearson está basado en que si una distribución campaniforme  es simétrica se cumple que, su media, su moda y su mediana coinciden, \overline X = Me = Mo, en esta situación Ap será cero.

Si la distribución es asimétrica positiva la media se  sitúa por encima de la moda y Ap>0. Si la distribución es asimétrica negativa el efecto será el contrario.

Coeficiente de asimetría de Bowley

El coeficiente de asimetría de Bowley está basado en la posición de los cuartiles y la mediana, y se calcula mediante la siguiente expresión:

 A_B = \frac{Q_{1/4}+Q_{3/4}-2Me}{Q_{3/4}-Q_{1/4}}

De nuevo, será cero en distribuciones simétricas, ya que estas distribuciones el primer cuartil estará a la misma distancia de la media que el tercero.

Coeficiente absoluto de asimetría

El coeficiente absoluto de asimetría es similar al coeficiente de asimetría de Bowley, ya que al igual que este, está basado en la posición de los cuartiles y la mediana. Se calcula mediante la siguiente expresión:

 A_B = \frac{Q_{1/4}+Q_{3/4}-2Me}{S}

De nuevo, si la distribución es simétrica tomará valor cero ya que el primer y tercer cuartil estarán a la misma distancia de la mediana.

Para el ejemplo de las líneas de móvil por unidad familiar tendremos:

xi ni
1 12
2 36
3 28
4 19
5 13
6 2
7 2
112

A_p=\frac{\overline X -Mo}{S}=\frac{2,99-2}{1,35}=0,7325

A_B = \frac{Q_{1/4}+Q_{3/4}-2Me}{Q_{3/4}-Q_{1/4}}=\frac{2+4-2\cdot 3}{4-2}=0

A_B = \frac{Q_{1/4}+Q_{3/4}-2Me}{S}=\frac{2+4-2 \cdot 3}{1,35}=0

En este caso las medidas basadas en la posición de los cuantiles nos indican simetría, mientras que el coeficiente de asimetría de Pearson indica, al igual que el de Fisher, que la distribución es ligeramente asimétrica a la derecha.

Medidas de curtosis

La curtosis es una medida de la concentración que presentan los datos alrededor de su media aritmética, que se aplica a distribuciones campaniformes, es decir unimodales y simetricas o con una ligera asimetría como la que podemos observar en la siguiente gráfica:

Las medidas de curtosis también llamadas medidas de apuntamiento, o de concentración central, estudian la concentración de las frecuencias en la “zona central” de la distribución. Una mayor o menor concentración de frecuencias alrededor de la media y por tanto, en la zona central de la distribución dará lugar a una distribución más o menos apuntada.

Para analizar la curtosis de una distribución de frecuencias se toma como referencia la distribución normal, por ser una de las distribuciones de probabilidad más importantes y utilizadas para la modelización de variables estadísticas.

La distribución normal, es una distribución simétrica y unimodal que queda completamente definida en base a sus dos parámetros que son su esperanza matemática, μ y su varianza, \sigma^2. La distribución normal presenta las siguientes proporciones:

Proporciones de la distribución normal

De este modo, cuando una distribución presente las mismas concentraciones alrededor de la media que la distribución normal, consideraremos que su concentración es normal. Tomando la distribución normal como referencia, una distribución puede ser:

  • Más apuntada que la normal , la denominaremos leptocúrtica.
  • Menos apuntada que la normal, la denominaremos platicúrtica.
  • Diremos que la distribución normal es mesocúrtica.

En la distribución normal se verifica que m_4=3S^4m4=3S4, donde m_4 es el momento de orden 4 respecto a la media y S la desviación típica, es decir:

\beta_2=\frac{m_4}{S^4}=3

g_2=\frac{m_4}{S^4}-3=0

Lo que nos permite definir un coeficiente de curtosis, en base a \beta_2 o a g_2.

Coeficiente de apuntamiento o curtosis

Definiremos en este caso el coeficiente de apuntamiento en base a g_2:

g_2=\frac{m_4}{S^4}-3

siendo una distribución:

  • mesocúrtica (normal), si g_2=0
  • leptocúrtica (más apuntada que la normal), si g_2>0
  • platicúrtica (menos apuntada que la normal), si g_2<0

Como todos los momentos con respecto a la media, m_4 se puede calcular a partir de los momentos con respecto al origen, en este caso haciendo uso de la siguiente expresión:

m_4=\alpha_4-4\alpha_e \alpha_1 + 6\alpha_2 \alpha_1^2 -3 \alpha_1^4

Hemos definido en este caso el coeficiente de apuntamiento en base a g_2, pero siempre que trabajemos con algún software que nos lo calcule debemos asegurarnos si nos está calculando a \beta_2 o a g_2, para interpretarlo adecuadamente. El estudio de curtosis no aporta información sobre la simetría de la distribución. Hemos visto que las distribuciones campaniformes pueden ser asimétricas, de modo que por ejemplo, una distribución mesocúrtica puede ser asimétrica negativa.

Para el ejemplo de las líneas de móvil por unidad familiar tendremos:

xi ni (x_i - \overline X)^4 \cdot n_i
1 12 188,595
2 36 34,73
3 28 1,779E-07
4 19 19,69
5 13 211,74
6 2 163,94
7 2 516,59
112 1135,28

m_4=\frac{\sum_{i=0}^N (x_i - \overline X)^4 n_i}{N}=\frac{1135,28}{112}=10,14

g_2=\frac{m_4}{S^4}-3=\frac{10,14}{1,35^4}-3=0,026

La distribución es muy ligeramente leptocúrtica, prácticamente se puede considerar mesocúrtica.