Tema 3a. Medidas de posición

La distribución de frecuencias organiza toda la información disponible en la muestra, pero para entenderla mejor será útil resumirla. Las medidas de posición nos ofrecen resúmenes de la información contenida en la muestra, son por tanto, valores que describen el comportamiento del fenómeno. Para que estos resúmenes sean útiles será interesante que tengan propiedades como:

  1. Que utilicen toda la información de la muestra, es decir, todos los valores.
  2. Que se puedan calcular siempre o la mayoría de las situaciones.
  3. Que tengan un único valor paca cada distribución de frecuencias.

La media aritmética

La media aritmética es probablemente la medida de posición más relevante porque es muy sencilla de interpretar. Nos ofrece el valor central de la muestra, el que tomarían los datos si fueran todos iguales.

Se calcula como la suma de todos los valores de la muestra dividida entre el tamaño muestral:

\overline X =\frac{x_1n_1+x_2n_2+...+x_nn_N}{N}=\frac{\sum_{i=1}^N x_in_i}{N}

Si la distribución tiene los datos agrupados se tomarán la marca de clase para calcular la media.

Para el ejemplo de las líneas móviles por unidad familiar la media aritmética será:

xi ni xi*ni
1 12 12
2 36 72
3 28 84
4 19 76
5 13 65
6 2 12
7 2 14
112 335

\overline X =\frac{\sum_{i=1}^N x_in_i}{N}= \frac{335}{112}=2,999

Propiedades de la media aritmética

  • Considera todos los valores de la distribución.
  • En datos numéricos, se puede calcular siempre salvo con datos agrupados en intervalos abiertos.
  • Es única para cada distribución.
  • Se considera el centro de la gravedad de la distribución, ya que la suma de las desviaciones de los valores de la variable respecto a su media es siempre cero, es decir, \overline x = \sum_{i=1}^N (x_i - \overline x) \cdot n_i = 0 .
  • Teorema de König: min_k = \sum_{i=1}^N (x_i - k)^2 \cdot n_i = \sum_{i=1}^N (x_i - \overline x)^2 \cdot n_i 
  • La media de la variable a·X+b es igual a a \cdot \overline x + b.

Desventajas de la media aritmética

  • En presencia de datos extremos, la media aritmética resulta menos representativa.

La media aritmética ponderada

En ocasiones resulta interesante ponderar a la media aritmética por diferentes motivos.

Ponderar la media consiste en dar distintos pesos a los distintos valores que tome la variable. Si representamos estos pesos mediante, ωi ,la media aritmética ponderada se puede calcular mediante:

\overline X =\frac{\sum_{i=1}^N x_i\omega_i}{\sum_{i=1}^N \omega_i}

Una aplicación práctica sería el calculo de la nota de los alumnos en caso de evaluación continua con distintos pesos para las distintas actividades.

La media Geométrica (G)

La media geométrica de una muestra se define como la raíz N-ésima del producto de los N valores de la distribución, es decir,

G= \sqrt[N]{x_1^{n_1} \cdot x_2^{n_2} \cdot ... x_n^{n_n}}=\sqrt[N]{\prod_{i=1}^N x_i^{n_i}}

Podemos decir que la media geométrica nos indica la cantidad que, al elevarla a N, nos da el producto de los datos de la muestra.

En otras palabras, responde a la pregunta Si todas las cantidades fueran iguales, ¿cuál sería esa cantidad de forma que el producto fuera el mismo?

Propiedad: El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores de la variable.

Para el ejemplo considerado la media aritmética será:

xi ni xi^ni ni*log(xi)
1 12 1 0
2 36 68719476736 10,8371
3 28 2,28768E+13 13,3594
4 19 2,74878E+11 11,4391
5 13 1220703125 9,08661
6 2 36 1,5563
7 2 49 1,6902
112 9,30515E+47 47,9687

G= \sqrt[N]{\prod_{i=1}^N x_i^{n_i}}=\sqrt[112]{9,305}=2,68

LogG= \frac{\sum_{i=1}^N n_i \cdot Log x_i}{N}=\frac{47,96}{112}=0,428 \leftarrow G=10^{0,428}=2,68

Ventajas de la media geométrica

  • Tiene en cuenta todos los valores de la muestra.
  • Es menos sensible a los valores extremos que la media aritmética.

Desventajas de la media geométrica

  • Su interpretación es menos intuitiva que la de la media aritmética.
  • Su cálculo es más difícil que el de la media aritmética.
  • No se puede calcular si algún valor de la muestra se anula.

La media Armónica (H)

La media armónica se calcula mediante la siguiente fórmula:

H= \frac{N}{\frac{1}{x_1}n_1+\frac{1}{x_2}n_2+ ... +\frac{1}{x_N}n_N}=\frac{N}{\sum_{i=1}^N\frac{1}{x_i}n_i}

Suele utilizarse para promediar velocidades, tiempos, rendimientos, etc.

Propiedad:

  • La inversa de la media armónica es la media aritmética de los inversos de los valores de la variable.
  • Con esta propiedad, se puede pasar de una media armónica a una media aritmética transformando adecuadamente los datos.

Ejemplo.-

Una cadena de supermercados tiene tiendas en 5 provincias españolas y ha recopilado en la siguiente tabla los ingresos totales y los ingresos por tienda para cada una de ellas, en el año 2016:

Provincia Ingresos (en millones de euros) Ingresos por tienda (millones de €/tienda)
Madrid

Barcelona

Bilbao

Valencia

Sevilla

20

18

10

3

1

3

2,5

2,4

2,2

2,5

Determínese los ingresos medios por tienda para toda España.

Solución.-

ni xi
Provincia Ingresos (en millones de euros) Ingresos por tienda (millones de €/tienda) 1/xi*ni
Madrid 20 3 6,66667
Barcelona 18 2,5 7,2
Bilbao 10 2,4 4,16667
Valencia 3 2,2 1,36364
Sevilla 1 2,5 0,4
52 19,797

H= \frac{N}{\sum_{i=1}^N\frac{1}{x_i}n_i}=\frac{52}{19,797}=2,62

Ventajas de la media armónica

  • La media armónica utiliza toda la información disponible en la muestra, es decir, tiene en cuenta todos los datos.
  • Resulta más representativa que la media aritmética cuando se trata de calcular el promedio de ratios.

Desventajas de la media armónica

  • Esta medida de posición se ve muy influenciada por los valores pequeños.
  • Si la muestra presenta alguna observación con valor cero, no se puede calcular la media armónica.

Para cualquier distribución de frecuencias (xi; ni) se verifica que:

H \leq G \leq \overline X

Siempre que todas las medidas se puedan calcular.

La mediana (Me)

La mediana es el valor que se encuentra en la posición central de la distribución, es decir, que deja a su izquierda y a su derecha el 50% de los datos respectivamente. Para calcularla debemos ordenar los datos de menor a mayor y buscar el valor que se encuentre en la posición central. Se debe tener en cuenta que si el tamaño muestral es par tendremos dos posiciones en el centro mientras que si es impar tendremos únicamente una. En este sentido, si el tamaño muestral es par tomaremos los valores ubicados en las dos posiciones centrales de la distribución y calcularemos la media entre ellos.

La mediana también se puede definir como el valor de la distribución cuya frecuencia acumulada es N/2 (o la frecuencia relativa acumulada igual a 50%). Así, a partir de la distribución de frecuencias de la muestra será sencillo encontrar el valor situado en dicha posición.

Tomando los datos del ejemplo de las líneas de móvil, la mediana será:

xi ni Ni
1 12 12
2 36 48
3 28 76
4 19 95
5 13 108
6 2 110
7 2 112
112

N/2=112  -> posiciones 56 y 57.

Valores:

  • Posición 56: 3
  • Posición 57:3

Mediana: 3

En distribuciones agrupadas en intervalos, una vez localizada la posición que ocupa la mediana encontramos un intervalo mediano en lugar de un valor. Para calcular el valor mediano utilizaremos la siguiente fórmula:

Me= L_{i-1} + \frac{N/2-N_{i-1}}{n_i}\cdot c_i 

Esta fórmula puede utilizarse tanto para intervalos de igual amplitud como para intervalos de distinta amplitud.

Li-1 Li ni Ni
9 20 28 28
20 35 30 58
35 50 16 74
50 75 22 96
75 100 8 104
100 135 5 109
135 180 3 112
112

112/2=56  -> Intervalo mediano: (20, 35]

Me= L_{i-1} + \frac{N/2-N_{i-1}}{n_i}\cdot c_i =20 + \frac{56-28}{30}\cdot 15=34

Propiedad: La mediana hace mínima la suma de todas las desviaciones absolutas. Es decir:

Min_i \sum_{i=1}^N | x_i - K |n_i = \sum_{i=1}^N | x_i - Me |n_i

Ventajas de la Mediana

  • La mediana tiene una interpretación muy sencilla e intuitiva y puede calcularse con cualquier clase de datos, incluso si están agrupados y presentan intervalos abiertos, salvo en el caso de que la mediana estuviese justamente en un intervalo abierto.
  • Resulta de especial interés en datos en escala ordinal, donde no se puede calcular la media aritmética.
  • Esta medida no se ve afectada por los datos atípicos.

Desventajas de la Mediana

  • No tiene en cuenta toda la información disponible en la muestra, ya que no utiliza todos los datos de la distribución.

La moda (Mo)

La moda es el valor de la variable que más veces se repite. Para calcularla basta con buscar en la distribución de frecuencias el valor de la variable que presenta la máxima frecuencia.

Con esta definición una distribución puede presentar más de una moda, por lo que existen distribuciones bimodales, trimodales, etc.

En el ejemplo de las líneas de móvil por unidad familiar la moda será: 2

xi ni
1 12
2 36
3 28
4 19
5 13
6 2
7 2
112

En distribuciones agrupadas en intervalos de la misma amplitud, una vez seleccionado el intervalo con mayor frecuencia, debemos obtener la Moda mediante alguno de los siguientes criterios:

  • Podemos considerar como moda la marca de clase, es decir:  Mo=xi.
  • O bien podemos aplicar la siguiente fórmula:

Mo=L_{i-1}+\frac{n_{i+1}}{n_{i+1}+n_{i-1}} \cdot c_i 

Si los intervalos tienen distinta amplitud, el intervalo con mayor frecuencia no resultará en todos los casos es más representativo. Nos interesará encontrar el intervalo con la mayor densidad de frecuencia y una vez encontrado podemos de nuevo utilizar simplemente la marca de clase o bien aplicar la siguiente fórmula:

Mo=L_{i-1}+\frac{d_{i+1}}{d_{i+1}+d_{i-1}} \cdot c_i 

En el ejemplo del gasto en móvil, al presentar intervalos de distinta amplitud será necesario obtener las densidades de frecuencia. La moda será:

Li-1 Li ni di
9 20 28 2,54
20 35 30 2
35 50 16 1,07
50 75 22 0,88
75 100 8 0,32
100 135 5 0,14
135 180 3 0,07
112

Intervalo modal: (9, 20]

Mo=L_{i-1}+\frac{d_{i+1}} {d_{i+1}+d_{i-1}} \cdot c_i= 9+\frac{2}{2+0}\cdot (20-9)=20

Ventajas

  • Si los datos están en escala nominal, la moda es la medida más represetativa, ya que no se pueden calcular ni la media aritmética (por no ser númericos), ni la mediana (por no poder ordenarse).
  • No se ve afectada por los valores extremos o atípicos.
  • Se puede calcular aunque haya intervalos abiertos.

Desventajas

  • No se utilizan todos los datos de la distribución.
  • En distribuciones con mucha variabilidad, puede ser simplemente cuestión de suerte el hecho de que un valor se repita más que el resto.
  • No es un valor único, y en estas situaciones resulta difícil de interpretar.

Los cuantiles

Los cuantiles son medidas que dividen la distribución en partes iguales la distribución, o dicho de otro modo, en intervalos que contienen el mismo número de datos.

Los más utilizados son:

  • Los cuartiles: Son tres valores que dividen la distribución en cuatro partes iguales, es decir, en cuatro intervalos dentro de cada cual están incluidos el 25% de los valores de la distribución.
  • Los deciles: Son los nueve valores que dividen la distribución en diez partes que incluyen al 10% de los valores cada una.
  • Los percentiles: Son los noventa y nueve puntos que dividen la distribución en cien partes iguales.

El cálculo de los cuantiles es similar al calculo de la mediana. De hecho la mediana sería el cuartil 2, el décil 5 o el percentil 50.

Primero debemos calcular las frecuencias acumuladas y en ellas buscar el valor que ocupe la posición \frac r k N, teniendo en cuenta que k el número total de partes en que divido la distribución y r la parte a calcular.

Cuartiles Deciles Percentiles
k = 4 k = 10 k = 100
r = 1,2 o 3 r =1, 2, 3, 4, …, 9 r = 1, 2, 3, …, 99

Una vez encontrada la posición el valor que contenga será el cuantil buscado. Si los datos están agrupados en intervalos, sobre el intervalo encontrado aplicaremos la siguiente fórmula:

Q_{r/k}=L_{i-1}+\frac{r/k-N_{i-1}}{n_i} \cdot c_i

Los momentos potenciales

Los momentos de una distribución son unos valores que se calculan a partir de los datos de la distribución y nos dan información relevante de la misma. Por eso podemos decir que se trata de un conjunto de  valores que caracterizan a la distribución. Se cumple por tanto que dos distribuciones son iguales si tienen todos sus momentos iguales.

El momento de orden r respecto a un origen arbitrario O_t se define como:

M_r=\frac{\sum_{i=1}^N (x_i-O_t)^r \cdot n_i}{N}

Momentos respecto al origen

Se representan por \alpha_r y se obtienen haciendo O_t=0 sobre la fórmula anterior, es decir:

\alpha_r=\frac{\sum_{i=1}^N x_i^r \cdot n_i}{N}

Algunos momentos potenciales con respecto al origen son:

\alpha_0=\frac{\sum_{i=1}^N x_i^0 \cdot n_i}{N}=1

\alpha_1=\frac{\sum_{i=1}^N x_i \cdot n_i}{N}=\overline x

\alpha_2=\frac{\sum_{i=1}^N x_i^2 \cdot n_i}{N}

\alpha_3=\frac{\sum_{i=1}^N x_i^3 \cdot n_i}{N}

\alpha_4=\frac{\sum_{i=1}^N x_i^4 \cdot n_i}{N}

 Momentos respecto a la media aritmética o centrales

Se representan por m_r y se obtienen haciendo O_t=\overline x, por tanto:

m_r=\frac{\sum_{i=1}^N (x_i-\overline x)^r \cdot n_i}{N}

Algunos momentos potenciales con respecto a la media son:

m_0=\frac{\sum_{i=1}^N (x_i-\overline x)^0 \cdot n_i}{N}=1

m_1=\frac{\sum_{i=1}^N (x_i-\overline x) \cdot n_i}{N}=0

m_2=\frac{\sum_{i=1}^N (x_i-\overline x)^2 \cdot n_i}{N}=S^2  (Varianza)

m_3=\frac{\sum_{i=1}^N (x_i-\overline x)^3 \cdot n_i}{N} (Simetría)

m_4=\frac{\sum_{i=1}^N (x_i-\overline x)^4 \cdot n_i}{N} (Curtosis)

Todos los momentos respecto a la media se pueden expresar en función de los momentos respecto al origen.