Tema 4a. Variable n_dimensional. Tablas de contingencia.

Tablas de correlación y tablas de contingencia

  • Una variable n-dimensional recogerá la información de n características de cada ítem o individuo de forma simultánea.
  • En este tema nos centraremos en el estudio de las variables bidimensionales, que recogerán por tanto, dos características de cada ítem o individuo incluido en la muestra de forma simultánea.
  • De este modo, para organizar la información no será suficiente con las distribuciones de frecuencias y tendremos que utilizar tablas de correlaciones o tablas de contigencia.

Las tablas de correlación o tablas de contingencia presentan la siguiente estructura:

X\Y y_1 y_j y_k n_{i \cdot}
x_1 n_{11} n_{1j} n_{1k} n_{1 \cdot}
\vdots \vdots \vdots \vdots \vdots \vdots
x_i n_{i1} n_{ij} n_{ik} n_{i \cdot}
\vdots \vdots \vdots \vdots \vdots \vdots
x_h n_{h1} n_{hj} n_{hk} n_{h \cdot}
n_{\cdot j} n_{\cdot 1} n_{\cdot j} n_{\cdot k} N

Estas tablas contienen en la primera fila y la primera columna los valores de cada una de las variables en estudio. En el interior incluyen las frecuencias con las que se repite cada par de valores. Por ejemplo, n_{11} nos dice el numero de veces que sale x_{1} conjuntamente con y_{1}; n_{12} la frecuencia conjunta de x_{1} e y_{2}, etc.

Las tablas de correlación también pueden tener la siguiente estructura:

X_i Y_j n_{ij}
x_1 y_1 n_{11}
\vdots \vdots \vdots
x_i y_j n_{ij}
\vdots \vdots \vdots
x_h y_k n_{hk}

Las denominaremos tablas de correlación cuando incluyan variables numéricas y tabla de contingencia cuando incluyan atributos.

Ejemplo 1.- Supongamos que una aseguradora pretenden analizar la posible relación entre el número de accidentes de coche que tiene una persona a lo largo de su vida y el número de punto que refleja su carnet de conducir. Tomando datos de sus clientes podría obtener la siguiente muestra:

Y 0 1 2 3 n_{i \cdot}
X
8 0 2 4 7 13
12 2 3 4 1 10
15 9 8 3 1 21
n_{\cdot j} 11 13 11 9 44

Distribuciones marginales

Las distribuciones marginales muestran los datos aislados de cada una de las variables incluidas en la tabla de correlación.

Para construirlas tomaremos como siempre en la primera columna los distintos valores que presenta la variable y obtendremos las frecuencias del siguiente modo:

  • Para el valor i-ésimo de la variable X, la frecuencia marginal será:

n_{i \cdot} = n_{i1}+ n_{i2}+...+ n_{ij}+...+ n_{ik}= \sum_{j=1}^k n_{ij}

  • Análogamente, la frecuencia marginal del valor j-ésimo de Y será:

n_{\cdot k}= n_{1j} + n_{2j} +...+ n_{ij}+...+ n_{hj}= \sum_{i=1}^h n_{ij}

Las distribuciones marginales presentarán la siguiente estructura:

 X
X_i n_{i \cdot}
X_1 n_{1 \cdot}
X_2 n_{2 \cdot}
\vdots \vdots
X_i n_{i \cdot}
\vdots \vdots
X_h n_{h \cdot}
N
Y
Y_j n_{ \cdot j}
Y_1 n_{ \cdot 1}
Y_2 n_{ \cdot 2}
\vdots \vdots
Y_j n_{ \cdot i}
\vdots \vdots
Y_h n_{ \cdot k}
N

Aunque habitualmente se presentan en la misma tabla de correlación como una fila o columna final. A partir de estas distribuciones podemos calcular cualquiera de las medidas unidimensionales que hemos aprendido hasta el momento.

Distribuciones condicionadas

Las distribuciones condicionadas muestran la distribución de una de las variables condicionada a que la otra variable tome un valor concreto.

Por ejemplo, nos puede interesar la distribución de la variable X condicionada a que Y tome el valor y_2. En este caso, la  distribución de frecuencias las frecuencias sería:

x_i / y_2 n_{i / 2}
x_1 n_{12}
x_2 n_{22}
\vdots \vdots
x_i n_{i2}
\vdots \vdots
x_h n_{h2}
n_{\cdot 2}

En general, podemos expresar las distribuciones condicionadas de x e y mediante:

y_j / x_i n_{j/i}
y_1 n_{i1}
y_2 n_{i2}
\vdots \vdots
y_j n_{ij}
\vdots \vdots
y_k n_{ik}
n_{i\cdot}
x_i /y_j n_{i/j}
x_1 n_{1j}
x_2 n_{2j}
\vdots \vdots
x_i n_{ij}
\vdots \vdots
x_h n_{hj}
n_{\cdot j}

Podemos definir además las frecuencias relativas de la distribución condicionada de X a algún valor de Y, o de la distribución condicionada de Y a algún valor de X serán, respectivamente:

f_{i/j}=\frac{n_{ij}}{n_{\cdot j}}

f_{j/i}=\frac{n_{ij}}{n_{i \cdot }}

Estructuras de dependencia

Definición.- Dependencia funcional

Diremos que dos variables X e Y presentan una relación de dependencia funcional cuando existe una función tal que Y = f(x), es decir una función que transforma de forma perfecta los valores de X en los valores de Y.

Definición.- Dependencia estadística

Existe dependencia estadística entre X e Y cuando ambas variables están relacionadas, pero no existe una función matemática mediante la cual podamos obtener los valores de Y a partir de los valores de X.

Hablaremos entonces del grado de dependencia estadística que presentan las variables, ya que estás relaciones estadísticas pueden ser más o menos fuertes.

La dependencia estadística entre variables se denomina correlación y entre atributos contingencia.

Definición.- Independencia

Diremos que X e Y son independientes cuando exista ningún tipo de relación entre ellas.

Independencia estadística

Cuando dos variables son independientes estadísticamente su frecuencia relativa conjunta será igual al producto de las frecuencias relativas marginales:

\frac{n_{ij}}{N}=\frac{n_{i \cdot}}{N} \cdot \frac{n_{\cdot j}}{N}, \nabla i,j

En esta situación, las frecuencias relativas condicionadas serán iguales a las relativas marginales, es decir,

f_{i/j}=\frac{n_{ij}}{n_{\cdot j}}=\frac{n_{ i \cdot} \frac{n_{\cdot j}}{N} }{n_{\cdot j}}=\frac{n_{i \cdot}}{N}=f_{i \cdot}

Covarianza

Para analizar el grado de relación que presentan dos variables X e Y utilizaremos la covarianza.

Definición.- Covarianza

La covarianza es una medida del grado de variación conjunta entre dos variables estadísticas, respecto a sus medias. Se obtiene mediante la siguiente fórmula:

COV(X,Y)=m_{11}=S_{XY}=\sum_{i=1}^h \sum_{j=1}^k \left(x_i - \bar{X} \right) \left(y_j - \bar{Y} \right) \frac{n_{ij}}{N}

Cuando X e Y son independientes la covarianza entre ellas es 0. Pero el reciproco no es cierto.

Si las variables presentan una relación positiva (cuando una crece la otra también crece) la covarianza será positiva. Si la relación entre las variables es negativa, la covarianza también lo será.

Momentos bidimensionales

La covarianza es un momento bidimensional. Definiremos en general los momentos bidimensionales de forma análoga a la definición de momentos unidimensionales. Distinguiremos por tanto también entre momentos respecto al origen y momentos respecto a la media:

Momentos respecto al origen:

\alpha_{rs}=\sum_{i=1}^h \sum_{j=1}^k x_i^r y_j^s \frac{n_{ij}}{N}

De los momentos bidimensionales respecto al origen destacaremos:

\alpha_{10}=\bar{X}  y \alpha_{01}=\bar{Y}

Momentos respecto a las medias:

m_{rs}=\sum_{i=1}^h \sum_{j=1}^k \left(x_i - \bar{X} \right)^r \left(y_j - \bar{Y} \right)^s \frac{n_{ij}}{N}

De los momentos bidimensionales respecto a las medias destacaremos:

m_{20}=S_X^2=\alpha_{20}-\alpha_{10}^2 \rightarrow Varianza de X

m_{02}=S_Y^2=\alpha_{02}-\alpha_{01}^2 \rightarrow Varianza de Y

m_{11}=S_{XY}=\alpha_{11}-\alpha_{10}\cdot \alpha_{01} \rightarrow Covarianza de X e Y

Como siempre, los momentos con respecto a la media se pueden calcular a partir de momentos respecto al origen. Encontramos así un método alternativo par el calculo de la covarianza.

Transformaciones lineales

Recordemos el comportamiento de las principales medidas estadísticas ante transformaciones lineales  de las variable.

Consideraremos para ello las variables X e Y para las que conocemos las medias ( \bar{X}  e \bar{Y}  ), las varianzas (S_X^2  y S_Y^2 ) y la covarianza (Cov(X,Y)). Si consideramos las siguientes transformaciones lineales:

x_i' =a_1+b_1 x_i

y_j'=a_2+b_2 y_j 

Veamos como se comportarán las diferentes medidas:

Las medias se transformarán del mismo modo que los datos \bar {X}' =a_1+b_1 \bar{X}

\bar{Y}'=a_2+b_2 \bar{Y} 

Las varianzas no se ven afectadas por cambios respecto al origen y los cambios de escala les afectan al cuadrado. S_{X'}^2 =a_1+b_1 S_X^2

S_{Y'}^2=a_2+b_2 S_Y^2

La covarianza solo se verá afectada por cambios de escala.  S_{XY}'=b_1b_2S_{XY}

Ejemplo de cálculo de la covarianza

Para el ejemplo considerado la covarianza será:

Y 0 1 2 3 n_{i \cdot}
X
8 0 2 4 7 13
12 2 3 4 1 10
15 9 8 3 1 21
n_{\cdot j} 11 13 11 9 44

\alpha_{11}=\sum_{i=1}^h \sum_{j=1}^k x_i y_j \frac{n_{ij}}{N}=\frac{671}{44}=15,25

\bar{X}=\frac{539}{44}=12,25

\bar{Y}=\frac{62}{44}=1,41

COV(X,Y)=\alpha_{11}-\bar{X} \bar{Y}=15,25-12,25 \cdot 1,41=-2,01

Vemos que existe relación entre las variables y es negativa. Cuantos más punto tiene una persona menos accidentes ha tenido.