Normalidad, inferencia y bondad de ajuste (parte 2)

Coeficiente de determinación

En la tabla inferior aparece el coeficiente de determinación (R-Squared (R^2)), que como ya sabemos es una medida estadística para valorar el éxito de la regresión. Se define como el cociente entre la variación explicada o suma explicada de cuadrados (SEC) y la suma total de cuadrados (STC):

R^2=\frac{SEC}{STC}=1-\frac{SCE}{STC}

Nos explica por tanto el porcentaje de variación de la variable dependiente que conseguimos explicar con el modelo.

En nuestro ejemplo vemos que la capacidad explicativa de las variables es elevada, pues explican el 78,76% de la variabilidad de la variable endógena.

Coeficiente de determinación corregido

El coeficiente de determinación corregido, Adjusted R-squared (\bar{R}^2 ), se obtiene a partir de R^2, ponderándolo en base a los grados de libertad.

\bar{R}^2=1-(1-R^2) \cdot \frac{n-1}{n-k-1}

Este coeficiente permite comparar la capacidad explicativa de modelos referidos a una misma muestra de la misma variable dependiente con distinto número de variables independientes.

En nuestro caso obtenemos un valor de 0,7721. Si lo comparamos con el valor que obtenemos al estimar un modelo con las mismas variables explicativas menos la antigüedad (0,7762), podemos concluir que este último modelo es mejor que el anterior por ser el R cuadrado ajustado mayor.

Si comparásemos directamente el coeficiente de determinación observaríamos que este siempre sube al incluir nuevas variables, aunque no sean significativas.

Otros estadísticos de interés

El dato S.E. of regression (Error estándar de la regresión), es la estimación de la desviación típica del error, de modo que su cuadrado es la varianza del error. Se obtiene mediante la siguiente expresión:

\hat{\sigma}_{\epsilon}=\sqrt{\frac{Y^t \cdot Y - \hat{\beta}^t \cdot X^t \cdot Y}{n-k}}

Sum squared resid  es la suma de los residuos al cuadrado (SCE) o variabilidad no explicada por el modelo (VNE). Se obtiene mediante:

Y^t \cdot Y - \hat{\beta}^t \cdot X^t \cdot Y

Log likelihood nos da el valor de la función de verosimilitud en el máximo, es decir, cuando obtenemos los estimadores de los parámetros que maximizan la probabilidad de la muestra, o los más verosímiles dada la muestra disponible.