Análisis de Asociación de Variables Aleatorias
Contenido
13. Análisis de Asociación de Variables Aleatorias¶
13.1. ANOVA: Análisis de Varianza¶
(basado en apuntes de Dra. Yun Huang, versión 2018 curso INFO337)
¿Por qué ANOVA?
Algunas distribuciones de interés: \(\chi^2\), \(F\), \(t\) y Normal.
ANOVA unidireccional (one-way):
Derivación y supuestos
Caso con distintos tamaños de muestra
Comparaciones múltiples
Robustez ANOVA
Otro tópicos
¿Por qué ANOVA?
En los test de hipótesis estudiados en sesiones anteriores, consideramos el uso de la distribución \(t\)- student para analizar las medias muestrales. En lo que sigue utilizaremos el Análisis de Varianza o también llamado análisis de factores, para estudiar el efecto de uno o más factores (cada uno con dos o más niveles) sobre la media de una variable continua.
13.1.1. Test de igualdad de medias para dos poblaciones normales, considerando muestras independientes, con la misma varianza pero desconocida.¶
Sean \(X_1,\cdots,X_n\) e \(Y_1,\cdots,Y_m\) muestras independientes de poblaciones normales con medias desconocidas \(\mu_x\) y \(\mu_y\) y misma varianza desconocida \(\sigma^2\). Consideremos el test de hipótesis:
del Corolario del Teo de Fisher-Cochran se cumple:
donde
de manera que se rechaza \(H_0\) si
En el caso en que se requiera comparar más de 2 grupos, o examinar el efecto de 1, 2 o mas factores, este procedimiento se vuelve ineficiente y es mas directo de abordar con el modelo del Análisis de la Varianza (ANOVA). En efecto, si realizaramos el t-test con cada par de grupos, no tenemos una manera sencilla de calcular el error de tipo I de todos los grupos simultáneamente, el denominado Familywise error (error global), que para c tests se calcula como:
con c=2 tests, el error de tipo I es 0.0975 (alrededor del 10%)
con c=3 tests, el error de tipo I es 0.143 (alrededor del 14%)
con c=10 tests, el error de tipo I es 0.40 (alrededor del 40%)
13.1.2. Repaso: la distribución chi-cuadrado¶
Sean \(Z_1,\cdots, Z_n\, v.a.i.i.d. \, \sim {\it N}(0,1)\) entonces
donde \(n\) son los grados de libertad de la distribución.
Propiedades de la distribución \(\chi^2\):
(i) Propiedad aditiva: si \(X_1\) y \(X_2\) son dos v.a. independientes distribuidas \(\chi^2\) de \(n_1\) y \(n_2\) grados de libertad, entonces
(ii) Esperanza y Varianza:
13.1.3. Repaso: la distribución F¶
Sean \(X \sim \chi_n^2\) e \(Y \sim \chi_m^2\) dos v.a. independientes \(\chi^2\) de grados de libertad \(n\) y \(m\) respectivamente, entoncese se define:
donde \(F_{n,m}\) es la distribución \(F\) de \(n\) y \(m\) grados de libertad. También se nota \(F(n,m)\).
suppressMessages(library(dplyr))
suppressMessages(library(plotly))
suppressMessages(library(ggplot2))
suppressMessages(library(rmarkdown))
vec <- seq(0,5,by=0.01)
params <- seq(1,20,by=1)
pvec <- list()
for (i in 1:length(params))
for (j in 1:length(params)){
k = length(params)*(i-1) + j
pvec[[k]] <- df(vec,df1=params[i],df2=params[j],ncp=0)
}
steps1 <- list()
steps2 <- list()
fig <- plot_ly(width=600,height=600) %>% layout(title = "\n \n Densidad de Probabilidad F",
yaxis = list(range=c(0,1)))
for (i in 1:length(params)){
for (j in 1:length(params)){
k = length(params)*(i-1) + j
fig <- add_lines(fig, x=vec, y=pvec[[k]],
visible=if ((i==1) && (j==1)) TRUE else FALSE,
mode='lines', line=list(color='blue'), showlegend=FALSE)
steps2[[j]] = list(args = list('visible', rep(FALSE, length(params)*length(params))),
label=params[j], method='restyle')
steps2[[j]]$args[[2]][k] = TRUE
steps1[[i]] = list(args = list('visible', rep(FALSE, length(params)*length(params))),
label=params[i], method='restyle')
steps1[[i]]$args[[2]][k] = TRUE
}
}
fig <- fig %>% layout(sliders =
list( list(active=0,
currentvalue = list(prefix = "df1: "),
pad = list(t=20),
steps=steps1),
list(active=0,
currentvalue = list(prefix = "df2: "),
pad = list(t=100),
steps=steps2)))
fig
#embed_notebook(fig)