5. Estadísticos Muestrales#

5.1. Conceptos básicos#

Muestra o muestra aleatoria:

  • Población: la totalidad de las observaciones en las que estamos interesados.

  • Muestra: un subconjunto de una población.

  • Muestra aleatoria: una muestra dónde las observaciones se realicen de forma independiente y al azar. A menudo, nos referimos a la muestra aleatoria como muestra. Formalmente:

Sean \(X_1,\cdots,X_n\) variables aleatorias independientes e idénticamente distribuidas (i.i.d.) de una distribución \(F\) (usabmos \(F\) para referirnos a cualquier distribución en esta lección), entonces \(\{X_1,\cdots,X_n\}\) o los valores que toman \(\{x_1,\cdots,x_n\}\) representan una muestra aleatoria de tamaño \(n\) de la distribución \(F\). Su distribución de probabilidad conjunta es

\[f (x_1 , x_2 ,...,x_n) = f (x_1 ) f (x_2 ) ... f (x_n)\]

Estadístico o estadístico muestral:

Es cualquier función de las variables aleatorias que forman una muestra aleatoria.

Más formalmente, estadístico es una variable aleatoria \(Y\) cuyo valor se puede determinar a partir de los valores \(x_1, x_2 ..., x_n\) de las v.a. \(X_1, X_2, ... X_n\) usando una función \(T\):

\[ y = Y(\omega) = T(x_1,\cdots, x_n) \in \mathbb{R}\]

Ejemplos: media muestral, varianza muestral.

Distribución muestral o distribución de muestreo (sampling distribution):

Es la distribución de probabilidad de un estadístico dado.

5.2. Media muestral#

Sean \(X_1,\cdots,X_n\) v.a. i.i.d. de distribución \(F\) entonces se define la media muestral como:

\[\bar{X} = \frac{1}{n}{\displaystyle \sum_{i=1}^n} X_i\]

La distribución muestral de \(\bar X\) con tamaño muestral \(n\) es la distribución que resulta cuando un experimento se lleva a cabo una y otra vez (siempre con una muestra de tamaño \(n\)) y resultan los diversos valores de \(\bar X\). Esta distribución tiene siguientes propiedades:

Propiedades

Sean \(X_1,\cdots,X_n\) v.a. i.i.d. \(\sim F\), \(\mu = E[X_i], \sigma^2 = Var(X_i)\) media y varianza teórica de \(F\). Entonces se cumple:

\[E[\bar{X}] = \mu\]

con lo cual \(\bar{X}\) es un estimador insesgado de \(\mu\). (Veamos el insesgadez de estimadores en el futuro)

Nota

Estimador insesgado

Para un parámetro \(\theta\) y un estimador \(\hat \theta\), si

\[E[\hat \theta] = \theta\]

entonces \(\hat \theta\) es un estimador insesgado de \(\theta\). Es decir, la distribución de un estimador insesgado se centra en el parámetro verdadero.

¿Por qué \(E[\bar{X}] = \mu\)?

También se cumple:

\[Var(\bar{X}) = \frac{\sigma^2}{n}\]

¿Por qué?

Pista: Utilizamos la propiedad:

\(\begin{array}{lll} Var(\sum_i \limits X_i) & = & \sum_i \limits Var(X_i) + \sum_i \limits \sum_{j\neq i} \limits Cov(X_i,X_j) \end{array}\)

y la propiedad:

Si \(X\), \(Y\) son v.a. independientes, entonces \(Var(X+Y) = Var(X) + Var(Y)\)

5.3. Varianza muestral#

Sean \(X_1,\cdots,X_n\) v.a. i.i.d de distribución \(F\) entonces se define la varianza muestral como:

\[S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2 \]

La desviación estándar muestral se define como

\[S = \sqrt{ \frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2 }\]

Se cumple:

\[E[S^2] = \sigma^2\]

\(S^2\) es un estimador insesgado de \(\sigma^2\).

Por qué \(E[S^2] = \sigma^2\)?

\[ S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i - \bar{X})^2 = \frac{1}{n-1}[\sum_{i=1}^nX_i^2 - 2\bar{X}\sum_{i=1}^n X_i + n\bar{X}^2] = \frac{1}{n-1}[\sum_{i=1}^nX_i^2 - n\bar{X}^2] \]

Entonces:

\[E[S^2]= E \left[\frac{1}{n-1}\left(\sum_{i=1}^nX_i^2 - n\bar{X}^2\right)\right] = \frac{1}{n-1} \left(\sum_{i=1}^n E[X_i^2] - n E[\bar{X}^2]\right)\]

Dado que

\[E[X_i^2] = \sigma^2 + \mu^2\]
\[E[\bar{X}^2]= \frac{\sigma^2}{n} + \mu^2\]

entonces

\[E[S^2]=\frac{1}{n-1}\left(n\sigma^2+n\mu^2 - n\frac{\sigma^2}{n} - n\mu^2\right) = \frac{n-1}{n-1}\sigma^2 = \sigma^2\]

De esta manera \(S^2\) es un estimador insesgado de \(\sigma^2\). Veremos el insesgadez de estimadores en el futuro. También puedes utilizar grado de libertad para entenderlo (lo veremos en el futuro). Ahora mismo, para entender esto, podemos ver una simulación!