4. Variables aleatorias especiales

Existen algunos tipos de variables aleatorias especiales, definidas por que tienen distribuciones de probabilidad particulares.

4.1. Distribución Bernoulli

Suponga que se realiza un ensayo cuya salida es “éxito” o “falla”. La v.a. entonces tiene sólo dos valores posibles: 1 si “éxito” 0 si no. Si \(p\) es la probabilidad de éxito, entonces:

\(\begin{array}{lll} P(X=1) & = &p \qquad y \qquad P(X=0) = 1-p \\ P(X = i) & = & p^i (1-p)^i \,, i=0,1\\ E[X] & = & p\\ Var(X) & = & p(1-p)\\ Asimetria(X) & = & \frac{1-2p}{\sqrt{p(1-p)}}\\ Curtosis(X) & = & \frac{1-3p+3p^2}{p(1-p)}\\ \end{array}\)

4.2. Distribución Binomial

Suponga que se realizan \(N\) ensayos independientes idénticos Bernoulli de parámetro \(p\). La v.a. X que representa el número \(k\) de ensayos existosos entre los \(N\) ensayos realizados, se denomina Binomial y cumple:

\(\begin{array}{lll} P(X=k) & = & {N \choose k} p^k (1-p)^{N-k}, \qquad k=0,1,...N \\ E[X] & = & Np\\ Var(X) & = & Np(1-p)\\ Asimetria(X) & = & \frac{1-2p}{\sqrt{np(1-p)}}\\ Curtosis(X) & = & \frac{1-6p(1-p)}{np(1-p)}\\ \end{array}\)

options(repr.plot.width=16, repr.plot.height=5)
par(mfrow=c(1,3))
vec <- seq(0,40,by=1)
par(cex = 0.8)
pvec1 <- dbinom(vec,prob=0.2,size=40)
pvec2 <- dbinom(vec,prob=0.5,size=40)
pvec3 <- dbinom(vec,prob=0.8,size=40)

plot(vec,pvec1,type="h",col = "red", xlab = "Nº de éxitos", ylab = "Probabilidad", main = "Función Probabilidad Binomial")
points(vec,pvec1,col="red")
plot(vec,pvec2,type="h",col = "green", xlab = "Nº de éxitos", ylab = "Probabilidad", main = "Función Probabilidad Binomial")
points(vec,pvec2,col="green")
plot(vec,pvec3,type="h",col = "black", xlab = "Nº de éxitos", ylab = "Probabilidad", main = "Función Probabilidad Binomial")
points(vec,pvec3,col="black")
../../_images/parte4_2_0.png

4.3. Distribución Exponencial

Sea \(X\) v.a. continua, es exponencial de tasa \(\lambda\) si su densidad de probabilidad cumple:

\(\begin{array}{lll} f_X(x) & = & \lambda exp(-\lambda x)\qquad, 0 \leq x <\infty\\ F_X(x) & = & 1- exp(-\lambda x)\\ E[X] &= &\frac{1}{\lambda}\\ Var(X)& =& \frac{1}{\lambda^2}\\ Asimetria(X) & = & 2\\ Curtosis(X) & = & 9 \\ \end{array}\)

##distribución exponencial
library("rbokeh")
vec <- seq(0,5,by=0.05)
pvec1 <- dexp(vec,2)
pvec2 <- dexp(vec,1)
pvec3 <- dexp(vec,0.5)
p <- figure(plot_width=600,plot_height=200, title="Densidad Exponencial", title_location="above", legend_location = "top_right") %>%
    ly_lines(vec,pvec1,legend="l=2") %>%
    ly_lines(vec,pvec2,col="blue",legend="l=1") %>%
    ly_lines(vec,pvec3,col="red",legend="l=0.5") 
p

4.4. Distribución Normal o Gaussiana

Sea \(X\) v.a. continua, es normal de media \(\mu\) y varianza \(\sigma^2\) y se denota \(\cal{N}(\mu,\sigma^2)\) si su densidad de probabilidad cumple:

\(\begin{array}{lll} f_X(x) & = & \frac{1}{\sqrt{2\pi}\sigma} exp(\frac{-(x-\mu)^2}{2\sigma^2})\qquad, -\infty < x <\infty\\ E[X] &= &\mu\\ Var(X)& =& \sigma^2\\ Asimetria(X) & = & 0\\ Curtosis(X) & = & 3 \\ \end{array}\)

Esta es la distribución de probabilidad mas utilizada. Muchas variables se distribuyen aproximadamente normales (altura, peso, satisfacción en el trabajo, etc.).

Permite modelar los errores o ruidos.

Teorema de límite central, tests de hipótesis paramétricos, inferencia estadística clásica.

¿Cómo se verifica que una v.a. sigue una distribución normal?

Test de normalidad de Shapiro-Wilk, Q-Q plot

##Distribución Gaussiana

vec <- seq(-6,6,by=0.05)
pvec1 <- dnorm(vec,0,0.4)
pvec2 <- dnorm(vec,0,1)
pvec3 <- dnorm(vec,0,3)
pvec4 <- dnorm(vec,-2,0.6)
p <- figure(plot_width=600,plot_height=200, title="Densidad Gaussiana", title_location="above", legend_location = "top_right") %>%
    ly_lines(vec,pvec1,legend="m=0, s=0.4") %>%
    ly_lines(vec,pvec2,col="blue",legend="m=0, s==1") %>%
    ly_lines(vec,pvec3,col="red",legend="m=0, s=3") %>%
    ly_lines(vec,pvec4,col="green",legend="m=-2, s=0.6")
p

4.4.1. Distribución Normal Estandarizada

\(Z \sim \cal{N}(0,1)\) si su densidad de probabilidad cumple:

\(\begin{array}{lll} f_X(x) & = & \frac{1}{\sqrt{2\pi}} exp(\frac{-x^2}{2})\qquad, -\infty < x <\infty\\ E[X] &= &0\\ Var(X)& =&1\\ \end{array}\)

Si \(X \sim \cal{N}(\mu,\sigma^2)\), entonces \(Z = \frac{X-\mu}{\sigma} \sim \cal{N}(0,1)\)

Esta transformación se denomina “Z-score” y se utiliza incluso si la v.a. no cumple el supuesto de normalidad. Se suele denominar estandarización o normalización.

Regla Empírica 68-95-99.7

Si \(X \sim \cal{N}(\mu,\sigma^2)\), entonces:

\(\begin{array}{lll} P(\mu-\sigma < X < \mu+\sigma) & = & 0.68\\ P(\mu-2\sigma < X < \mu+2\sigma) & = & 0.95\\ P(\mu-3\sigma < X < \mu+3\sigma) & = & 0.997\\ \end{array}\)

../../_images/reglaNormal.png

Muy útil para la detección de outliers, bajo el supuesto de normalidad.