1. Elementos Básicos de Teoría de Probabilidades#

1.1. Estadística y teoría de probabilidades#

Estadística

  • La recolección, organización, análisis, interpretación y presentación de datos

  • IA basada en reglas vs. IA estadística (machine learning)

  • Uno de los primeros usos: En siglo V A.C., los atenienses calcularon la altura de las escaleras haciendo que varios soldados contaran los ladrillos y multiplicando el recuento más frecuente (la moda) por la altura de un ladrillo. (Fuente: Una Breve Historia de la Estadística)

Teoría de probabilidades

  • Fundamento de la estadística

  • Estudio de la incertidumbre, modelamiento de fenómenos aleatorios

  • La teoría moderna de probabilidades surgió en los juegos de apuestas con dados en Francia en 1654 (historia)

../../_images/daos.jpg

Estadística vs. probabilidad

Tenmos dos tipos de preguntas:

  • ¿Si tiro dos dados de seis caras, ¿qué posibilidad hay de que me salgan dos seises?

  • ¿Si mi amigo tira dos veces un dado de seis caras y obtiene dos seises, ¿es justo el dado?

¿Cuál es la pregunta de probabilidad? ¿Cuál es la de estadística? ¿Cuál es la diferencia?

1.2. Experimento, Espacio Muestral, Evento, Elemento#

Definiciones:

  • Experimento: (una realización de un) fenómeno aleatorio

  • Espacio muestral (\(\Omega\)): conjunto de todos los posibles valores que puede tomar un experimento.

  • Evento (\(A\)): cualquier subconjunto del espacio muestral. Un evento puede tener uno o múltiple elementos.

    • Ejemplos: “mañana estará soleado en Valdivia”. “>8 caras en 10 lanzamientos de una moneda”,

  • Elemento or resultado de la muestra (\(\omega\)): cada punto o valor en el espacio muestral.

Ejemplo 1:

  • Experimento: el lanzamiento de una moneda una vez

  • \(\Omega\) = {C,S} (C:cara, S:sello)

  • El evento que el lanzamiento es una cara es A = {C}

  • El resultado de un experimento donde el lanzamiento es una cara es \(\omega\) = C

Ejemplo 2: Si lanzamos una moneda dos veces:

  • ¿Cuál es el experimento?

  • ¿Cuál es el espacio muestral \(\Omega\)?

  • ¿Cuál es el evento (A) que el segundo lanzamiento es una cara?

  • ¿Cuál es el resultado (\(\omega\)) donde ambos lanzamientos son sellos?

1.3. Probabilidades#

¿Qué tan posible es que un evento ocurra?

La probabilidad es un lenguaje matemático para cuantificar la incertidumbre.

El grado de posibilidad de la ocurrencia de un evento que resulta de un experimento estadístico se evalúa utilizando un conjunto de números reales denominados probabilidades, que van de 0 a 1 (inclusivo).

¿Cómo asignamos valores de probabilidad?

Volvamos al ejemplo del lanzamiento de la moneda una vez, cuál es la probabilidad de que tengamos una cara?

  • Si la moneda es justa

  • Si la moneda no es justa, pero no sabemos qué tan injusta es

  • Si te digo que la moneda tiene una cara tipo 90% del tiempo, pero no estoy segura?

Tenemos tres maneras para calcular la probabilidad:

  • \(\textbf{Enfoque clásico}\): Sea \(n(A)\) el número de elementos en el evento \(A\), y \(n(\Omega)\) el número de elementos en el espacio muestral \(\Omega\), entonce \(P(A) = \frac{n(A)}{n(\Omega)}\). Se supone que todos eventos elementales (eventos que solo tienen un elemento) son igualmente probables.

  • \(\textbf{Enfoque frecuentista}\): Frecuencias observadas al repetir muchas veces un experimento. Sea \(n\) el número de experimentos, y \(n(A)\) el número de veces que el evento \(A\) ocurre en la realización de esos experimentos, entonces \(P(A) = \frac{n(A)}{n}\).

  • \(\textbf{Enfoque Bayesiano}\): Incertidumbre subjetiva, grado de creencia (probabilidad a priori) que es revisado por la observación (probabilidad a posteriori).

    • Ejemplo: Yo pienso que hay 0.9 de probabilidad de que el lanzamieno es una cara.

    • Para obtener la probabilidad a priori, podríamos usar la definición clásica antes de realizar un experimento.

1.3.1. Definición Formal de Probabilidad#

Definición

Sean:

\(\Omega = \{\omega_1, \omega_2, ..., \omega_m\}\)

\({\cal P}(\Omega) = \{\phi, \{\omega_1\}, \{\omega_2\}, ..., \{\omega_1, \omega_2\}, \{\omega_1, \omega_3\}, ..., \Omega\}\)

Una probabilidad \(P\) es una función que cumple:

\(\begin{array}{cc} P:& {\cal P}{(\Omega)} \to [0,1] \\ &A \to P(A) \end{array}\)

  • Es decir, \(P\) asigna a cada evento \(A\) (cualquier subconjunto de \(\Omega\)) en el espacial muestral \(\Omega\) un número real entre 0 y 1 \(P(A)\).

que cumple lo siguiente (tres axiomas de Kolmogórov):

\(\begin{array}{ll} 1. & \forall A \subset \Omega, P(A) \geq 0 \quad \text{(axioma 1)}\\ 2. & P(\Omega) = 1 \quad \text{(axioma 2)}\\ 3. & Sean \,\, A_1,...,A_n \subseteq \Omega, A_i \cap A_j =\phi, \forall i,j=1...n , i \neq j \\ & => P(A_1\cup...\cup A_n) = P(A_1)+...+P(A_n) \quad \text{(axioma 3)} \end{array}\)

En el último axioma, los eventos son mutuamente excluyentes o disjuntos (no tienen elementos en común).

Propiedades

Las siguientes propiedades se deducen de los axiomas de Kolmogórov mencionados arriba.

\(\forall A,B \subseteq \Omega\),

  1. \(P(A) = 1 - P(A^C)\) \(\qquad\) (regla del complemento)

  • (\(A^C\) o \(A'\) es el complemento de \(A\) (en \(U\)) que es el conjunto de todos los miembros de \(U\) que no son miembros de \(A\). \(U\) se denomina el conjunto universal, y aquí \(U\) es \(\Omega\).)

  1. \( P(\phi) = 0\) \(\qquad\) (probabilidad del conjunto vacío)

  2. Si \(A \subseteq B => P(A) \leq P(B)\) \(\qquad\) (monotonía)

  3. \( P(A) \leq 1 \) \(\qquad\) (límite numérico)

  4. \( P(A \cup B) = P(A) + P(B) - P(A \cap B)\) \(\qquad\) (regla de adición)

Podemos usar Teoría informal de conjuntos y Diagrama de Venn para demonstrar las propiedades.

1.3.2. Probabilidad condicional#

Sean \(A, B \subseteq \Omega\), si \(P(B)>0\), se define:

\(\begin{array}{lll} P(A\mid B) & = &\frac{P(A \cap B)}{P(B)} \end{array}\)

Si además se cumple que \(P(A)>0\), se tiene:

\(\begin{array}{lll} P(A\cap B)& = &P(A\mid B)P(B) = P(B\mid A)P(A) \quad \text{(regla de muliplicación)} \end{array}\)

Esto se puede extender a mas eventos:

\(\begin{array}{lll} P(A\cap B \cap C)& = &P(A)P(B\mid A) P(C\mid A \cap B) \end{array}\)

siempre que \(P(A), P(A\cap B)> 0\)

1.3.3. Independencia#

¿Cómo determinar que dos eventos son independientes?

Sean \(A, B \subseteq \Omega\) con \(P(A),P(B) >0\), si cualquiera de las siguientes condiciones se cumple:

  1. \(P(A\cap B) = P(A)P(B)\)

  2. \(P(A\mid B) = P(A)\)

  3. \(P(B\mid A) = P(B)\)

se dice que \(A\) es independiente de \(B\).

1.3.4. Independencia condicional#

¿Cómo determinar que dos eventos \(A\) y \(B\) son independientes dados un tercer evento \(C\)?

Sean \(A, B, C \subseteq \Omega\) con \(P(A\cap C),P(B\cap C), P(C)>0\), si cualquiera de las siguientes condiciones se cumple:

  1. \(P(A\cap B \mid C) = P(A\mid C)P(B\mid C)\)

  2. \(P(A\mid B \cap C) = P(A \mid C)\)

  3. \(P(B\mid A \cap C) = P(B \mid C)\)

se dice que \(A\) es independiente de \(B\) condicionalmente a \(C\), o \(A\) y \(B\) son independientes condicionalmente dado \(C\).

Ejemplo: Altura, Vocabulario y Edad

1.3.5. Ley de las probabilidades totales#

Consideremos ahora una partición del espacio muestral \(\{B_i\}_{i=1,..n}\), es decir:

\(\begin{array}{lll} \bigcup_{i=1}^n \limits B_i = \Omega, & & B_i\cap B_j = \phi \qquad \forall i,j=1,..n, i\neq j \end{array}\)

entonces:

\(\begin{array}{lll} P(A) & = & \sum_{i=1}^n \limits P(A \cap B_i) & = & \sum_{i=1}^n \limits P(A\mid B_i) P(B_i) \end{array}\)

Ejemplo: Sea

  • \(A\) = {Pedro acepta un trabajo informática en Chile después del Magíster en Informática}

  • \(B_i\) = {Oferta de un trabajo informática para Pedro en region \(i\) en Chile }, \(i=1,...,15\)

  • \(C_i\) = {La novia de Pedro acepta un trabajo en region \(i\) en Chile }, \(i=1,...,15\)

¿Cuál es la probabilidad de A?

../../_images/chile.png

1.3.6. Regla de Bayes#

A partir de la defición de probabilidades condicionales se puede deducir la regla de Bayes:

Sean \(A, B \subseteq \Omega\) tales que \(P(A),P(B)>0\), entonces

\(\begin{array}{llll} P(B\mid A)& = & \cfrac{P(B\cap A)}{P(A)} = & \cfrac{P(B) P(A\mid B) }{P(A)} = & P(B) \cfrac{P(A\mid B)}{P(A)} \end{array}\)

\(P(B)\) se denomina probabilidad a priori, \(P(B \mid A)\) probabilidad a posteriori

(Esta regla a veces también se denomina teorema de Bayes. Pero la llamamos regla de Bayes en este curso.)

1.3.7. Teorema de Bayes#

Consideremos una partición del espacio muestral \(\{B_i\}_{i=1,..n}\), entonces:

\(\begin{array}{llll} P(B_i \mid A) & = & \cfrac{P(B_i \cap A)}{P(A)} = & \cfrac{P(B_i) P(A\mid B_i) }{P(A)} & = & \cfrac{P(A\mid B_i) P(B_i)}{\sum_{i=1}^n \limits P(A\mid B_i) P(B_i)} \end{array}\)

(Este teorema a veces también se denomina regla de Bayes. Pero lo llamamos teorema de Bayes en este curso.)