Breve repaso de Probabilidad y Estadística

Docente

MBA Ciencias Económicas

Ricardo R. Palma

Agenda

  • Revisión desde cero de la probabilidad y las estadísticas necesarias para hacer y comprender la simulación Asumir familiaridad con

    • manipulaciones algebraicas
    • notación de suma
  • Algunas ideas de cálculo (especialmente integrales)

  • Probabilidad: ideas básicas, terminología de simulación

    • Variables aleatorias, distribuciones conjuntas
    • Muestreo
  • Inferencia estadística: estimación puntual, intervalos de confianza, prueba de hipótesis

Flujo de trabajo en Simulación

Sea cual fuere el área en la que trabajes, gobierno, empresas o universidad, un factor clave de éxito es la habilidad que tengas para armar y comunicar basado en una línea discursiva.

Esta línea discursiva que utilizaremos para la presentación del trabajo final de este curso es la misma que te exigiría por ejemplo una entidad multilateral que financie como el IADB, un Banco o el jurado de una TESIS. Esta línea deiscursiva debe estar sostenida por datos, y más que datos por la representación sumaria que la estadística puede hacer de ellos.

Línea discursiva

Existen formas innovadoras de comunicar, pruba de ello se pueden encontrar en la red, en las películas y hasta en algunos formatos de libros. Tal vez el caso más representativo sea el creado por Julio Cortazar utilizada en Rayuela.

Pero siempre hemos de tener en cuenta que la línea discursiva se apunta a economizar el tiempo y el esfuerzo de comprensión del lector.

La forma discursiva de un paper o una tesis sigue más o menos siempre esta receta.

Sección o Capítulos Contenido
Título mo más de 10 palabras
Índice De temas, figuras y tablas
Situación problema Describe el problema o necesidad insatisfecha (dolor) que se pretende abordar (nicho). Concluye con un resumen de todo el documento y una pregunta de investigación (hipótesis).
Estado del arte Revisión bibliográfica sobre cómo han solucionado otras personas este problema. Se incorpora una crítica constructiva a las misma y se señala la necesidad de crear un nuevo enfoque y método.
Materiales y Métodos Se relevan los modelos y métodos que se emplearán (o desarrollarán) para comprobar si la hipótesis e aceptada o rechazada
Experimentación Se diseña un experimento en el que a partir de la información reunida y con los métodos explicados en el capítulo anterior se obtienen nuevos datos y nueva información sobre el hecho.
Interpretación de Resultados Se procede a interpretar los resultados haciendo inferencias sobre si la hipótesis de comprueba o no
Discusión y Aporte Se procede al un cierre explicando el alcance y limitaciones de los resultados obtenidos, se señalan líneas de investigación abiertas y se pone de manifiesto los aportes y descubrimientos realizados.
Referencias Bibliografícas Seiguiendo una norma (APA)

Para comprobar (o rechazar) lo que afirmamos en el trabajo (hipótesis) tenemos cinco medios entre los más utilizados. Todos ellos necesitan soporte de la estadística.

Método Características
Fáctico No hay experimento sino hecho de la vida real. Ejemplo comienzo a vender helado sabor tuna y demuestro que en ese mercado era una empresa (emprendimiento) exitoso
Hipotético Deductivo Se plantean una serie de premisas y por lógica se concluye con un postulado. Ej. Todos los peces viven en el mar, la ballena vivi en el mar; luego la ballena es un pez.
Verdad Histórica Se basa en la idea de la continuidad del pasado o de la repetición cíclica de eventos (ciclos Kondratief). S esuele usar ARIMA
Simulación Se hace un modelo simplificado de la realida en base a datos, se alimenta el modelo con datos de escenarios futuros y en base a eso se decide.
DOE / ANOVA Se diseña un experimento y se realiza un análisis de varianza

El flujo de trabajo es semejante para el método factico, el DOE y la simulación .

En el método fáctico se tienen una dataset (constelación de bases de datos) que reflejan los hechos ya ocurridos. Se pretende con ello tener una foto del antes y del después. En este y en los otros métodos se requiere el siguiente flujo de trabajo con esos datos

  • Tratamiento de los datos
    • Despojar outlaiers
    • Tratamiento de los NA
    • Escalado o normalizado
  • Metodología de clasificación (comparación)
    • Redes neuronales
    • Modelos alisado
    • Regresiónes
    • Etc.
  • Obtención de resultados
  • Interpretación

En la simulaciones no tenemos el dataset y tenemos que construirlo en base a modelos que nos dan sus parámetros o construyendo un experimento simplificado.

Dentro de los métodos de simulación podemos mencionar

  a) Método Montecarlo

  b) Simulación por Eventos Discretos

  c) Dinámica de sistemas

  d) Simulación basada en agente (NetLogo)

  e) Método de Jerarquía Analítica de Procesos (Saati)
  
  f) Analítica de datos y minería de textos con IA
  

No desarrollaremos todos en el curso, pero te recomiendo que realices un sondeo básico sobre todos y elijas uno para que trabajemos con tu grupo en clase.

En todos estos casos el resultado final es un conjunto de datos semejante al que se obtiene con el método fáctico. De modo que lo que sigue es volver a aplicar el flujo de trabajo, sólo que ahora los datos provienen de un modelo y no necesariamente de la realidad.

En simulación de negocios el método de simular representa sólo el 20% del esfuerzo o trabajo, el 80% restante se lo lleva la estadística y la interpretación de resultados.

Probabilidad (Bases)

Definicion de términos clave

  • Experimento: actividad con resultado incierto

    • Lanza monedas, tira dados, elige cartas, sacar bolilla del un bolillero, …

    • Conducir al trabajo mañana - ¿Tiempo? ¿Accidente?

    • Operar un centro de llamadas (real) - ¿Número de llamadas? ¿Tiempo promedio de espera del cliente? ¿Número de clientes que reciben señal de ocupado?

  • Simular un centro de llamadas: las mismas preguntas que arriba Espacio de muestra: lista completa de todos los resultados individuales posibles de un experimento

    Podría ser fácil o difícil de caracterizar

    Puede no ser necesario caracterizar

Experimento y simulación

Como podemos ver un evento real tiene un correlato simplificado en la simulación. Tanto el evento real o experimento como la simulación tienen una serie de variables aleatorias (dependen solamente del azar). Estas pueden ser enteras, lógicas, categóricas y caer en otras clasificaciones que explicaremos más adelante.

Ejercicio

Generar una varaible aleatoria que 10 valores tomados de las últimas cifras del número de serie de 10 billetes.

billetes <- scan() 32,41,12,00,...,65,9,, 

  

Probabilidad Eventos

Evento de una simulación: es un subconjunto del espacio muestral. Lo expresamos con \(E\)

\(E\) Describe habitualmente, ya sea enumerando los resultados, o descripción “física” del experimento, o descripción matemática

  • Usualmente se denota por \(E\), \(F\), \(E1\), \(E2\), etc.

  • En teoría de conjuntos es la Operaciones de unión, intersección, complementación

La probabilidad de un evento es la probabilidad relativa de que ocurra cuando se realiza el experimento

  • Un número real entre 0 y 1 (inclusive)

Denotado por \(P(E)\), \(P(E \cap F)\), etc.

  • Interpretación: proporción de tiempo en que ocurre el evento en muchas repeticiones independientes (replicaciones) del experimento. Se escribe /cap en \(\LaTex\)

  • Puede ser viable derivar una probabilidad, pero no siempre es posible calcularla (ecuaciones impropias o indefinidas)

Ejercicio

¿Que probabilidad existe de que al tirar un dado salga un número par?

#Espacio muestral (todos los casos posibles)
SEm <- 6
#Casos favorables son 2, 4, y 6 tres casos favorables
Cf <- 3
# Probabilidad de éxito
PE <- Cf/SEm
PE
[1] 0.5

Propiedades de \(P(x)\)

  • Si \(S\) es el espacio muestral, entonces \(P(S) = 1\) No puede existir evento \(E \ne S\) con \(P(E) = 1\)

  • Si \(Ø\) es el evento vacío (conjunto vacío), entonces \(P(Ø) = 0\), No puede tener evento \(E ≠ Ø\) con \(P(E) = 0\)

  • Si \(E^C\) es el complemento de E, entonces \(P(E^C) = 1 – P(E)\), luego \(P(E \cup F )\) = \(P(E) + P(F) – P(E \cap F)\)

  • Pero si \(E\) y \(F\) son mutuamente excluyentes (es decir, \(E \cap F = Ø\)), entonces \(P(E \cup F) = P(E) + P(F)\)

  • Si \(E\) es un subconjunto de \(F\) (es decir, la ocurrencia de \(E\) implica la ocurrencia de F), entonces \(P(E) \le P(F)\)

    Definición (suponiendo que P(F) ≠ 0): E y F son independientes si P(E ∩ F) = P(E) P(F)  Implica P(E|F) = P(E) y P(F|E) = P(F), es decir, sabiendo que ocurre un evento no dice nada sobre el otro  Si E y F son mutuamente excluyentes, ¿son independientes?

Si $o_1, o_2, …o:n $ son los resultados individuales en el espacio muestral, entonces

\[ \sum_{i=1}^{n} o_i = 1 \]

Ejercicio

¿Qué probabilidad tengo de que al sacar una carta de un mazo de 40 cartas salga un 7 o una carta de bastos?

En este ejercicio señalamos la existencia de la condición \(o\) , esto denota que hay dos eventos distintos

-1- Que salga una casta de bastos -2- Que salga un siete

Veamos las probabilidades individuales

Probablidad de que salga bastos, se calcula como casos favorables dividido casos posibles.

# Casos favorables (bastos) 10 cartas
Cf <-10
# Espacio muestral (total de casos)
Ct <-40
#Probablidad de bastos
Pb <- 10/40
Pb
[1] 0.25

Probabilidad de que la carta sea un 7

# Cantidad de números 7 en la baraja
C7 <- 4
# Espacio muestral (total de casos)
Ct <-40
P7 <- C7/Ct
P7
[1] 0.1

Ambos eventos tienen un evento común (que pertenece a los dos conjuntos). Si sumamos las probabilidades la carta 7 de basto sería sumada dos veces. Por ello tendremos que calcular la posibilidad de que salga un site de basto y restar esto a la suma de las probabilidades.

# Probabilidad del 7 de bastos
Cf7b <- 1
# Espacio muestral (total de casos)
Ct <-40
P7b <- Cf7b / Ct
P7b
[1] 0.025

Potabilidad conjunta de que salga 7 o Bastos, para ello debemos segur la regla de sumar los eventos favorables y restar el evento que se repite dos veces.

# Probabilidad conjunta

P7ob <- Pb + P7 - P7b
P7ob
[1] 0.325

Probabilidad condicional

Sabiendo que la ocurrencia de un evento \(F\) podría afectar la probabilidad de que otro evento \(E\) también ocurra

Se puede reducir el espacio muestral efectivo de \(S\) a \(F\), para luego para medir el “tamaño” de \(E\) en relación con su superposición (si la hay) en \(F\),en lugar del hacerlo relativo a \(S\)

Matemáticamente

Probabilidad de un evento dado que ha ocurrido otro es:

\[ p({E \backslash F}) =\frac {p(e) \cap p(f)} {p(f)} \] Se lee como: *** Probabilidad de \(E\), dado que ha ocurrido \(f\) es igual a la probabilidad conjunta de \(e\) y \(f\) dividido la probablidad de \(f\)

Ejercicio

El 76 % de los estudiantes de Ingeniería Civil han aprobado resistencia de materiales y el 45 % aprobaron estática.

Además, el 30 % aprobaron resistencia de materiales y estática. Si Juán aprobó resistencia de materiales, ¿qué probabilidad tiene de haber aprobado también estática?

Solución:

Vamos a trabajar con 2 eventos: aprobar resistencia de materiales, y aprobar estática.

  • Evento A: aprobar resistencia de materiales. \(P(A) = 76 \%\).

  • Evento B: aprobar estática. \(P(B) = 45 \%\).

Evento \(A\) y \(B\): aprobar resistencia de materiales y estática. \(P(A∩B) = 30 \%\), y es lo mismo que: \(P(B∩A) = 30 \%\) Ahora calculamos la probabilidad de aprobar estática, dado que se aprobó resistencia de materiales.

\[ P( B \backslash A ) = \frac{0.3}{0.76} = 0.3947\]

Variable Aleatoria

  • Una forma elegante de cuantificar, simplificar y describir eventos y sus probabilidades asociadas.

  • Una variable aleatoria (VA) es un número cuyo valor está determinado por el resultado de un experimento o simulación.

    • Técnicamente, una función o mapeo del espacio muestral a los números reales, pero por lo general puede definir y trabajar con un RV sin volver al espacio muestral.

    • Piensa: VA es un número cuyo valor no sabemos con certeza pero por lo general sabremos algo sobre lo que puede ser o es probable que sea.

  • Por lo general, se denota con letras mayúsculas: \(X\) , \(Y\) , \(W_1\) , \(W_2\) , etc.

  • El comportamiento de una variable aleatoria puede ser descripto por una función de probabilidad.

Distribución normal de probabilidades

Existe una distribución de probabilidades llamada normal o de Gauss que puede ser utilizada solamente si tu experimento o simulación supera los 25 ensayos. El Teorema central del límite demuestra que si no tienes al menos 25 ensayos esta distribución no se puede utilizar. Debes utilizar otras.

La forma paramétrica de la ecuación podría describirse así.

\(X\) es una varaible aletora VA que se puede representar por una distribución normal o de Gauss cuar media es \(\mu\) ysu desviación estandard es \(\sigma\), tal que:

\[X \sim \mathcal{N}(\mu,\,\sigma^{2})\]

Que se expresa por la ecuación paramétrica

\[ f(x) = \frac {e^{- \frac{(x-\mu)^2}{2\sigma^2}}} {\sigma\sqrt{2\pi}} , \qquad x \qquad \forall \Re(x)\] ### Familias de distribuciones en R-Cran Si quieres saber que distribuciones de probabilidades tienes disponibles en R-Cran puedes darle un vistazo a este link.

Revisa este link:

Distribuciones Habituales

** Ha más de 500 **en la instalación estandard, pero puede que algunos paquetes que instales tengan más distribuciones.

Hay un IDE que ter permite determinar a partir de los cuantiles de datos de un experimento, que distribución de probabilidades tienes que utilizar.

install.packages("rriskDistributions")

Tipos de variables aleatorias

Existen dos variantes (llamada savores) de variables aleatorias para representar distintos comportamientos del experimento.

  • Discretas: Son las que pueden tomar solamente ciertos valores
    • A pesar de ello pueden tener infinitos valores
  • Continuas
    • Pueden estar circunscriptas a un intervalo
    • El rango puede ser limitado (bouded) por un lado o por los lados o por ningún lado.

Generación de variables aleatorias

Tal como señalamos existen instaladas en tu entorno de trabajo muchas probabilidades. Diremos que cada una de ellas se invocan por un tag (piensa en esto como el apellido de la distribución) . Por ejemplo para la distribución normal el apellido es norm.

Existen también cuatro prefijos que te permiten desarrollar cuatro procesos con cada tag. Esto prefijos son \(p\) , \(q\) , \(r\) , \(d\) .

Así para la distribución normal tendremos:

Comando Significado
dnorm(x, mean = 0, sd = 1) dando un punto de corte \(x\) , devuelve la funcion de densidad para \(\mu\) y \(\sigma\) dados
pnorm(q, mean = 0, sd = 1) dado un valor \(q\) nos dice que probabilidad de que salga un valor menor o igual
qnorm(p, mean = 0, sd = 1) dada una probabilidad \(p\) deseada (menor o igual a p, nos dice que valor de la curva deberíamos superar el experimento)
rnorm(n, mean = 0, sd = 1) Genera \(n\) datos con cierta media y desvios dados

Distribuciones más utilizadas

Distribución tag o apellido parametros
Normal norm \(\mu\) , $
Uniforme
T Student rstudent ?rstudent
Beta beta n , shape1 , shape2
Chi cuadrado chisq rchisq(n, df, ncp = 0)
Logistica logis rlogis(n, location = 0, scale = 1)
Beta-Pert beta rbeta(10,2,3)
Triangular triang rtriang(10,1,2,9) , paquete extradDist
DiscretUnif dunif rdunif(n, min, max)

Ver más en el link

Ayuda distribuciones

Generación de variables aleatorias continuas

Según el CEPAL en su informe sobre as perspectovas económcas para el 2022 en Larinoamérica y Caribe (LAC)

Publicación CEPAL

Se espera que el PBI de Argentina crezca alrededor del 2.2 por ciento en 2022 con un desvío estandard del 0.9%

Realizar un análisis exploratorio de este informe

Generaremos en VA con 500 valores que representen los posibles resultados de la evolución del PBI.

set.seed(20181009)
PBI_Arg <- rnorm(500,2.2,1.3)
head(PBI_Arg)
[1]  2.1178230  0.8792979  0.6131410 -1.3023895  1.9260907  2.5130194
plot(PBI_Arg)
abline(h=2,col="red")

Verificaremos estos datos con un gráfico de cajas

boxplot(PBI_Arg, main="PBI Argentina post pandemia",ylab="Puntos %")

¿Qué probabilidad existe de que no haya crecimiento?

100 * pnorm(0,2.2,1.3)
[1] 4.529366

Interpretación Gráfica

 x=seq(-2,6,length=350)
 x1=seq(-2,0,length=130)
 x2=seq(0,6,length=(350-130))
 y=dnorm(x,mean=2.2,sd=1.3)
 y1=dnorm(x1,mean=2.2,sd=1.3)
 y2=dnorm(x2,mean=2.2,sd=1.3)
 
 plot(x,y,type="l", lwd=2, col="blue") 
 polygon(c(-2,x1,0),c(0,y1,0),col=rgb(1, 0.9, 0,0.5) )

¿Qué probabilidad hay de crecimiento superior al 6%?

100 *(1- pnorm(6,2.2,1.3))
[1] 0.1732954

Generación de variables aleatorias discretas

library(extraDistr)

x <- rdunif(300, 1, 10) 
xx <- -1:11
plot(prop.table(table(x)), type = "h")
lines(xx, ddunif(xx, 1, 10), col = "red")

hist(pdunif(x, 1, 10))

xx <- seq(-1, 11, by = 0.01)
plot(ecdf(x))
lines(xx, pdunif(xx, 1, 10), col = "red")