5 Primer taller de trabajo

Aquí se espondrán los trabajos realizados por cada grupo.

  • Tarea principal

Creaer una archivo markdown con Tu nombre, fotografía, formación de grado, datos destacados de tu perfil, publicaciones, campo disciplinar de la teis que te gustaría realizar

  • AREAS Y SUBÁREAS DEL CONOCIMIENTO UNESCO

Revisa estas área para identificar mejor el terreno de tu campo disciplinar.

  • Reúne la hoja de vida que has construído con la de los compañeros de tu grupo de trabajo.

5.1 Encontrando a Antonov

Este ejercicio que dejamos para ir realizando seguramente ya te ha soprendido. Las consultas de los alumnos han superado la capacidad de nuestros celulares respecto a las fallas que presenta. A pesar de las dificultades encontradas, les comento que este es un dataset muy pequeño. No podemos considerarlo como un conjunto de BIG Data. Pero a pesar de ello a primera vista excel nos dice que es más grande que la cantidad máxima de filas y columnas que el puede manejar con la memoria que tienes en tu máquina. Lamento informar que esto es falso, incluso si lo administraos con R tendríamos algunos problemas. La diferencia es que en este caso dentro de R podemos solucionarlo.

5.1.1 Rescatas datos de excel dentro R-Cran

Vamos a introducir el concepto de "script" dentro de R. Un script o guión en una seire de comando de R que se guardan en un archivo de texto y se invocan para realizar esos pasos que necesitaremos ejecutar en forma repetitiva durante mucho tiempo.

Para ello debemos trabajar la creación desde menú.

  Archivos -> Nuevo -> R-Script
  

Allí ejecutaremos los comandos que probaremos primero en la consola de R Studio.

5.1.2 Captura de Archivo Local

library(readr)
eana_012014_062019 <-         read_delim("eana_012014_062019.csv", 
    ";", escape_double = FALSE, trim_ws = TRUE)
 Comentamos esta línea para que el script se ejecute
  View(eana_012014_062019)

Sin embargo aparece un error del tipo multibyte.

Cuando operamos con datos generados por máquinas, o que vienen con caracteres de otros lenguajes (crílico por ejemplo), o intervenen métodos de transmisión de radiofrecuencia que pueden ser interferidos tenemos que asegurarnos que todos los caractéres sean imprimobles.

Este script de R sólo funciona con Linux y comentaremos en el taller como hacer esto en Windows.

# Ejecutar en terminal

# iconv  -t utf-8 -c eana_012014_062019.csv > eana_limpio.csv
# wc eana_eana_012014_062019.csv  
# WC eana_limpio.csv

El comando iconv

Otra forma de trabajar el archivo ya despojado de caracteres o "basura" se puede ejecutar el comando para obtener los datos desde la página de web.

  library(readr)

eana_limpio <- read_delim("https://themys.sid.uncu.edu.ar/~rpalma/R-cran /Analitica_Industrial/eana_limpio.csv", ";", escape_double = FALSE, trim_ws = TRUE)

A así ya estamos en condiciones para realizar trabajos.

Utilizaremos algunso comando de la consolo que iremos estudiando.

? grep

A partir de aqui subiremos los apunte de clase de los alumnos

  • Aislar los registros de un aeropuerto
  • Buscar los registro de Antonov en ese rango.

    grep("AN" , SAME_limpio$Aeronave) -> antonov SAME_limpio[antonov, ] SAME_limpio[antonov, ] -> leer View(leer)

5.2 Manejo de datos y estructuras

Agrega aquí tus notas.

** Eficiencia Energética**

eficiency <- read.table("http://ceal.fing.uncu.edu.ar/r-cran/solar.txt",header = TRUE)

5.2.1 ¿Qué columnas tienen esta tabla?

names(eficiency)
## [1] "kWh"   "gas"   "solar"

5.2.2 Pequeño análisis multivariado

pairs(eficiency, main="Matriz de Covarianza")

5.2.3 Estudio más detallado

library(psych)
pairs.panels(eficiency)

multi.hist(eficiency)

cor(eficiency)
##             kWh       gas     solar
## kWh   1.0000000 0.2400133 0.2652935
## gas   0.2400133 1.0000000 0.8373534
## solar 0.2652935 0.8373534 1.0000000

5.2.4 Calidad del modelo

¿Que tan buena puede ser la correlación que obtendíamos?

 regresion <- lm(solar ~ gas, data = eficiency)
 summary(regresion)
## 
## Call:
## lm(formula = solar ~ gas, data = eficiency)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -63.478 -26.816  -3.854  28.315  90.881 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 102.5751    29.6376   3.461  0.00212 ** 
## gas           5.3207     0.7243   7.346 1.79e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 43.46 on 23 degrees of freedom
## Multiple R-squared:  0.7012, Adjusted R-squared:  0.6882 
## F-statistic: 53.96 on 1 and 23 DF,  p-value: 1.794e-07

5.2.5 Comparación

Comparación gráfica del modelo de regresión lineal

plot(eficiency$gas, eficiency$solar, xlab = "gas m^3 propano/butano", ylab = "solar cm^2")
abline(regresion)

5.2.6 Predicción

Intentaremos realizar una predicción basada en el modelo construido

nuevas.gases <- data.frame(gas = seq(30, 50))
predict(regresion, nuevas.gases)
##        1        2        3        4        5        6        7        8 
## 262.1954 267.5161 272.8368 278.1575 283.4781 288.7988 294.1195 299.4402 
##        9       10       11       12       13       14       15       16 
## 304.7608 310.0815 315.4022 320.7229 326.0435 331.3642 336.6849 342.0056 
##       17       18       19       20       21 
## 347.3263 352.6469 357.9676 363.2883 368.6090

5.2.7 Intervalos de confianza

confint(regresion)
##                 2.5 %     97.5 %
## (Intercept) 41.265155 163.885130
## gas          3.822367   6.818986

5.2.8 Extrapolación

Intervalos de confianza Grafico de dispersion y recta ploteado nuevamente como base

options(tidy=TRUE, width=50)
nuevas.gases <- data.frame(gas = seq(10, 90))
plot(eficiency$gas, eficiency$solar,xlab="gas",ylab= "solar")
 abline(regresion)
 ic <- predict(regresion, nuevas.gases, interval ="confidence")
 lines(nuevas.gases$gas, ic[, 2], lty = 2)
 lines(nuevas.gases$gas, ic[, 3], lty = 2)

 ic <- predict(regresion, nuevas.gases, interval ="prediction")
 lines(nuevas.gases$gas, ic[, 2], lty = 2, col = "red")

 lines(nuevas.gases$gas, ic[, 3], lty = 2, col = "red")