Tema 9

Posgrado
Experto DBA – Inteligencia de Negocios
Módulo V:
“Diseño de Soluciones de Datos con MS‐
SQLSERVER”
_____
Agosto‐ Septiembre de 2017
Managua, Nicaragua
Dr. Vladimir Gutiérrez Corea
www.vlado.es
vladimir.gut@outlook.com

2
Introducción
Evaluación de un entorno empresarial existente
Administración basada en políticas
Cargas de trabajo con SQL Server
SQL Server en una nube privada
Azure con SQL Server
Implementación y configuración de BDs en MS‐SQL Azure‐DB
BDs en MVs MicroSoft AZURE
Fundamentos para modelamiento predictivo aplicado para la
inteligencia de negocio
3
1
2
4
5
6
7
9
8

3
x1.   Introducción a R
x2.   Interconexión con Bases de Datos (MS SQL‐SERVER) utilizando R.
x3.   Introducción a MS Azure Machine Learning (AzureML)
x4.   Fundamentos del Modelamiento predictivo aplicado Técnica 1
x4.1.   Prácticas en R
x4.2.   Prácticas en AzureML
Fundamentos para modelamiento predictivo aplicado para la
inteligencia de negocio
9

4
Fundamentos para modelamiento predictivo aplicado ‐ BI9

TEMA:
FUNDAMENTOS PARA MODELAMIENTO PREDICTIVO
APLICADO PARA LA INTELIGENCIA DE NEGOCIO
5
Fundamentos para modelamiento predictivo aplicado9

6
Introducción a R 9.1
‐ Entorno estadístico y/o lenguaje de programación / OpenSource / Win ‐ Linux ‐ Mac
‐ Con más de 6000 packages (bibliotecas) agrupados en vistas o temas.
‐ “Analysis of Spatial Data” con 131 packages (“R‐SIG‐Geo” lista oficial de correos)
R

7
4) base ‐> install R for the first
6) Download R 3.3.1 for Windows
1) http://www.r‐project.org
2) Seleccionar un Mirror (Mexico)
3) Download R for Windows

8
01> a <‐ 1 + 2 04 > class(d) 06 > ls() 08> getwd()
02> b <‐ c(1, 2, 3) 05 > str(d) 07 > rm( “objeto” ) 09 > gc()
03 > d <‐ matrix(c(11.11, 12.12, 13.13, 14.14, 15.15, 16.16, 17.17, 18.18, 19.19), ncol=3)
Inicio con

9
Inicio con
01> x <‐ rnorm(n=100, mean=10, sd=2) 04> max(x) 07 > hist(x)
02> summary(x) 05> min(x) 08 > boxplot(x)
03> mean(x) 06 > sd(x) 09 > par(mfrow=c(2,1), mar=c(4,4,4,4))
‐ El núcleo incluye packages con funciones fundamentales (estadísticas, manejo de datos, gráficos)

10
Inicio con
01 >  x <‐ 0:25 04 > cor(x, y) 07 > Fn <‐ lm(y~x, losDatos)
02 >  y <‐ (x + rnorm(x)) + 10 05 > losDatos <‐ cbind(x, y) 08 >  abline(Fn, col = "red", lty=1, lwd = 2)
03 > plot(x, y)   06 > losDatos <‐ as.data.frame(losDatos)        09 > summary(Fn)

11
Inicio con
‐Instalación de paquetes
‐ “rgdal”

13
‐ Descargar/Instalar Visual Studio 2015 (Community, Professional or Enterprise)
‐ Visual Studio 2015 Update 2
‐ An R interpreter: (CRAN‐R or Microsoft R Open or Microsoft R Server)
‐ Descargar/Instalar R Tools para Visual Studio:
https://www.visualstudio.com/es/vs/rtvs/

14
Visual Studio ahora agregará soporte para lenguaje “R”

15
Optimizar el ambiente de desarrollo para Data Science con “R”

16
Ambiente para Data Science

17
‐ Crear un nuevo proyecto ‐> Seleccionar [ R ]
‐ Seleccionar un directorio adecuado
‐ Asignar un nombre [ R_Intro ]

1818
2
1
‐ En (1) observar “base”, y la forma de instalar nuevos “packages”
‐ En (2) la opción de guardar y cargar Workspace.
‐ En (3) [ R ] en las opciones globales.
4
5

19
Carga de Datos
Múltiples fuentes:
‐ Bases de datos relacionales y NoSql:
RODBC, RMySQL, RpgSQL, RPostgreSQL, RSQLite
‐ Archivos:
read.table in {utils}: csv, excel …
‐ Datos espaciales (vectoriales y rasters):
rgdal, maptools , shapefiles, maps
‐ Servicios webs, paginas webs, google earth, OSM y etc.
‐ sqldf “para el manejo de dataframes como tablas de BD”

20
Carga de Datos
Desde base de datos (p. ej: Oracle):
01 > library(RODBC)
02 > myCn <‐ odbcConnect("RsMercator", uid = "USUARIO", pwd = "CLAVE", believeNRows=FALSE)
03 > ElSql <‐ paste('SELECT AEMETDATA.ID as estacion, ROUND(avg(TA), 2) as T_MEDIA,
ROUND(min(TA), 2) as T_MIN, ROUND(max(TA), 2) as T_MAX, EXTRACT(year FROM FECHA) as annio,
EXTRACT(month FROM FECHA) as mes, EXTRACT(day FROM FECHA) as dia,
ROUND(a.geometry.sdo_point.x, 12) as CX, ROUND(a.geometry.sdo_point.y, 12) as CY, Z, Count(*) as
totalregistros ', sep = '')
04 > ElSql <‐ paste(ElSql, 'FROM AEMETDATA, AEMET a ', sep = '')
05 > ElSql <‐ paste(ElSql, 'WHERE AEMETDATA.ID = a.ID and TA IS NOT NULL ', sep = '')
06 > ElSql <‐ paste(ElSql, AND EXTRACT(year FROM FECHA) = 2011 and EXTRACT(month FROM
FECHA) = 7 and EXTRACT(day FROM FECHA) BETWEEN 1 AND 7 ', sep = '')
07 > ElSql <‐ paste(ElSql, 'group by AEMETDATA.ID, EXTRACT(year FROM FECHA), EXTRACT(month
FROM FECHA), EXTRACT(day FROM FECHA), a.geometry.sdo_point.x, a.geometry.sdo_point.y, z', sep
= '')
08 > ElSql <‐ paste(ElSql, 'order by EXTRACT(year FROM FECHA), EXTRACT(month FROM FECHA),
EXTRACT(day FROM FECHA), AEMETDATA.ID ', sep = '')
NOTA: La sintaxis SQL depende del motor de base de datos… (p. ej: alternativas “DBF“, “Sql‐Server”)
09 > datosT_Raw <‐ sqlQuery(myCn, ElSql)
10> write.csv2(datosT_Raw, file=paste(getwd(), '/Data/DatosT_Mercator.csv', sep = ''))

21
4. Carga de datos
Desde archivo CSV:
01 > datos_Raw <‐ read.csv2(paste(getwd(), '/Data/DatosT_Mercator.csv', sep = ''))
Explorando los datos:
02 > class(datos_Raw)
03 > names (datos_Raw)
04 > str(datos_Raw)
05 > nrow(datos_Raw)
06 > ncol(datos_Raw)
Visual:
07 > plot(datos_Raw$CX, datos_Raw$T_MEDIA)
08 > plot(datos_Raw$CY, datos_Raw$T_MIN)
09 > plot(datos_Raw$CY, datos_Raw$T_MAX)
10 > plot(datos_Raw$CY, datos_Raw$T_MEDIA)
11 > abline(lm(T_MEDIA~CY, datos_Raw), col = "red", lty=1, lwd = 2)
12 > plot(datos_Raw$Z, datos_Raw$T_MEDIA)
13 > abline(lm(T_MEDIA~Z, datos_Raw), col = "red", lty=1, lwd = 2)
Carga de Datos

22
5. Pre‐procesos de datos
01 > datos2 <‐ subset(datos_Raw, CY > 33)
02 > nrow(datos2)
03 > plot(datos2$CY, datos2$T_MEDIA)
04 > abline(lm(T_MEDIA~CY, datos2), col = "red", lty=1, lwd = 2)
05 > plot(datos2$Z, datos2$T_MEDIA)
06 > abline(lm(T_MEDIA~Z, datos2), col = "red", lty=1, lwd = 2)

23
Datos espaciales (estructura en sp package):
Spatial
SpatialPoints … DataFrame
SpatialLines
SpatialPolygons
SpatialPixels
SpatialGrid
01 > library(rgdal)
02 > library(sp)
03 > datosGeo2 <‐ datos2
04 > coordinates (datosGeo2) <‐ c('CX', 'CY')
05 > class(datosGeo2)
06 > proj4string(datosGeo2) <‐ CRS("+init=epsg:4326")
07 > str(datosGeo2)
08 > datosUtm2 <‐ spTransform(datosGeo2, CRS("+init=epsg:23030"))
6. Paquetes especializados (Datos espaciales en R)

24
01 > class(datosGeo2@data)
02 > summary(datosGeo2@data$T_MEDIA)
03 > datosGeo2@bbox

25
01 > bubble(datosGeo2, "T_MEDIA", scales=list(draw=T), col="blue", pch=1, maxsize=1.5)

26
TEMA:
Interconexión con Bases de Datos (MS SQL‐SERVER) utilizando R.9.2

27
R: Interconexión con Bases de Datos (MS SQL‐SERVER)9.2

28https://www.microsoft.com/en‐us/download/details.aspx?id=36434
En caso de que no esté el Driver ODBC para SQL Server, descargarlo desde:

29
‐ Seleccionar la versión de 64 bits
‐ Una vez descargado proceder con el proceso de instalación

30
‐ En una instancia de SQL‐Server, crear la Base de Datos “DemoDB”

31
‐ Crear un DNS de sistema para ODBC Driver de SQL‐Server

32
‐ rear un DNS de sistema para ODBC Driver de SQL‐Server

33

34

35

36

37

38
‐ Copiar el Archivo: student‐mat.csv
‐ Al WorkSpace Actual de trabajo en R

39
# Demostración 1:
‐ En un nuevo archivo Script: Datos.R
# 1) Subir a una tabla de la BD (SQL Server) el archivos
‐ DatosT_Mercator.csv (agregarlo a una tabla, denominada: TemperaturasESP)
library(RODBC)
gCn <‐ odbcConnect('DemoDB', uid = 'sa', pwd = 'vlado123')
sqlSave(gCn, datos_Raw, "TemperaturasESP")
# 2) OBTENER desde la BD y la tabla “TemperaturasESP” los datos raw sin incluir la
T_MIN ni la T_MAX
pElSql <‐ paste('select … from …', sep = '')
Valores <‐ sqlQuery(gCn, pElSql)

40
# 3) Subir a una tabla de la BD (SQL Server) el archivo:
‐ student‐mat.csv (agregarlo a una tabla, denominada: EstudiantesPOR)
# 4) Actualizar la tabla EstudiantesPOR para que los campos G1, G2 y G3 sean
de 0‐100 (multiplicar esos valores por 5)
# 5) Recuperar desde la BD en la tabla EstudiantesPOR y las variables numéricas
de INTERES (G3, G2 , G1, age, Medu, Fedu, traveltime, studytime, famrel,
freetime, goout, Dalc, Walc, absences)
HACER:
5.1.‐ Histogramas
5.2.‐ BOX‐PLOT
5.3.‐ Gráfico de dispersión de G3 contra otras variables

41
LABORATORIO:
‐ HACER CAPTURAS EN WORD
‐ Al final poner conclusiones
‐ Enviar el archivo por correo.
# 6) Subir a una tabla de la BD (SQL Server) el archivo:
‐ income.csv (agregarlo a una tabla, denominada: IngresosUSA)
‐ NOTA: Estos datos se usarán para los siguientes ejercicios:
# 7) Recuperar los valores desde la BD en la tabla IngresosUSA:
HACER:
‐ Histogramas
‐ BOX‐PLOT
‐ Gráfico de dispersión de Ingresos contra años de escolaridad y la edad

42
TEMA:
Introducción a MS Azure Machine Learning (AzureML)9.3

43
https://studio.azureml.net/

44

45

46

47

48

49

50

51

52

53

54

55

56

57
# DEMO:
# 1) Subir a AzureML le archivo
‐ DatosT_Mercator.csv
# 2) Realizar una exploración a sus valores:
‐ Histogramas
‐ BOX‐PLOT
‐ Gráficos de dispersión

58
LABORATORIO:
‐ HACER CAPTURAS EN WORD
‐ Al final poner conclusiones
‐ Enviar el archivo por correo.
# 1) Subir a AzureML el archivos
‐ student‐mat.csv
# 2) Realizar una exploración a sus valores:
‐ Histogramas
‐ BOX‐PLOT
‐ Gráfico de dispersión

59
TEMA:
Fundamentos del Modelamiento predictivo aplicado Técnica 19.4

60
Fundamentos del Modelamiento predictivo aplicado: Técnica 19.4
‐ [ R ] es uno de los lenguajes y ambientes mas populares y
poderosos para el análisis de datos, uno de los más utilizados
en este tipo de ambientes por los Data Scientists.
‐ Los datos de negocios operativos usualmente se almacenan
en sistemas administradores de bases de datos relacionales
(RDBMS), y uno de los más utilizados y base de este
posgrado UNI es:
[ Microsoft SQL Server ]
‐ [ Azure Machin Learning ]: permite acceso gratuito, fuerte
soporte para R, beneficio de hosting en la nube, desarrollo
de soluciones basados en arrastrar y soltar, facilita la
posibilidad de poner el código en operación mediante la
Web Services.

61
Iniciar el ambiente DS para la clases:
1‐ Confirmar si existe registro ODBC para la BD‐
SQLSERVER local:
1.1 En caso negativo, seguid el procedimiento
indicado en las transparencias previa.
1.1.1 NOTA: Crea lo anterior como DNS del Usuario
2‐ Confirmar conexión a Internet

62
Data Scientists
http://www.claytonharkey.com/wp‐content/uploads/2015/09/os_signalcentral_what_is_data_science_gp_2014_v1.2_venn_diagram‐1.jpg

63
Data Scientists
http://berkeleysciencereview.com/wp‐content/uploads/2014/04/spring_2014_azam_01.jpg

64
Data Scientists
http://i.stack.imgur.com/zJluX.jpg

65
Data Scientists
http://i.stack.imgur.com/eLrhI.png

66
MLRM:
Una de las técnicas estadísticas más ampliamente usadas en estudios de
predicciones y análisis causal (ref).
En estudios de predicciones el objetivo es desarrollar una formula para
hacer las aproximaciones de valores de una variable dependiente basada en
observaciones de variables independientes.
Eje 1: Un economista pudiera predecir el Producto Interior Bruto (PIB) del
siguiente año basado en el PIB del año anterior, rangos de interés en los
prestamos, nivel actual desempleo y otras variables.
Eje 2: Un criminólogo pudiera predecir la posibilidad de que un ex convicto
vuelva a ser arrestado basado en su edad, nuero de arrestos previos, y los
tipos de crímenes por los cuales entró a prisión.

67
MLRM:
En análisis causal el objetivo es determinar si una variable
independiente afecta a la dependiente y determinar la magnitud de
dicha afectación.
Por ejemplo el criminólogo pudiera tener datos que muestren que
los prisioneros que participan en programas educacionales son
menos propensos a ser nuevamente arrestados una vez que sean
liberados.
Una MLRM pudiera indicar si esta relación es real o si pudiera ser
explicada por el hecho de que los prisioneros que participan en los
programas educacionales han sido aquellos con historias criminales
menos serias.
y = a + bx+ e
y = b0 + b1x1 + b2x2 + b3x3 + bnxn + e

68
Asumamos:
y = a + bx + e

69
Asumamos:
¿Cuánto ganaría alguien con 15 años de escolaridad?

70
Asumamos:
y = b0 + b1x1 + b2x2 + e
¿Cuánto ganaría alguien con 14 años de escolaridad y 40 años de edad?

71
Asumamos:
y = b0 + b1x1 + b2x2 + e

72
Asumamos:
Calculo del error:
e = Valor_Observado – Valor_Estimado

73
Mínimos Cuadrados Ordinarios:
y = b0 + b1x1 + b2x2 + b3x3 + bnxn + e
Metodología particular para estimar de la mejora manera posible los
valores
de los coeficientes del modelo.
Estimar los parámetros de la población mediante una muestra de
datos observados.
Al no poderse explicar toda la variación de las variables dependientes
a través de las variables independientes (explicativas) por las
perturbaciones al modelo que están fuera del control es por eso que
siempre hay una perturbación = error (e). Este e, es la parte que no se
pudo explicar de la variable dependiente a través de las variables
explicativas y supuestos.

74
Mínimos Cuadrados Ordinarios:
y = b0 + b1x1 + b2x2 + b3x3 + bnxn + e
Modificar la altura
Modificar la pendiente
¿Es mejor la azul, la roja o la negra?
‐‐ La altura y la pendiente ‐‐

75
y = b0 + b1x1 + b2x2 + b3x3 + bnxn + e
‐ Estima los parámetros minimizando la sumatoria de los errores cuadrados:
http://image.slidesharecdn.com/2015bolo9‐150527162540‐lva1‐app6892/95/metodo‐de‐estimacion‐y‐docima‐de‐hipotesis‐3‐638.jpg?cb=1432744099
~ “media”
Coeficiente de determinación: R2 = 1 –
∑
∑
; e =
^

https://azure.microsoft.com/es‐es/documentation/articles/data‐science‐process‐overview/

77
Calculo de los errores en TEST:
• RMSE
• %RMSE
• MAE
• %MAE
• … otros
‐ Validaciones cruzadas:
‐ leave one out cross validation
‐ n fold cross validation

78
MLRM ‐ DEMO en R
1º) Subir los datos desde income.csv a R.
2º) Subir los datos origen desde R hasta SQL‐Server
‐ para esto pasos intermedios vistos ya en clases previas
3º) Generar un modelo de MLRM de la variable INCOME en función SCHOOL y
AGE.
4º) Analizar los estadísticos generados en sí del modelo.
5º) Realizar validaciones cruzadas para evaluar estadísticos (RMSE, %RMSE,
MAE, %MAE ‐o‐ MAEP) del error del modelo.
6º) realizar predictibilidad de nuevos valores (valores desconocidos).
7º) Subir al almacén principal de datos (SQL‐Server) los resultados de las
validaciones.

79
‐ Crear nuevo proyecto R en VS – 2015
‐ Asignarle como Nombre “R_MLRM”
‐ Ubicarlo en la Unidad C
“(o en un directorio de su control)”

80
income <‐ read.csv(paste('C:/DatosR/income.csv', sep = ''), header = TRUE)
library(RODBC)
gCn <‐ odbcConnect('DemoDB', uid = 'sa', pwd = 'vlado123')
sqlSave(gCn, income, "income_original")
MLRM <‐ lm(formula = INCOME ~ SCHOOL + AGE, data = income)
income$residuos <‐ summary(MLRM)$residual
myN1 <‐ length(income$residuos)
myMedia1 <‐ mean(income$residuos)
mySd1 <‐ sd(income$residuos)
install.packages("moments")
library(moments)
hist(income$residuos)
mySkewness1 <‐ skewness(income$residuos) # Aprox. 0
myKurtosis1 <‐ kurtosis(income$residuos) # Aprox. 3

81
install.packages("nortest")
library(nortest)
myKs1 <‐ lillie.test(income$residuos)
myKsP1 <‐ myKs1$p.value
if (myKsP1 >= 0.05) # 0.01
{
ElNormal <‐ "(Ho) NORMAL"
}
# else
if (myKsP1 < 0.05)
{
ElNormal <‐ "(Ha) No Normal"
}
theX0v <‐ summary(MLRM)[[4]][[1, 1]] # Intercept (b1)
theX1v <‐ summary(MLRM)[[4]][[2, 1]] # B1^1 (b2)
theX2v <‐ summary(MLRM)[[4]][[3, 1]] # B1^2 (b3)
predicciones_MLRM <‐ predict(MLRM, data.frame(SCHOOL = c(14, 24), AGE = c(35, 55)))
RMSE <‐ ValidacionCruzada(income)

82
ValidacionCruzada <‐ function(ElDF)
{
i <‐ 1
ElDF <‐ as.data.frame(ElDF)
while (i < nrow(ElDF))
{
MLRM <‐ lm(formula = INCOME ~ SCHOOL + AGE, data = ElDF[ ‐ i,])
a <‐ predict(MLRM, ElDF[i,])
if (i == 1)
{
VectorResultado <‐ c(a)
}
else
{
VectorResultado <‐ union(VectorResultado, ElDF[i,])
}
i <‐ i + 1
}
El <‐ sqrt(sum(VectorResultado * VectorResultado) / nrow(ElDF))
ValidacionCruzada <‐ El
}

83
RMSE <‐ ValidacionCruzada(income)
RMSE
predict(MLRM, un_valor)

84
MLRM ‐ práctica en R (independiente 1)
… siguiendo los procedimientos, datos y práctica anterior:
1º) Generar un modelo de MLRM de la variable INCOME en función a SCHOOL.
3º) Realizar validaciones cruzadas para evaluar estadísticos (RMSE, %RMSE, MAE, %MAE ‐o‐
MAEP) del error del modelo.
4º) Generar un modelo de MRLM de la variable INCOME en función a AGE y AGE2
6º) Realizar validaciones cruzadas para evaluar estadísticos (RMSE, %RMSE, MAE, %MAE ‐o‐
MAEP) del error del modelo.
7º) Analizar cuál es el mejor MODELO de los tres anteriores (de las dos práticas).
8º) Seleccionar el mejor modelo y en base a este realizar predictibilidad de nuevos valores
(valores desconocidos).
9º) Subir al almacén principal de datos (SQL‐Server) los resultados de las validaciones.

85
‐ MLRM Práctica en AzureML:
https://studio.azureml.net/
1º) Subir los datos desde income.csv a AzureML Studio.
2º) Generar un modelo de MLRM de la variable INCOME en función SCHOOL
y AGE.
4º) realizar predictibilidad de nuevos valores (valores desconocidos).
5º) Aún considerando los pocos datos (sólo para fines práticos). Dividir el set
de datos en dos conjuntos (entrenamiento y validación).
6º) Generar nuevamente el MLRM con los datos de entrenamiento.
7º) Validar el error RMSE (%RMSE, MAE, %MAE –o‐ MAPE) con los datos en
validación.
‐ Publicar el Modelo
‐ Acceder al Modelo publicado

86
* Obtener los datos (subirlos a AzureML‐Studio):

87

88

89
* Iniciar un nuevo experimento:

* Arrastrar el juego de datos hacía el área de experimentos:
90

* Arrastrar el juego de datos hacía el área de experimentos:
91

* Explorar los datos:
92

93

94

95

96

97
Importante para la selección
Del juego de datos en train/test
Principalmente en la salida (Y).

* Limpieza de datos:
‐ Es un proceso típico, aunque en este caso nuestros datos están limpios.
98

99

100

101

102

103

104

105

106

* Dividir Train / Test:
107

108

109

* Seleccionar el
modelo:
110

* Entrenar el
modelo:
111

* Entrenar el
modelo:
112

* Entrenar el
modelo:
113

* Entrenar el
modelo:
114

* Predecir nuevos valores / evaluarlos (hiddencast):
115

116

117
Explorar los resultados

118

119
Revisar los Estadísticos
de la evaluación del
modelo
MODELO COMPLETO

* TAREA DE AUTO FORMACIÓN – EN CASA
* Publicar el Modelo / Acceder el Modelo como Web Service:
120
1º)
Guardar el flujo original
Con el nombre
MLRM_TRAIN
2º)
Guardar el nuevo flujo
Con el nombre
MLRM_PREDICTIVE
3)
Iniciar el Set Up Web Service

* TAREA DE AUTO FORMACIÓN – EN CASA
121

122

123

124
REPASO: MLRM en R:
library(RODBC)
library(caret)
gCn <‐ odbcConnect("DemoDB", uid = "sa", pwd = "vlado123")
Datos <‐ sqlQuery(gCn, "SELECT age, Medu, Fedu, traveltime,
studytime, famrel, freetime, goout, Dalc, Walc, health,
absences, G1, G2, G3 FROM EstudiantesPOR")
write.csv(Datos, file = paste(getwd(),
'/DatosEstudiantesPOR.csv', sep = ''))
trainIndex <‐ createDataPartition(Datos$G3, p = 0.85, list = F)
Datos_TRN <‐ Datos[trainIndex,]
Datos_TST <‐ Datos[‐trainIndex,]
MLRM <‐ lm(G3 ~ G1 + G2 + age + Medu + Fedu + traveltime +
studytime + famrel + freetime + goout + Dalc + Walc + health +
absences, Datos_TRN)
res <‐ cor(Datos_TRN)
round(res, 2)

125
class(MLRM)
str(MLRM)
summary(MLRM)
Identificar variables con significancia estadística

126
names(summary(MLRM))
data.frame(summary(MLRM)$coefficients[summary(MLRM)$coefficients
[, 4] <= .05, 4])
MLRM <‐ lm(G3 ~ G1 + G2 + famrel + absences + age, Datos)
summary(MLRM)

127
datos1 <‐ data.frame(G1 = c(70), G2 = c(70), famrel = c(4),
absences = c(1), age = (15))
datos2 <‐ data.frame(G1 = c(70), G2 = c(70), famrel = c(4),
absences = c(1), age = (22))
predict(MLRM, datos1)

128
resultados <‐ predict(MLRM, Datos_TST)
cbind(Datos_TST, resultados)
head(Datos_TST)

129
datos1 <‐ data.frame(G1 = c(70), G2 = c(70), famrel = c(4), absences = c(1), age = (15))
datos2 <‐ data.frame(G1 = c(70), G2 = c(70), famrel = c(4), absences = c(1), age = (22))

130
REPASO: MLRM en Azure ML:

131

132

133

134

135

136

* Seleccionar el
modelo:
137

* Entrenar el
modelo:
138

139

140

* Evaluar los modelos (hiddencast):
141

142

143

144
Posgrado Experto DBA ‐ BI
FIN !
Prof. Dr. Federico-Vladimir Gutiérrez-Corea
vladimir.gut@gmail.com
www.vlado.es
Septiembre de 2017
Gracias!

Tema 9

Recomendados

Recomendados

Más contenido relacionado

Similar a Tema 9

Similar a Tema 9 (20)

Más de Vladimir Gutierrez, PhD

Más de Vladimir Gutierrez, PhD (20)

Último

Último (20)

Tema 9