SlideShare una empresa de Scribd logo
¿Qué es Hadoop?
La mayoría de los componentes de la ciencia de datos han existido durante
muchas, muchas, muchas décadas. Pero todos se están juntando ahora con
algunas nuevas intenciones. En la parte inferior de la ciencia de datos, se ve la
probabilidad y las estadísticas. Ve álgebra, álgebra lineal, ve programación y ve
bases de datos.
Todos han estado aquí. Pero lo que sucedió ahora es que ahora tenemos las
capacidades computacionales para aplicar algunas técnicas nuevas - el
aprendizaje automático.
Donde ahora podemos tomar conjuntos de datos realmente grandes y, en lugar de
tomar una muestra e intentar probar algunas hipótesis, podemos tomar conjuntos
de datos realmente grandes y buscar patrones.
Y así, retroceda un nivel desde la prueba de hipótesis hasta encontrar patrones que
tal vez generarán hipótesis.
Ahora, esto puede molestar a algunos estadísticos muy tradicionales, a veces les
molesta que sepa, que se supone que tiene una hipótesis que no es independiente
de los datos y luego la prueba. Entonces, una vez que comenzaron algunas de
estas técnicas de aprendizaje automático, fueron realmente la única forma de
analizar algunos de estos conjuntos de datos de redes sociales realmente grandes.
Lo que hemos visto es que la combinación de áreas tradicionales de probabilidad
de informática, estadística, matemática se unen en lo que llamamos Ciencias de
la Decisión.
El departamento donde trabajo, estamos muy bien ubicados entre las escuelas de
negocios porque somos una de las pocas escuelas de negocios que tiene un
departamento de estadísticas real con estadísticos de doctorado reales. Tenemos
un departamento de gestión de operaciones y un departamento de sistemas de
información.
Por lo tanto, tenemos una amplia gama de informáticos, estadísticos e
investigadores de operaciones.
Y entonces estábamos perfectamente posicionados ya que un par de otras
escuelas de negocios debían subirse a este carro y decir: bueno, esto es Ciencias
de la Decisión.
Y Foster Provost, que está en mi departamento, fue el primer director del Centro de
Ciencia de Datos de la NYU.
Hace cuatro años, tal vez hace cinco años.
Quiero decir, creo que este es uno de esos casos en los que puede simplemente
Googlear y buscar ciencia de datos y ver con qué frecuencia ocurrió y no verá casi
nada y luego solo un poco.
Lo mismo que vería con Big Data hace unos siete u ocho años.
Entonces, la ciencia de datos es un término del que no he oído hablar,
probablemente, hace cinco años.
La primera pregunta es: ¿Qué es?
Y creo que la facultad y todos todavía están tratando de entender exactamente
qué es el análisis empresarial y qué es la ciencia de datos.
Ciertamente sabemos los componentes de esta.
Pero se está transformando, cambiando y creciendo.
Quiero decir que los últimos tres años de aprendizaje profundo se han agregado a
la mezcla.
Las redes neuronales han existido durante 20 o 30 años. Hace 20 años, enseñaría
redes neuronales en una clase y realmente no se podría hacer mucho con ellas.
Ahora algunos investigadores han creado redes neuronales de múltiples capas en
Toronto, en particular la Universidad de Toronto, esa tecnología ahora se está
expandiendo rápidamente, está siendo utilizada por Google, por Facebook, por
muchas compañías.
3.1 Habilidades de la ciencia de datos y Big Data
Temática basada en un testimonio de un científico de datos
Soy Norman White, soy miembro de la Facultad Clínica en el Departamento de
Ciencias de la Información, Operaciones y Gestión del Departamento de IOMS aquí
en Stern. He estado aquí por mucho tiempo, desde que salí de la universidad, más
o menos. Soy una especie de persona techy y geek (fascinado y obsesivo por la
tecnología). Realmente me gusta jugar con la tecnología en mi tiempo libre.
Actualmente soy Director de Facultad del Centro Stern para Investigación en
Computación, en el que tenemos una nube privada que ejecuta muchos tipos
diferentes de sistemas.
Muchos de nuestros profesores o estudiantes de doctorado que necesitan
hardware y software especializado vendrán a nosotros, activaremos una máquina
para ellos, la configuraremos, los ayudaré y les asesoraré. Muchos de los científicos
de datos, o prácticamente todos los científicos de datos en Stern, usan nuestras
instalaciones. Sus estudiantes de doctorado los usan mucho.
Tengo una licenciatura en Física Aplicada y mientras estaba en la universidad tomé
varios cursos de economía, así que terminé decidiendo ir a la escuela de negocios,
pero lo hice, esto fue en los primeros días de las computadoras y yo me había
interesado en las computadoras.
Llegué a Stern, que entonces era el centro de negocios de la NYU Business School y
tenían un pequeño centro de computación, decidí que iba a aprender dos cosas
mientras estuviera allí. Uno, iba a aprender a programar. Había tomado un curso
de programación en la universidad. Yo iba a aprender a tipear (escribir bien en el
teclado). Nunca aprendí. O tal vez lo hice, pero lo he olvidado ahora y cuando
tipeaba con dos dedos. Pero me convertí en un programador autodidacta, y luego
tomé varios cursos en IBM porque eventualmente fui el director del centro de
computación mientras obtenía mi doctorado en Economía y Estadística en Stern.
En 1973, la escuela formó un departamento llamado Aplicaciones de
Computadora y Sistemas de Información y yo fui uno de los primeros miembros de
la facultad en el departamento, he estado aquí desde entonces.
Mi lunes típico es, generalmente, llegar alrededor de las 11 en punto y reviso mi
correo electrónico en casa primero, pero entro y tengo dos clases el lunes. Tengo
una clase sobre diseño y desarrollo de sistemas basados en web a las seis en punto.
A las dos, tengo un trato con la clase de datos. La clase se basa en los Python
notebooks, por lo que comenzamos con los conceptos básicos de Unix y Linux, solo
para que los estudiantes se acostumbren a eso.
Pasamos a Python, algunas expresiones regulares, muchas bases de datos
relacionales, algunos Python Pandas, que es algo así como R para Python, le
permite hacer cálculos matemáticos y estadísticos en Python.
Luego termino con grandes datos (proyectos big data), para lo cual, como
probablemente saben, soy un evangelista.
Los estudiantes que tengo los puse en equipos y tienen que hacer un gran proyecto
al final del período y hacen algunas cosas realmente geniales.
Sí, de hecho, todo el curso se enseña con los Jupyter notebooks.
Cada estudiante tiene su propia máquina virtual en Amazon Web Services, por lo
que configuramos previamente todas las máquinas y obtienen una imagen
estándar que tiene todos los materiales para el curso cargados en ella o en un
Jupyter notebooks, hay comandos para descargar o actualizar el servidor con el
software adecuado.
Por lo tanto, todos están en el mismo entorno, no importa qué tipo de equipo tenga,
ya sea que tenga una máquina Mac o Windows o la antigüedad que tenga, todos
pueden hacer todo en la clase.
--- ARTICULO ---
Establecimiento de Objetivos de Minería de Datos
El primer paso en la minería de datos requiere que establezca objetivos para el
ejercicio. Obviamente, debe identificar las preguntas clave que deben
responderse. Sin embargo, más allá de identificar las preguntas clave están las
preocupaciones sobre los costos y beneficios del ejercicio. Además, debe
determinar, de antemano, el nivel esperado de precisión y utilidad de los resultados
obtenidos de la minería de datos. Si el dinero no fuera un problema, podría tirar
tantos fondos como sea necesario para obtener las respuestas requeridas. Sin
embargo, el compromiso costo-beneficio siempre es instrumental para determinar
los objetivos y el alcance del ejercicio de minería de datos. El nivel de precisión
esperado de los resultados también influye en los costos. Los altos niveles de
precisión de la minería de datos costarían más y viceversa. Además, más allá de
cierto nivel de precisión, no gana mucho con el ejercicio, dados los rendimientos
decrecientes. Por lo tanto, las compensaciones de costo beneficio para el nivel
deseado de precisión son consideraciones importantes para los objetivos de
minería de datos.
Seleccionar Datos
El resultado de un ejercicio de minería de datos depende en gran medida de la
calidad de los datos que se utilizan. A veces, los datos están disponibles para su
posterior procesamiento. Por ejemplo, los minoristas a menudo poseen grandes
bases de datos de compras de clientes y datos demográficos. Por otro lado, los
datos pueden no estar fácilmente disponibles para la minería de datos. En tales
casos, debe identificar otras fuentes de datos o incluso planificar nuevas iniciativas
de recopilación de datos, incluidas encuestas. El tipo de datos, su tamaño y
frecuencia de recopilación tienen una relación directa con el costo del ejercicio
de minería de datos. Por lo tanto, identificar el tipo correcto de datos necesarios
para la minería de datos que podría responder las preguntas a costos razonables
es fundamental.
Preprocesamiento De Datos
El procesamiento previo de datos es un paso importante en la minería de datos. A
menudo, los datos sin procesar son confusos y contienen datos erróneos o
irrelevantes. Además, incluso con datos relevantes, a veces falta información. En la
etapa de preprocesamiento, identifica los atributos irrelevantes de los datos y
elimina dichos atributos de mayor consideración. Al mismo tiempo, es necesario
identificar los aspectos erróneos del conjunto de datos y marcarlos como tales. Por
ejemplo, un error humano puede provocar una fusión involuntaria o un análisis
incorrecto de la información entre columnas. Los datos deben estar sujetos a
controles para garantizar la integridad. Por último, debe desarrollar un método
formal para tratar los datos faltantes y determinar si los datos faltan de forma
aleatoria o sistemática.
Si los datos faltaran al azar, bastaría un conjunto simple de soluciones. Sin embargo,
cuando faltan datos de manera sistemática, debe determinar el impacto de los
datos faltantes en los resultados. Por ejemplo, un subconjunto particular de
individuos en un gran conjunto de datos puede haberse negado a revelar sus
ingresos. Los hallazgos que dependen de los ingresos de un individuo como entrada
excluirían detalles de aquellos individuos cuyos ingresos no se informaron. Esto
conduciría a sesgos sistemáticos en el análisis. Por lo tanto, debe considerar de
antemano si las observaciones o variables que contienen datos faltantes se
excluirán de todo el análisis o partes de él.
Transformando Datos
Una vez que se han retenido los atributos relevantes de los datos, el siguiente paso
es determinar el formato apropiado en el que se deben almacenar los datos. Una
consideración importante en la minería de datos es reducir la cantidad de atributos
necesarios para explicar los fenómenos. Esto puede requerir la transformación de
datos. Los algoritmos de reducción de datos, como el Análisis de componentes
principales (demostrado y explicado más adelante en el capítulo), pueden reducir
el número de atributos sin una pérdida significativa de información. Además, las
variables pueden necesitar ser transformadas para ayudar a explicar el fenómeno
que se está estudiando. Por ejemplo, el ingreso de un individuo puede registrarse
en el conjunto de datos como ingreso salarial; ingresos de otras fuentes, como
propiedades de alquiler; pagos de apoyo del gobierno, y similares. Agregar ingresos
de todas las fuentes desarrollará un indicador representativo del ingreso individual.
A menudo necesita transformar variables de un tipo a otro. Puede ser prudente
transformar la variable continua de ingresos en una variable categórica donde
cada registro en la base de datos se identifica como individuo de ingresos bajos,
medios y altos. Esto podría ayudar a capturar las no linealidades en los
comportamientos subyacentes. Almacenamiento de Datos
Los datos transformados deben almacenarse en un formato que los haga propicios
para la minería de datos. Los datos deben almacenarse en un formato que otorgue
privilegios de lectura/escritura sin restricciones e inmediatos al científico de datos.
Durante la minería de datos, se crean nuevas variables, que se vuelven a escribir
en la base de datos original, por lo que el esquema de almacenamiento de datos
debería facilitar la lectura y escritura eficiente en la base de datos. También es
importante almacenar datos en servidores o medios de almacenamiento que
mantengan los datos seguros y también eviten que el algoritmo de minería de datos
busque innecesariamente datos dispersos en diferentes servidores o medios de
almacenamiento. La seguridad y la privacidad de los datos deben ser una
preocupación principal para almacenar datos.
Datos de Minería
Una vez que los datos se procesan, transforman y almacenan adecuadamente,
quedan sujetos a la extracción de datos. Este paso cubre los métodos de análisis
de datos, incluidos los métodos paramétricos y no paramétricos, y los algoritmos de
aprendizaje automático. Un buen punto de partida para la minería de datos es la
visualización de datos. Las vistas multidimensionales de los datos que utilizan las
capacidades gráficas avanzadas del software de minería de datos son muy útiles
para desarrollar una comprensión preliminar de las tendencias ocultas en el
conjunto de datos.
Las secciones posteriores de este capítulo detallan los algoritmos y métodos de
minería de datos.
Evaluación de Resultados de Minería
Una vez que se han extraído los resultados de la minería de datos, realiza una
evaluación formal de los resultados. La evaluación formal podría incluir probar las
capacidades predictivas de los modelos en los datos observados para ver cuán
efectivos y eficientes han sido los algoritmos en la reproducción de datos. Esto se
conoce como un pronóstico. Además, los resultados se comparten con las partes
interesadas clave para recibir comentarios, que luego se incorporan en las
iteraciones posteriores de la minería de datos para mejorar el proceso.
La minería de datos y la evaluación de los resultados se convierten en un proceso
iterativo de tal manera que los analistas usan algoritmos mejores y mejorados para
mejorar la calidad de los resultados generados a la luz de los comentarios recibidos
de los principales interesados.
En este módulo, ha aprendido Cómo se define Big Data por las V: Velocidad,
Volumen, Variedad, Veracidad y Valor. Cómo se utilizan Hadoop y otras
herramientas, combinadas con potencia informática distribuida, para manejar las
demandas de Big Data. Qué habilidades se requieren para analizar Big Data y ha
finalizado con revisando el proceso de minería de datos y cómo produce
resultados.

Más contenido relacionado

Similar a A3 phyton

Ensayos de la unidad 123
Ensayos de la unidad 123Ensayos de la unidad 123
Ensayos de la unidad 123
GloriaKarimeTorresMa
 
Machine Learning Whitepaper
Machine Learning WhitepaperMachine Learning Whitepaper
Machine Learning Whitepaper
Raona
 
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Beatriz Martín @zigiella
 
Tareas en la clase de informática
Tareas en la clase de informáticaTareas en la clase de informática
Tareas en la clase de informática
Julio Pérez
 
datatons en Women Techmakers
datatons en Women Techmakersdatatons en Women Techmakers
datatons en Women Techmakers
Datatons
 
6 casos de uso de analytics
6 casos de uso de analytics6 casos de uso de analytics
6 casos de uso de analytics
Hernán Giraudo
 
Manual de análisis y diseño de algoritmos
Manual de análisis y diseño de algoritmosManual de análisis y diseño de algoritmos
Manual de análisis y diseño de algoritmos
Spacetoshare
 
ccaunidad1.pdfaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
ccaunidad1.pdfaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaccaunidad1.pdfaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
ccaunidad1.pdfaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
milinco50
 
la computadora
la computadorala computadora
la computadora
LeonardoNeilsenQuisp
 
CURSO DE SELECCIÓN_SESIÓN 01.pptx
CURSO DE SELECCIÓN_SESIÓN 01.pptxCURSO DE SELECCIÓN_SESIÓN 01.pptx
CURSO DE SELECCIÓN_SESIÓN 01.pptx
DreykoReyderYagamiG
 
Matemática y Data Science
Matemática y Data ScienceMatemática y Data Science
Matemática y Data Science
MSc Aldo Valdez Alvarado
 
Plan de un centro de computo
Plan de un centro de computoPlan de un centro de computo
Plan de un centro de computoscaylan
 
Qué es la ciencia de datos.pdf
Qué es la ciencia de datos.pdfQué es la ciencia de datos.pdf
Qué es la ciencia de datos.pdf
apssoftwaredegestion
 
El big data
El big dataEl big data
El big data
SusanaLoaiza1
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
Eduardo Castro
 
Identificación y caracterización de productos de análisis de información.
Identificación y caracterización de productos de análisis de información.Identificación y caracterización de productos de análisis de información.
Identificación y caracterización de productos de análisis de información.
Universidad de Guadalajara
 
Ado.net entity framework
Ado.net entity frameworkAdo.net entity framework
Ado.net entity frameworkCein
 

Similar a A3 phyton (20)

A1 phyton
A1 phytonA1 phyton
A1 phyton
 
Ensayos de la unidad 123
Ensayos de la unidad 123Ensayos de la unidad 123
Ensayos de la unidad 123
 
Web quest
Web quest Web quest
Web quest
 
Machine Learning Whitepaper
Machine Learning WhitepaperMachine Learning Whitepaper
Machine Learning Whitepaper
 
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
 
Tareas en la clase de informática
Tareas en la clase de informáticaTareas en la clase de informática
Tareas en la clase de informática
 
datatons en Women Techmakers
datatons en Women Techmakersdatatons en Women Techmakers
datatons en Women Techmakers
 
6 casos de uso de analytics
6 casos de uso de analytics6 casos de uso de analytics
6 casos de uso de analytics
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Manual de análisis y diseño de algoritmos
Manual de análisis y diseño de algoritmosManual de análisis y diseño de algoritmos
Manual de análisis y diseño de algoritmos
 
ccaunidad1.pdfaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
ccaunidad1.pdfaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaccaunidad1.pdfaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
ccaunidad1.pdfaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
 
la computadora
la computadorala computadora
la computadora
 
CURSO DE SELECCIÓN_SESIÓN 01.pptx
CURSO DE SELECCIÓN_SESIÓN 01.pptxCURSO DE SELECCIÓN_SESIÓN 01.pptx
CURSO DE SELECCIÓN_SESIÓN 01.pptx
 
Matemática y Data Science
Matemática y Data ScienceMatemática y Data Science
Matemática y Data Science
 
Plan de un centro de computo
Plan de un centro de computoPlan de un centro de computo
Plan de un centro de computo
 
Qué es la ciencia de datos.pdf
Qué es la ciencia de datos.pdfQué es la ciencia de datos.pdf
Qué es la ciencia de datos.pdf
 
El big data
El big dataEl big data
El big data
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Identificación y caracterización de productos de análisis de información.
Identificación y caracterización de productos de análisis de información.Identificación y caracterización de productos de análisis de información.
Identificación y caracterización de productos de análisis de información.
 
Ado.net entity framework
Ado.net entity frameworkAdo.net entity framework
Ado.net entity framework
 

Más de ElielMauricioEscobar

Aa1 oa dis_webacc (1)_web_acces
Aa1 oa dis_webacc (1)_web_accesAa1 oa dis_webacc (1)_web_acces
Aa1 oa dis_webacc (1)_web_acces
ElielMauricioEscobar
 
4 manejo de_metodos
4 manejo de_metodos4 manejo de_metodos
4 manejo de_metodos
ElielMauricioEscobar
 
2 interfaces graficas_de_usuario (1)
2 interfaces graficas_de_usuario (1)2 interfaces graficas_de_usuario (1)
2 interfaces graficas_de_usuario (1)
ElielMauricioEscobar
 
1 clases y_objetos (2)
1 clases y_objetos (2)1 clases y_objetos (2)
1 clases y_objetos (2)
ElielMauricioEscobar
 
Req funcionales
Req funcionalesReq funcionales
Req funcionales
ElielMauricioEscobar
 

Más de ElielMauricioEscobar (7)

Aa1 oa dis_webacc (1)_web_acces
Aa1 oa dis_webacc (1)_web_accesAa1 oa dis_webacc (1)_web_acces
Aa1 oa dis_webacc (1)_web_acces
 
A1 python 4
A1 python 4A1 python 4
A1 python 4
 
A1 python 3
A1 python 3A1 python 3
A1 python 3
 
4 manejo de_metodos
4 manejo de_metodos4 manejo de_metodos
4 manejo de_metodos
 
2 interfaces graficas_de_usuario (1)
2 interfaces graficas_de_usuario (1)2 interfaces graficas_de_usuario (1)
2 interfaces graficas_de_usuario (1)
 
1 clases y_objetos (2)
1 clases y_objetos (2)1 clases y_objetos (2)
1 clases y_objetos (2)
 
Req funcionales
Req funcionalesReq funcionales
Req funcionales
 

Último

mapa mental gestion del capital humano.pdf
mapa mental gestion del capital humano.pdfmapa mental gestion del capital humano.pdf
mapa mental gestion del capital humano.pdf
andreakathe12
 
MAPAS MIXTOS DE LA EVOLUCIÓN DEL COMPUTADOR Y EL DISEÑO GRÁFICO
MAPAS MIXTOS DE LA EVOLUCIÓN DEL COMPUTADOR Y EL DISEÑO GRÁFICOMAPAS MIXTOS DE LA EVOLUCIÓN DEL COMPUTADOR Y EL DISEÑO GRÁFICO
MAPAS MIXTOS DE LA EVOLUCIÓN DEL COMPUTADOR Y EL DISEÑO GRÁFICO
MarianellaMalaveCazo
 
capitulo-18-sistema--706807-downloadable-2573126.pdf
capitulo-18-sistema--706807-downloadable-2573126.pdfcapitulo-18-sistema--706807-downloadable-2573126.pdf
capitulo-18-sistema--706807-downloadable-2573126.pdf
ProfesorCiencias2
 
Patrimundi Recuperadora Bancaria en Cancun
Patrimundi Recuperadora Bancaria en CancunPatrimundi Recuperadora Bancaria en Cancun
Patrimundi Recuperadora Bancaria en Cancun
DianaArtemizaCP
 
informecbdlp-240603151721-44655eeh2.docx
informecbdlp-240603151721-44655eeh2.docxinformecbdlp-240603151721-44655eeh2.docx
informecbdlp-240603151721-44655eeh2.docx
IsabellaCortes7
 
DIA DE LA BANDERA PERUANA EL 7 DE JUNIO DE 1820
DIA DE LA BANDERA PERUANA EL 7 DE JUNIO DE 1820DIA DE LA BANDERA PERUANA EL 7 DE JUNIO DE 1820
DIA DE LA BANDERA PERUANA EL 7 DE JUNIO DE 1820
62946377
 
Proyecto_individulal_entre_pares_Ricardo_Aray_Lobo.pdf
Proyecto_individulal_entre_pares_Ricardo_Aray_Lobo.pdfProyecto_individulal_entre_pares_Ricardo_Aray_Lobo.pdf
Proyecto_individulal_entre_pares_Ricardo_Aray_Lobo.pdf
RicardoArayaLobo
 
Desarrollo de habilidades de pensamiento (1).pdf
Desarrollo de habilidades de pensamiento (1).pdfDesarrollo de habilidades de pensamiento (1).pdf
Desarrollo de habilidades de pensamiento (1).pdf
marianamadronero578
 
1x10.documento bueno para comunidades jefas y jefes de comunidades q les soli...
1x10.documento bueno para comunidades jefas y jefes de comunidades q les soli...1x10.documento bueno para comunidades jefas y jefes de comunidades q les soli...
1x10.documento bueno para comunidades jefas y jefes de comunidades q les soli...
Sarai747172
 
Porfolio livings creados por Carlotta Design
Porfolio livings creados por Carlotta DesignPorfolio livings creados por Carlotta Design
Porfolio livings creados por Carlotta Design
paulacoux1
 
Mapa-coHUIOIUHYGFDFGHYUInceptual-de-la-Noticia.docx
Mapa-coHUIOIUHYGFDFGHYUInceptual-de-la-Noticia.docxMapa-coHUIOIUHYGFDFGHYUInceptual-de-la-Noticia.docx
Mapa-coHUIOIUHYGFDFGHYUInceptual-de-la-Noticia.docx
Linner ortiz
 
Portfolio_itsmevalen/ Valentina Balmaceda
Portfolio_itsmevalen/ Valentina BalmacedaPortfolio_itsmevalen/ Valentina Balmaceda
Portfolio_itsmevalen/ Valentina Balmaceda
ValentinaBalmaceda2
 
Introduccion-a-la-vida-de-Johannes-Kepler.pptx
Introduccion-a-la-vida-de-Johannes-Kepler.pptxIntroduccion-a-la-vida-de-Johannes-Kepler.pptx
Introduccion-a-la-vida-de-Johannes-Kepler.pptx
albujarluisl
 
Movimiento Moderno en Venezuela Arquitectura
Movimiento Moderno en Venezuela ArquitecturaMovimiento Moderno en Venezuela Arquitectura
Movimiento Moderno en Venezuela Arquitectura
LeonardoDantasRivas
 
Porfolio de diseños de Comedores de Carlotta Design
Porfolio  de diseños de Comedores de Carlotta DesignPorfolio  de diseños de Comedores de Carlotta Design
Porfolio de diseños de Comedores de Carlotta Design
paulacoux1
 
Museo de Arte Contemporáneo del Siglo XXI - HISTORIA DE LA ARQUITECTURA .pdf
Museo de Arte Contemporáneo del Siglo XXI - HISTORIA DE LA ARQUITECTURA .pdfMuseo de Arte Contemporáneo del Siglo XXI - HISTORIA DE LA ARQUITECTURA .pdf
Museo de Arte Contemporáneo del Siglo XXI - HISTORIA DE LA ARQUITECTURA .pdf
MarianaVillenaAyala
 
DIAGRAMA DE FLUJO.pptx : Ventas en linea
DIAGRAMA DE FLUJO.pptx : Ventas en lineaDIAGRAMA DE FLUJO.pptx : Ventas en linea
DIAGRAMA DE FLUJO.pptx : Ventas en linea
EduarRamos7
 
Estilos de cajas Flexibles CSS-Flexbox-y-Grid.pdf
Estilos de cajas Flexibles CSS-Flexbox-y-Grid.pdfEstilos de cajas Flexibles CSS-Flexbox-y-Grid.pdf
Estilos de cajas Flexibles CSS-Flexbox-y-Grid.pdf
JosueJuanez1
 
Propuesta de diseño de marca para Fred, muebles de diseño
Propuesta de diseño de marca para Fred, muebles de diseñoPropuesta de diseño de marca para Fred, muebles de diseño
Propuesta de diseño de marca para Fred, muebles de diseño
Mariano Salgado
 
Lectura. Reseña ilustrada, novela Albert Camus
Lectura.  Reseña ilustrada, novela Albert CamusLectura.  Reseña ilustrada, novela Albert Camus
Lectura. Reseña ilustrada, novela Albert Camus
RenataGrecia
 

Último (20)

mapa mental gestion del capital humano.pdf
mapa mental gestion del capital humano.pdfmapa mental gestion del capital humano.pdf
mapa mental gestion del capital humano.pdf
 
MAPAS MIXTOS DE LA EVOLUCIÓN DEL COMPUTADOR Y EL DISEÑO GRÁFICO
MAPAS MIXTOS DE LA EVOLUCIÓN DEL COMPUTADOR Y EL DISEÑO GRÁFICOMAPAS MIXTOS DE LA EVOLUCIÓN DEL COMPUTADOR Y EL DISEÑO GRÁFICO
MAPAS MIXTOS DE LA EVOLUCIÓN DEL COMPUTADOR Y EL DISEÑO GRÁFICO
 
capitulo-18-sistema--706807-downloadable-2573126.pdf
capitulo-18-sistema--706807-downloadable-2573126.pdfcapitulo-18-sistema--706807-downloadable-2573126.pdf
capitulo-18-sistema--706807-downloadable-2573126.pdf
 
Patrimundi Recuperadora Bancaria en Cancun
Patrimundi Recuperadora Bancaria en CancunPatrimundi Recuperadora Bancaria en Cancun
Patrimundi Recuperadora Bancaria en Cancun
 
informecbdlp-240603151721-44655eeh2.docx
informecbdlp-240603151721-44655eeh2.docxinformecbdlp-240603151721-44655eeh2.docx
informecbdlp-240603151721-44655eeh2.docx
 
DIA DE LA BANDERA PERUANA EL 7 DE JUNIO DE 1820
DIA DE LA BANDERA PERUANA EL 7 DE JUNIO DE 1820DIA DE LA BANDERA PERUANA EL 7 DE JUNIO DE 1820
DIA DE LA BANDERA PERUANA EL 7 DE JUNIO DE 1820
 
Proyecto_individulal_entre_pares_Ricardo_Aray_Lobo.pdf
Proyecto_individulal_entre_pares_Ricardo_Aray_Lobo.pdfProyecto_individulal_entre_pares_Ricardo_Aray_Lobo.pdf
Proyecto_individulal_entre_pares_Ricardo_Aray_Lobo.pdf
 
Desarrollo de habilidades de pensamiento (1).pdf
Desarrollo de habilidades de pensamiento (1).pdfDesarrollo de habilidades de pensamiento (1).pdf
Desarrollo de habilidades de pensamiento (1).pdf
 
1x10.documento bueno para comunidades jefas y jefes de comunidades q les soli...
1x10.documento bueno para comunidades jefas y jefes de comunidades q les soli...1x10.documento bueno para comunidades jefas y jefes de comunidades q les soli...
1x10.documento bueno para comunidades jefas y jefes de comunidades q les soli...
 
Porfolio livings creados por Carlotta Design
Porfolio livings creados por Carlotta DesignPorfolio livings creados por Carlotta Design
Porfolio livings creados por Carlotta Design
 
Mapa-coHUIOIUHYGFDFGHYUInceptual-de-la-Noticia.docx
Mapa-coHUIOIUHYGFDFGHYUInceptual-de-la-Noticia.docxMapa-coHUIOIUHYGFDFGHYUInceptual-de-la-Noticia.docx
Mapa-coHUIOIUHYGFDFGHYUInceptual-de-la-Noticia.docx
 
Portfolio_itsmevalen/ Valentina Balmaceda
Portfolio_itsmevalen/ Valentina BalmacedaPortfolio_itsmevalen/ Valentina Balmaceda
Portfolio_itsmevalen/ Valentina Balmaceda
 
Introduccion-a-la-vida-de-Johannes-Kepler.pptx
Introduccion-a-la-vida-de-Johannes-Kepler.pptxIntroduccion-a-la-vida-de-Johannes-Kepler.pptx
Introduccion-a-la-vida-de-Johannes-Kepler.pptx
 
Movimiento Moderno en Venezuela Arquitectura
Movimiento Moderno en Venezuela ArquitecturaMovimiento Moderno en Venezuela Arquitectura
Movimiento Moderno en Venezuela Arquitectura
 
Porfolio de diseños de Comedores de Carlotta Design
Porfolio  de diseños de Comedores de Carlotta DesignPorfolio  de diseños de Comedores de Carlotta Design
Porfolio de diseños de Comedores de Carlotta Design
 
Museo de Arte Contemporáneo del Siglo XXI - HISTORIA DE LA ARQUITECTURA .pdf
Museo de Arte Contemporáneo del Siglo XXI - HISTORIA DE LA ARQUITECTURA .pdfMuseo de Arte Contemporáneo del Siglo XXI - HISTORIA DE LA ARQUITECTURA .pdf
Museo de Arte Contemporáneo del Siglo XXI - HISTORIA DE LA ARQUITECTURA .pdf
 
DIAGRAMA DE FLUJO.pptx : Ventas en linea
DIAGRAMA DE FLUJO.pptx : Ventas en lineaDIAGRAMA DE FLUJO.pptx : Ventas en linea
DIAGRAMA DE FLUJO.pptx : Ventas en linea
 
Estilos de cajas Flexibles CSS-Flexbox-y-Grid.pdf
Estilos de cajas Flexibles CSS-Flexbox-y-Grid.pdfEstilos de cajas Flexibles CSS-Flexbox-y-Grid.pdf
Estilos de cajas Flexibles CSS-Flexbox-y-Grid.pdf
 
Propuesta de diseño de marca para Fred, muebles de diseño
Propuesta de diseño de marca para Fred, muebles de diseñoPropuesta de diseño de marca para Fred, muebles de diseño
Propuesta de diseño de marca para Fred, muebles de diseño
 
Lectura. Reseña ilustrada, novela Albert Camus
Lectura.  Reseña ilustrada, novela Albert CamusLectura.  Reseña ilustrada, novela Albert Camus
Lectura. Reseña ilustrada, novela Albert Camus
 

A3 phyton

  • 1.
  • 2. ¿Qué es Hadoop? La mayoría de los componentes de la ciencia de datos han existido durante muchas, muchas, muchas décadas. Pero todos se están juntando ahora con algunas nuevas intenciones. En la parte inferior de la ciencia de datos, se ve la probabilidad y las estadísticas. Ve álgebra, álgebra lineal, ve programación y ve bases de datos. Todos han estado aquí. Pero lo que sucedió ahora es que ahora tenemos las capacidades computacionales para aplicar algunas técnicas nuevas - el aprendizaje automático. Donde ahora podemos tomar conjuntos de datos realmente grandes y, en lugar de tomar una muestra e intentar probar algunas hipótesis, podemos tomar conjuntos de datos realmente grandes y buscar patrones. Y así, retroceda un nivel desde la prueba de hipótesis hasta encontrar patrones que tal vez generarán hipótesis. Ahora, esto puede molestar a algunos estadísticos muy tradicionales, a veces les molesta que sepa, que se supone que tiene una hipótesis que no es independiente de los datos y luego la prueba. Entonces, una vez que comenzaron algunas de estas técnicas de aprendizaje automático, fueron realmente la única forma de analizar algunos de estos conjuntos de datos de redes sociales realmente grandes. Lo que hemos visto es que la combinación de áreas tradicionales de probabilidad de informática, estadística, matemática se unen en lo que llamamos Ciencias de la Decisión. El departamento donde trabajo, estamos muy bien ubicados entre las escuelas de negocios porque somos una de las pocas escuelas de negocios que tiene un departamento de estadísticas real con estadísticos de doctorado reales. Tenemos un departamento de gestión de operaciones y un departamento de sistemas de información. Por lo tanto, tenemos una amplia gama de informáticos, estadísticos e investigadores de operaciones. Y entonces estábamos perfectamente posicionados ya que un par de otras escuelas de negocios debían subirse a este carro y decir: bueno, esto es Ciencias de la Decisión.
  • 3. Y Foster Provost, que está en mi departamento, fue el primer director del Centro de Ciencia de Datos de la NYU. Hace cuatro años, tal vez hace cinco años. Quiero decir, creo que este es uno de esos casos en los que puede simplemente Googlear y buscar ciencia de datos y ver con qué frecuencia ocurrió y no verá casi nada y luego solo un poco. Lo mismo que vería con Big Data hace unos siete u ocho años. Entonces, la ciencia de datos es un término del que no he oído hablar, probablemente, hace cinco años. La primera pregunta es: ¿Qué es? Y creo que la facultad y todos todavía están tratando de entender exactamente qué es el análisis empresarial y qué es la ciencia de datos. Ciertamente sabemos los componentes de esta. Pero se está transformando, cambiando y creciendo. Quiero decir que los últimos tres años de aprendizaje profundo se han agregado a la mezcla. Las redes neuronales han existido durante 20 o 30 años. Hace 20 años, enseñaría redes neuronales en una clase y realmente no se podría hacer mucho con ellas. Ahora algunos investigadores han creado redes neuronales de múltiples capas en Toronto, en particular la Universidad de Toronto, esa tecnología ahora se está expandiendo rápidamente, está siendo utilizada por Google, por Facebook, por muchas compañías. 3.1 Habilidades de la ciencia de datos y Big Data Temática basada en un testimonio de un científico de datos Soy Norman White, soy miembro de la Facultad Clínica en el Departamento de Ciencias de la Información, Operaciones y Gestión del Departamento de IOMS aquí en Stern. He estado aquí por mucho tiempo, desde que salí de la universidad, más o menos. Soy una especie de persona techy y geek (fascinado y obsesivo por la tecnología). Realmente me gusta jugar con la tecnología en mi tiempo libre.
  • 4. Actualmente soy Director de Facultad del Centro Stern para Investigación en Computación, en el que tenemos una nube privada que ejecuta muchos tipos diferentes de sistemas. Muchos de nuestros profesores o estudiantes de doctorado que necesitan hardware y software especializado vendrán a nosotros, activaremos una máquina para ellos, la configuraremos, los ayudaré y les asesoraré. Muchos de los científicos de datos, o prácticamente todos los científicos de datos en Stern, usan nuestras instalaciones. Sus estudiantes de doctorado los usan mucho. Tengo una licenciatura en Física Aplicada y mientras estaba en la universidad tomé varios cursos de economía, así que terminé decidiendo ir a la escuela de negocios, pero lo hice, esto fue en los primeros días de las computadoras y yo me había interesado en las computadoras. Llegué a Stern, que entonces era el centro de negocios de la NYU Business School y tenían un pequeño centro de computación, decidí que iba a aprender dos cosas mientras estuviera allí. Uno, iba a aprender a programar. Había tomado un curso de programación en la universidad. Yo iba a aprender a tipear (escribir bien en el teclado). Nunca aprendí. O tal vez lo hice, pero lo he olvidado ahora y cuando tipeaba con dos dedos. Pero me convertí en un programador autodidacta, y luego tomé varios cursos en IBM porque eventualmente fui el director del centro de computación mientras obtenía mi doctorado en Economía y Estadística en Stern. En 1973, la escuela formó un departamento llamado Aplicaciones de Computadora y Sistemas de Información y yo fui uno de los primeros miembros de la facultad en el departamento, he estado aquí desde entonces. Mi lunes típico es, generalmente, llegar alrededor de las 11 en punto y reviso mi correo electrónico en casa primero, pero entro y tengo dos clases el lunes. Tengo una clase sobre diseño y desarrollo de sistemas basados en web a las seis en punto. A las dos, tengo un trato con la clase de datos. La clase se basa en los Python notebooks, por lo que comenzamos con los conceptos básicos de Unix y Linux, solo para que los estudiantes se acostumbren a eso. Pasamos a Python, algunas expresiones regulares, muchas bases de datos relacionales, algunos Python Pandas, que es algo así como R para Python, le permite hacer cálculos matemáticos y estadísticos en Python. Luego termino con grandes datos (proyectos big data), para lo cual, como probablemente saben, soy un evangelista.
  • 5. Los estudiantes que tengo los puse en equipos y tienen que hacer un gran proyecto al final del período y hacen algunas cosas realmente geniales. Sí, de hecho, todo el curso se enseña con los Jupyter notebooks. Cada estudiante tiene su propia máquina virtual en Amazon Web Services, por lo que configuramos previamente todas las máquinas y obtienen una imagen estándar que tiene todos los materiales para el curso cargados en ella o en un Jupyter notebooks, hay comandos para descargar o actualizar el servidor con el software adecuado. Por lo tanto, todos están en el mismo entorno, no importa qué tipo de equipo tenga, ya sea que tenga una máquina Mac o Windows o la antigüedad que tenga, todos pueden hacer todo en la clase. --- ARTICULO --- Establecimiento de Objetivos de Minería de Datos El primer paso en la minería de datos requiere que establezca objetivos para el ejercicio. Obviamente, debe identificar las preguntas clave que deben responderse. Sin embargo, más allá de identificar las preguntas clave están las preocupaciones sobre los costos y beneficios del ejercicio. Además, debe determinar, de antemano, el nivel esperado de precisión y utilidad de los resultados obtenidos de la minería de datos. Si el dinero no fuera un problema, podría tirar tantos fondos como sea necesario para obtener las respuestas requeridas. Sin embargo, el compromiso costo-beneficio siempre es instrumental para determinar los objetivos y el alcance del ejercicio de minería de datos. El nivel de precisión esperado de los resultados también influye en los costos. Los altos niveles de precisión de la minería de datos costarían más y viceversa. Además, más allá de cierto nivel de precisión, no gana mucho con el ejercicio, dados los rendimientos decrecientes. Por lo tanto, las compensaciones de costo beneficio para el nivel deseado de precisión son consideraciones importantes para los objetivos de minería de datos. Seleccionar Datos El resultado de un ejercicio de minería de datos depende en gran medida de la calidad de los datos que se utilizan. A veces, los datos están disponibles para su posterior procesamiento. Por ejemplo, los minoristas a menudo poseen grandes bases de datos de compras de clientes y datos demográficos. Por otro lado, los
  • 6. datos pueden no estar fácilmente disponibles para la minería de datos. En tales casos, debe identificar otras fuentes de datos o incluso planificar nuevas iniciativas de recopilación de datos, incluidas encuestas. El tipo de datos, su tamaño y frecuencia de recopilación tienen una relación directa con el costo del ejercicio de minería de datos. Por lo tanto, identificar el tipo correcto de datos necesarios para la minería de datos que podría responder las preguntas a costos razonables es fundamental. Preprocesamiento De Datos El procesamiento previo de datos es un paso importante en la minería de datos. A menudo, los datos sin procesar son confusos y contienen datos erróneos o irrelevantes. Además, incluso con datos relevantes, a veces falta información. En la etapa de preprocesamiento, identifica los atributos irrelevantes de los datos y elimina dichos atributos de mayor consideración. Al mismo tiempo, es necesario identificar los aspectos erróneos del conjunto de datos y marcarlos como tales. Por ejemplo, un error humano puede provocar una fusión involuntaria o un análisis incorrecto de la información entre columnas. Los datos deben estar sujetos a controles para garantizar la integridad. Por último, debe desarrollar un método formal para tratar los datos faltantes y determinar si los datos faltan de forma aleatoria o sistemática. Si los datos faltaran al azar, bastaría un conjunto simple de soluciones. Sin embargo, cuando faltan datos de manera sistemática, debe determinar el impacto de los datos faltantes en los resultados. Por ejemplo, un subconjunto particular de individuos en un gran conjunto de datos puede haberse negado a revelar sus ingresos. Los hallazgos que dependen de los ingresos de un individuo como entrada excluirían detalles de aquellos individuos cuyos ingresos no se informaron. Esto conduciría a sesgos sistemáticos en el análisis. Por lo tanto, debe considerar de antemano si las observaciones o variables que contienen datos faltantes se excluirán de todo el análisis o partes de él. Transformando Datos Una vez que se han retenido los atributos relevantes de los datos, el siguiente paso es determinar el formato apropiado en el que se deben almacenar los datos. Una consideración importante en la minería de datos es reducir la cantidad de atributos necesarios para explicar los fenómenos. Esto puede requerir la transformación de datos. Los algoritmos de reducción de datos, como el Análisis de componentes principales (demostrado y explicado más adelante en el capítulo), pueden reducir el número de atributos sin una pérdida significativa de información. Además, las
  • 7. variables pueden necesitar ser transformadas para ayudar a explicar el fenómeno que se está estudiando. Por ejemplo, el ingreso de un individuo puede registrarse en el conjunto de datos como ingreso salarial; ingresos de otras fuentes, como propiedades de alquiler; pagos de apoyo del gobierno, y similares. Agregar ingresos de todas las fuentes desarrollará un indicador representativo del ingreso individual. A menudo necesita transformar variables de un tipo a otro. Puede ser prudente transformar la variable continua de ingresos en una variable categórica donde cada registro en la base de datos se identifica como individuo de ingresos bajos, medios y altos. Esto podría ayudar a capturar las no linealidades en los comportamientos subyacentes. Almacenamiento de Datos Los datos transformados deben almacenarse en un formato que los haga propicios para la minería de datos. Los datos deben almacenarse en un formato que otorgue privilegios de lectura/escritura sin restricciones e inmediatos al científico de datos. Durante la minería de datos, se crean nuevas variables, que se vuelven a escribir en la base de datos original, por lo que el esquema de almacenamiento de datos debería facilitar la lectura y escritura eficiente en la base de datos. También es importante almacenar datos en servidores o medios de almacenamiento que mantengan los datos seguros y también eviten que el algoritmo de minería de datos busque innecesariamente datos dispersos en diferentes servidores o medios de almacenamiento. La seguridad y la privacidad de los datos deben ser una preocupación principal para almacenar datos. Datos de Minería Una vez que los datos se procesan, transforman y almacenan adecuadamente, quedan sujetos a la extracción de datos. Este paso cubre los métodos de análisis de datos, incluidos los métodos paramétricos y no paramétricos, y los algoritmos de aprendizaje automático. Un buen punto de partida para la minería de datos es la visualización de datos. Las vistas multidimensionales de los datos que utilizan las capacidades gráficas avanzadas del software de minería de datos son muy útiles para desarrollar una comprensión preliminar de las tendencias ocultas en el conjunto de datos. Las secciones posteriores de este capítulo detallan los algoritmos y métodos de minería de datos. Evaluación de Resultados de Minería Una vez que se han extraído los resultados de la minería de datos, realiza una evaluación formal de los resultados. La evaluación formal podría incluir probar las capacidades predictivas de los modelos en los datos observados para ver cuán
  • 8. efectivos y eficientes han sido los algoritmos en la reproducción de datos. Esto se conoce como un pronóstico. Además, los resultados se comparten con las partes interesadas clave para recibir comentarios, que luego se incorporan en las iteraciones posteriores de la minería de datos para mejorar el proceso. La minería de datos y la evaluación de los resultados se convierten en un proceso iterativo de tal manera que los analistas usan algoritmos mejores y mejorados para mejorar la calidad de los resultados generados a la luz de los comentarios recibidos de los principales interesados. En este módulo, ha aprendido Cómo se define Big Data por las V: Velocidad, Volumen, Variedad, Veracidad y Valor. Cómo se utilizan Hadoop y otras herramientas, combinadas con potencia informática distribuida, para manejar las demandas de Big Data. Qué habilidades se requieren para analizar Big Data y ha finalizado con revisando el proceso de minería de datos y cómo produce resultados.