A3 phyton

¿Qué es Hadoop?
La mayoría de los componentes de la ciencia de datos han existido durante
muchas, muchas, muchas décadas. Pero todos se están juntando ahora con
algunas nuevas intenciones. En la parte inferior de la ciencia de datos, se ve la
probabilidad y las estadísticas. Ve álgebra, álgebra lineal, ve programación y ve
bases de datos.
Todos han estado aquí. Pero lo que sucedió ahora es que ahora tenemos las
capacidades computacionales para aplicar algunas técnicas nuevas - el
aprendizaje automático.
Donde ahora podemos tomar conjuntos de datos realmente grandes y, en lugar de
tomar una muestra e intentar probar algunas hipótesis, podemos tomar conjuntos
de datos realmente grandes y buscar patrones.
Y así, retroceda un nivel desde la prueba de hipótesis hasta encontrar patrones que
tal vez generarán hipótesis.
Ahora, esto puede molestar a algunos estadísticos muy tradicionales, a veces les
molesta que sepa, que se supone que tiene una hipótesis que no es independiente
de los datos y luego la prueba. Entonces, una vez que comenzaron algunas de
estas técnicas de aprendizaje automático, fueron realmente la única forma de
analizar algunos de estos conjuntos de datos de redes sociales realmente grandes.
Lo que hemos visto es que la combinación de áreas tradicionales de probabilidad
de informática, estadística, matemática se unen en lo que llamamos Ciencias de
la Decisión.
El departamento donde trabajo, estamos muy bien ubicados entre las escuelas de
negocios porque somos una de las pocas escuelas de negocios que tiene un
departamento de estadísticas real con estadísticos de doctorado reales. Tenemos
un departamento de gestión de operaciones y un departamento de sistemas de
información.
Por lo tanto, tenemos una amplia gama de informáticos, estadísticos e
investigadores de operaciones.
Y entonces estábamos perfectamente posicionados ya que un par de otras
escuelas de negocios debían subirse a este carro y decir: bueno, esto es Ciencias
de la Decisión.

Y Foster Provost, que está en mi departamento, fue el primer director del Centro de
Ciencia de Datos de la NYU.
Hace cuatro años, tal vez hace cinco años.
Quiero decir, creo que este es uno de esos casos en los que puede simplemente
Googlear y buscar ciencia de datos y ver con qué frecuencia ocurrió y no verá casi
nada y luego solo un poco.
Lo mismo que vería con Big Data hace unos siete u ocho años.
Entonces, la ciencia de datos es un término del que no he oído hablar,
probablemente, hace cinco años.
La primera pregunta es: ¿Qué es?
Y creo que la facultad y todos todavía están tratando de entender exactamente
qué es el análisis empresarial y qué es la ciencia de datos.
Ciertamente sabemos los componentes de esta.
Pero se está transformando, cambiando y creciendo.
Quiero decir que los últimos tres años de aprendizaje profundo se han agregado a
la mezcla.
Las redes neuronales han existido durante 20 o 30 años. Hace 20 años, enseñaría
redes neuronales en una clase y realmente no se podría hacer mucho con ellas.
Ahora algunos investigadores han creado redes neuronales de múltiples capas en
Toronto, en particular la Universidad de Toronto, esa tecnología ahora se está
expandiendo rápidamente, está siendo utilizada por Google, por Facebook, por
muchas compañías.
3.1 Habilidades de la ciencia de datos y Big Data
Temática basada en un testimonio de un científico de datos
Soy Norman White, soy miembro de la Facultad Clínica en el Departamento de
Ciencias de la Información, Operaciones y Gestión del Departamento de IOMS aquí
en Stern. He estado aquí por mucho tiempo, desde que salí de la universidad, más
o menos. Soy una especie de persona techy y geek (fascinado y obsesivo por la
tecnología). Realmente me gusta jugar con la tecnología en mi tiempo libre.

Actualmente soy Director de Facultad del Centro Stern para Investigación en
Computación, en el que tenemos una nube privada que ejecuta muchos tipos
diferentes de sistemas.
Muchos de nuestros profesores o estudiantes de doctorado que necesitan
hardware y software especializado vendrán a nosotros, activaremos una máquina
para ellos, la configuraremos, los ayudaré y les asesoraré. Muchos de los científicos
de datos, o prácticamente todos los científicos de datos en Stern, usan nuestras
instalaciones. Sus estudiantes de doctorado los usan mucho.
Tengo una licenciatura en Física Aplicada y mientras estaba en la universidad tomé
varios cursos de economía, así que terminé decidiendo ir a la escuela de negocios,
pero lo hice, esto fue en los primeros días de las computadoras y yo me había
interesado en las computadoras.
Llegué a Stern, que entonces era el centro de negocios de la NYU Business School y
tenían un pequeño centro de computación, decidí que iba a aprender dos cosas
mientras estuviera allí. Uno, iba a aprender a programar. Había tomado un curso
de programación en la universidad. Yo iba a aprender a tipear (escribir bien en el
teclado). Nunca aprendí. O tal vez lo hice, pero lo he olvidado ahora y cuando
tipeaba con dos dedos. Pero me convertí en un programador autodidacta, y luego
tomé varios cursos en IBM porque eventualmente fui el director del centro de
computación mientras obtenía mi doctorado en Economía y Estadística en Stern.
En 1973, la escuela formó un departamento llamado Aplicaciones de
Computadora y Sistemas de Información y yo fui uno de los primeros miembros de
la facultad en el departamento, he estado aquí desde entonces.
Mi lunes típico es, generalmente, llegar alrededor de las 11 en punto y reviso mi
correo electrónico en casa primero, pero entro y tengo dos clases el lunes. Tengo
una clase sobre diseño y desarrollo de sistemas basados en web a las seis en punto.
A las dos, tengo un trato con la clase de datos. La clase se basa en los Python
notebooks, por lo que comenzamos con los conceptos básicos de Unix y Linux, solo
para que los estudiantes se acostumbren a eso.
Pasamos a Python, algunas expresiones regulares, muchas bases de datos
relacionales, algunos Python Pandas, que es algo así como R para Python, le
permite hacer cálculos matemáticos y estadísticos en Python.
Luego termino con grandes datos (proyectos big data), para lo cual, como
probablemente saben, soy un evangelista.

Los estudiantes que tengo los puse en equipos y tienen que hacer un gran proyecto
al final del período y hacen algunas cosas realmente geniales.
Sí, de hecho, todo el curso se enseña con los Jupyter notebooks.
Cada estudiante tiene su propia máquina virtual en Amazon Web Services, por lo
que configuramos previamente todas las máquinas y obtienen una imagen
estándar que tiene todos los materiales para el curso cargados en ella o en un
Jupyter notebooks, hay comandos para descargar o actualizar el servidor con el
software adecuado.
Por lo tanto, todos están en el mismo entorno, no importa qué tipo de equipo tenga,
ya sea que tenga una máquina Mac o Windows o la antigüedad que tenga, todos
pueden hacer todo en la clase.
--- ARTICULO ---
Establecimiento de Objetivos de Minería de Datos
El primer paso en la minería de datos requiere que establezca objetivos para el
ejercicio. Obviamente, debe identificar las preguntas clave que deben
responderse. Sin embargo, más allá de identificar las preguntas clave están las
preocupaciones sobre los costos y beneficios del ejercicio. Además, debe
determinar, de antemano, el nivel esperado de precisión y utilidad de los resultados
obtenidos de la minería de datos. Si el dinero no fuera un problema, podría tirar
tantos fondos como sea necesario para obtener las respuestas requeridas. Sin
embargo, el compromiso costo-beneficio siempre es instrumental para determinar
los objetivos y el alcance del ejercicio de minería de datos. El nivel de precisión
esperado de los resultados también influye en los costos. Los altos niveles de
precisión de la minería de datos costarían más y viceversa. Además, más allá de
cierto nivel de precisión, no gana mucho con el ejercicio, dados los rendimientos
decrecientes. Por lo tanto, las compensaciones de costo beneficio para el nivel
deseado de precisión son consideraciones importantes para los objetivos de
minería de datos.
Seleccionar Datos
El resultado de un ejercicio de minería de datos depende en gran medida de la
calidad de los datos que se utilizan. A veces, los datos están disponibles para su
posterior procesamiento. Por ejemplo, los minoristas a menudo poseen grandes
bases de datos de compras de clientes y datos demográficos. Por otro lado, los

datos pueden no estar fácilmente disponibles para la minería de datos. En tales
casos, debe identificar otras fuentes de datos o incluso planificar nuevas iniciativas
de recopilación de datos, incluidas encuestas. El tipo de datos, su tamaño y
frecuencia de recopilación tienen una relación directa con el costo del ejercicio
de minería de datos. Por lo tanto, identificar el tipo correcto de datos necesarios
para la minería de datos que podría responder las preguntas a costos razonables
es fundamental.
Preprocesamiento De Datos
El procesamiento previo de datos es un paso importante en la minería de datos. A
menudo, los datos sin procesar son confusos y contienen datos erróneos o
irrelevantes. Además, incluso con datos relevantes, a veces falta información. En la
etapa de preprocesamiento, identifica los atributos irrelevantes de los datos y
elimina dichos atributos de mayor consideración. Al mismo tiempo, es necesario
identificar los aspectos erróneos del conjunto de datos y marcarlos como tales. Por
ejemplo, un error humano puede provocar una fusión involuntaria o un análisis
incorrecto de la información entre columnas. Los datos deben estar sujetos a
controles para garantizar la integridad. Por último, debe desarrollar un método
formal para tratar los datos faltantes y determinar si los datos faltan de forma
aleatoria o sistemática.
Si los datos faltaran al azar, bastaría un conjunto simple de soluciones. Sin embargo,
cuando faltan datos de manera sistemática, debe determinar el impacto de los
datos faltantes en los resultados. Por ejemplo, un subconjunto particular de
individuos en un gran conjunto de datos puede haberse negado a revelar sus
ingresos. Los hallazgos que dependen de los ingresos de un individuo como entrada
excluirían detalles de aquellos individuos cuyos ingresos no se informaron. Esto
conduciría a sesgos sistemáticos en el análisis. Por lo tanto, debe considerar de
antemano si las observaciones o variables que contienen datos faltantes se
excluirán de todo el análisis o partes de él.
Transformando Datos
Una vez que se han retenido los atributos relevantes de los datos, el siguiente paso
es determinar el formato apropiado en el que se deben almacenar los datos. Una
consideración importante en la minería de datos es reducir la cantidad de atributos
necesarios para explicar los fenómenos. Esto puede requerir la transformación de
datos. Los algoritmos de reducción de datos, como el Análisis de componentes
principales (demostrado y explicado más adelante en el capítulo), pueden reducir
el número de atributos sin una pérdida significativa de información. Además, las

variables pueden necesitar ser transformadas para ayudar a explicar el fenómeno
que se está estudiando. Por ejemplo, el ingreso de un individuo puede registrarse
en el conjunto de datos como ingreso salarial; ingresos de otras fuentes, como
propiedades de alquiler; pagos de apoyo del gobierno, y similares. Agregar ingresos
de todas las fuentes desarrollará un indicador representativo del ingreso individual.
A menudo necesita transformar variables de un tipo a otro. Puede ser prudente
transformar la variable continua de ingresos en una variable categórica donde
cada registro en la base de datos se identifica como individuo de ingresos bajos,
medios y altos. Esto podría ayudar a capturar las no linealidades en los
comportamientos subyacentes. Almacenamiento de Datos
Los datos transformados deben almacenarse en un formato que los haga propicios
para la minería de datos. Los datos deben almacenarse en un formato que otorgue
privilegios de lectura/escritura sin restricciones e inmediatos al científico de datos.
Durante la minería de datos, se crean nuevas variables, que se vuelven a escribir
en la base de datos original, por lo que el esquema de almacenamiento de datos
debería facilitar la lectura y escritura eficiente en la base de datos. También es
importante almacenar datos en servidores o medios de almacenamiento que
mantengan los datos seguros y también eviten que el algoritmo de minería de datos
busque innecesariamente datos dispersos en diferentes servidores o medios de
almacenamiento. La seguridad y la privacidad de los datos deben ser una
preocupación principal para almacenar datos.
Datos de Minería
Una vez que los datos se procesan, transforman y almacenan adecuadamente,
quedan sujetos a la extracción de datos. Este paso cubre los métodos de análisis
de datos, incluidos los métodos paramétricos y no paramétricos, y los algoritmos de
aprendizaje automático. Un buen punto de partida para la minería de datos es la
visualización de datos. Las vistas multidimensionales de los datos que utilizan las
capacidades gráficas avanzadas del software de minería de datos son muy útiles
para desarrollar una comprensión preliminar de las tendencias ocultas en el
conjunto de datos.
Las secciones posteriores de este capítulo detallan los algoritmos y métodos de
minería de datos.
Evaluación de Resultados de Minería
Una vez que se han extraído los resultados de la minería de datos, realiza una
evaluación formal de los resultados. La evaluación formal podría incluir probar las
capacidades predictivas de los modelos en los datos observados para ver cuán

efectivos y eficientes han sido los algoritmos en la reproducción de datos. Esto se
conoce como un pronóstico. Además, los resultados se comparten con las partes
interesadas clave para recibir comentarios, que luego se incorporan en las
iteraciones posteriores de la minería de datos para mejorar el proceso.
La minería de datos y la evaluación de los resultados se convierten en un proceso
iterativo de tal manera que los analistas usan algoritmos mejores y mejorados para
mejorar la calidad de los resultados generados a la luz de los comentarios recibidos
de los principales interesados.
En este módulo, ha aprendido Cómo se define Big Data por las V: Velocidad,
Volumen, Variedad, Veracidad y Valor. Cómo se utilizan Hadoop y otras
herramientas, combinadas con potencia informática distribuida, para manejar las
demandas de Big Data. Qué habilidades se requieren para analizar Big Data y ha
finalizado con revisando el proceso de minería de datos y cómo produce
resultados.

A3 phyton

Recomendados

Recomendados

Más contenido relacionado

Similar a A3 phyton

Similar a A3 phyton (20)

Más de ElielMauricioEscobar

Más de ElielMauricioEscobar (7)

Último

Último (20)

A3 phyton