SlideShare una empresa de Scribd logo
La ciencia de datos combina múltiples campos que incluyen estadísticas, métodos
científicos y análisis de datos para extraer el valor de los datos.
Los practicantes de la ciencia de datos se llaman científicos de datos y combinan una
variedad de conocimientos para analizar los datos recopilados de la web, de teléfonos
inteligentes, de clientes, sensores y otras fuentes.
Lea el libro electrónico sobre la nube de aprendizaje automático(PDF)
Ciencia de datos: Un recurso inexplotado para el
aprendizaje automático
La ciencia de datos es uno de los campos más emocionantes que existen en la actualidad.
Pero, ¿por qué es tan importante?
Porque las empresas disponen un tesoro de datos sin aprovechar. Ahora que la tecnología
moderna ha permitido la creación y el almacenamiento de cantidades cada vez mayores de
información, el volumen de datos explotó. Se estima que el 90% de los datos en el mundo
se crearon en los últimos dos años. Por ejemplo, los usuarios de Facebook suben 10
millones de fotos por hora.
Pero estos datos frecuentemente solo permanecen almacenados en bases de datos y lagos de
datos, básicamente sin tocar.
La gran cantidad de datos recopilados y almacenados por estas tecnologías puede generar
beneficios transformadores para las organizaciones y sociedades de todo el mundo, pero
solo si sabemos interpretarlos. Ahí es donde entra en acción la ciencia de datos.
La ciencia de datos revela tendencias y genera información que las empresas pueden
utilizar para tomar mejores decisiones y crear productos y servicios más innovadores.
Quizás lo más importante es que permite que los modelos de aprendizaje automático (ML)
aprendan de las grandes cantidades de datos que se les suministran en vez de depender
principalmente de los analistas de negocios para ver qué pueden descubrir a partir de los
datos.
Los datos son la base de la innovación, pero su valor proviene de la información que los
científicos pueden extraer y luego utilizar a partir de estos.
¿Cuál es la diferencia entre la ciencia de datos, la
inteligencia artificial y el aprendizaje automático?
Para comprender mejor la ciencia de datos (y cómo puede aprovecharla) es igual de
importante conocer otros términos relacionados con el campo, como inteligencia artificial
(IA) y aprendizaje automático. Frecuentemente, encontrará que estos términos se usan
indistintamente, pero hay matices.
Este es un breve resumen:
 IA significa hacer que una computadora imite de alguna manera el
comportamiento humano.
 La ciencia de los datos es un subconjunto de la IA que se refiere más a las áreas
superpuestas de las estadísticas, los métodos científicos y el análisis de datos, que
se utilizan todas para extraer significado y conocimientos de los datos.
 El Aprendizaje automático es otro subconjunto de la IA y consiste en las
técnicas que permiten que las computadoras descubran cosas a partir de los datos
y realicen aplicaciones de IA.
Y, por si acaso, incluimos otra definición:
 Aprendizaje profundo, que es un subconjunto del aprendizaje automático que
permite que las computadoras resuelvan problemas más complejos.
Cómo la ciencia de datos está transformando los negocios
Las organizaciones están utilizando la ciencia de datos para convertir los datos en una
ventaja competitiva al perfeccionar los productos y servicios. Algunos casos de uso de la
ciencia de datos y el aprendizaje automático incluyen:
 Determinar la fuga de clientes analizando los datos que se recopilan de los
centros de llamadas, para que el departamento de Marketing pueda tomar
medidas a fin de retenerlos.
 Mejorar la eficiencia al analizar los patrones de tráfico, las condiciones climáticas
y otros factores para que las empresas de logística puedan mejorar los tiempos de
entrega y reducir los costos.
 Mejorar los diagnósticos de los pacientes mediante el análisis de los exámenes
médicos y los síntomas informados para que los médicos puedan diagnosticar
antes las enfermedades y tratarlas de manera más eficaz.
 Optimizar la cadena de suministro al predecir cuándo se producirán fallos en los
equipos.
 Detectar los fraudes en los servicios financieros mediante el reconocimiento de
los comportamientos sospechosos y las acciones anómalas.
 Mejorar las ventas al crear recomendaciones para los clientes basadas en las
compras anteriores.
Muchas empresas han hecho de la ciencia de datos una prioridad y están realizando grandes
inversiones en ella. En la última encuesta de Gartner a más de 3.000 CIO, los encuestados
clasificaron la analítica y la inteligencia empresarial como las tecnologías de diferenciación
más importantes para sus organizaciones. Los directores de informática encuestados ven
estas tecnologías como las más estratégicas para sus empresas y están realizando las
inversiones correspondientes.
Cómo se lleva a cabo la ciencia de datos
El proceso de analizar y utilizar los datos es iterativo más que lineal, pero este es el flujo
normal del ciclo de vida de la ciencia de datos para un proyecto de modelado de datos:
Planificación: Definir un proyecto y sus posibles resultados.
Construir un modelo de datos: Los científicos de datos frecuentemente usan una variedad
de bibliotecas de código abierto o herramientas en la base de datos para construir modelos
de aprendizaje automático. A menudo, los usuarios necesitan API para que los ayuden con
la ingestión de datos, la visualización y creación de perfiles de datos o la ingeniería de
funciones. Necesitan las herramientas adecuadas, así como acceso a los datos correctos y
otros recursos como la capacidad de proceso.
Evaluar un modelo: Los científicos de datos deben lograr un alto porcentaje de exactitud
en sus modelos antes de poder implementarlos con confianza. La evaluación del modelo
habitualmente genera un conjunto completo de métricas de evaluación y visualizaciones
para medir el rendimiento del modelo frente a los datos nuevos y también para clasificarlos
a lo largo del tiempo a fin de permitir un comportamiento óptimo en la producción. La
evaluación del modelo va más allá del rendimiento en bruto para tener en cuenta el
comportamiento de referencia esperado.
Explicar los modelos: Poder explicar la mecánica interna de los resultados de los modelos
de aprendizaje automático en términos humanos no ha sido posible siempre, pero es cada
vez más importante. Los científicos de datos desean recibir explicaciones automatizadas de
la ponderación relativa y la importancia de los factores que intervienen en la generación de
una predicción, junto con detalles explicativos específicos del modelo sobre las
predicciones del modelo.
Implementar un modelo: Tomar un modelo de aprendizaje automático entrenado e
implementarlo en los sistemas correctos es frecuentemente un proceso difícil y laborioso.
Esto se puede simplificar operacionalizando los modelos como API escalables y seguras, o
usando modelos de aprendizaje automático dentro de la base de datos.
Monitorear los modelos: Desafortunadamente, la implementación del modelo no es el
paso final. Los modelos siempre deben monitorearse después de la implementación para
garantizar que funcionen correctamente. Con el paso del tiempo, los datos con los que se
entrenó el modelo pueden quedar obsoletos para las predicciones futuras. En la detección
de fraudes, por ejemplo, los delincuentes siempre encuentran nuevas formas de piratear las
cuentas.
Herramientas para la ciencia de datos
Crear, evaluar, implementar y monitorear modelos de aprendizaje automático puede ser un
proceso complejo. Es por eso que la cantidad de herramientas de ciencia de datos ha
aumentado. Los científicos de datos utilizan muchos tipos de herramientas, pero una de las
más comunes son los cuadernos de código abierto, que son aplicaciones web para escribir y
ejecutar código, visualizar datos y ver resultados, todo dentro de un mismo entorno.
Algunos de los cuadernos más populares son Jupyter, RStudio y Zepplin. Los cuadernos
son muy útiles para realizar análisis, pero presentan ciertas limitaciones cuando los
científicos de datos tienen que trabajar en equipo. Para resolver este problema, se crearon
las plataformas de ciencia de datos.
Para determinar qué herramienta de ciencia de datos es adecuada para usted, es importante
formular las siguientes preguntas: ¿Qué tipo de lenguajes utilizan sus científicos de datos?
¿Qué tipo de métodos de trabajo prefieren? ¿Qué tipo de fuentes de datos usan?
Por ejemplo, algunos usuarios prefieren tener un servicio independiente de la fuente de
datos que utilice bibliotecas de código abierto. Otros prefieren la velocidad de los
algoritmos de aprendizaje automático en la base de datos.
¿Quién supervisa el proceso de ciencia de datos?
En la mayoría de las organizaciones, los proyectos de ciencia de datos suelen estar
supervisados por tres tipos de administradores:
Directores comerciales: Estos directores trabajan con el equipo de ciencia de datos para
definir el problema y desarrollar una estrategia para el análisis. Pueden ser los jefes de una
línea de negocios como Marketing, Finanzas o Ventas y contar con un equipo de ciencia de
datos directamente subordinado. Trabajan codo a codo con los directores de Ciencia de
Datos y Tecnología Informática para garantizar que se concreten los proyectos.
Directores de Tecnología Informática: Los directores sénior de Tecnología Informática
son responsables de la infraestructura y de la arquitectura que asistirá las operaciones de
ciencia de datos. Supervisan continuamente las operaciones y el uso de los recursos para
garantizar que los equipos de ciencia de datos operen en forma eficiente y segura. También
pueden ser responsables de la creación y actualización de los entornos de TI para los
equipos de ciencia de datos.
Directores de ciencia de datos: Estos gerentes supervisan el equipo de ciencia de datos y
su trabajo diario. Son creadores de equipos que pueden equilibrar el desarrollo del equipo
con la planificación y el monitoreo del proyecto.
Pero el participante más importante en este proceso es el científico de datos.
¿Qué es un científico de datos?
Como especialidad, la ciencia de datos aún es nueva. Surgió de los campos del análisis
estadístico y de la minería de datos. La revista Data Science Journal debutó en 2002,
publicada por Consejo Internacional para la Ciencia: Comité de Información para Ciencia y
Tecnología. En el año 2008, ya había surgido el título de científico de datos y el campo
despegó rápidamente. Desde entonces, ha habido una escasez de científicos de datos, a
pesar de que cada vez más escuelas y universidades han comenzado a ofrecer títulos en
ciencia de datos.
Las tareas de un científico de datos pueden incluir el desarrollo de estrategias para analizar
datos; la preparación de datos para su análisis; explorar, analizar y visualizar datos;
construir modelos con datos mediante lenguajes de programación como Python y R; e
implementar modelos en aplicaciones.
El científico de datos no trabaja solo. De hecho, la ciencia de datos más efectiva se ejecuta
en equipos. Además de un científico de datos, este equipo puede incluir un analista
empresarial que define el problema, un ingeniero de datos que prepara los datos y su
método de acceso, un arquitecto de tecnología informática que supervisa los procesos
subyacentes y la infraestructura, y un desarrollador de aplicaciones que implementa los
modelos o las salidas del análisis en aplicaciones y productos.
Desafíos de la implementación de la ciencia de datos
A pesar de la promesa de la ciencia de datos y las grandes inversiones en equipos de ciencia
de datos, muchas empresas no materializan todo el valor de sus datos. En su carrera por
contratar talento y crear programas de ciencia de datos, algunas empresas han
experimentado flujos de trabajo ineficientes para los equipos, donde diferentes personas
utilizan diferentes herramientas y procesos que no funcionan bien en conjunto. Sin una
administración centralizada más disciplinada, es probable que los ejecutivos no obtengan
un retorno completo de sus inversiones.
Este ambiente caótico presenta muchos desafíos.
Los científicos de datos no pueden trabajar de forma eficiente. Debido a que el acceso a
los datos lo debe otorgar un administrador de Tecnología Informática, los científicos de
datos a menudo tienen una larga espera por los datos y los recursos que necesitan para
analizarlos. Una vez que tengan acceso, el equipo de ciencia de datos podría analizar los
datos a través de diferentes herramientas posiblemente incompatibles. Por ejemplo, un
científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación en la
que se usará está escrita en un lenguaje distinto. Es por eso que la implementación de los
modelos en las aplicaciones útiles puede demorar semanas o incluso meses.
Los desarrolladores de aplicaciones no pueden acceder a un aprendizaje automático
utilizable. A veces, los modelos de aprendizaje automático que reciben los desarrolladores
no están listos para implementarse en las aplicaciones. Además, como los puntos de acceso
pueden ser inflexibles, los modelos no se pueden implementar en todos los casos y la
responsabilidad de la escalabilidad queda en manos del desarrollador de la aplicación.
Los administradores de Tecnología Informática dedican demasiado tiempo al
soporte. Debido a la proliferación de herramientas de código abierto, el departamento de
Tecnología Informática frecuentemente tiene que mantener una lista cada vez mayor de
herramientas. Un científico de datos en marketing, por ejemplo, podría usar herramientas
distintas a las que usa un científico de datos en finanzas. Los equipos también pueden tener
distintos flujos de trabajo, lo que significa que el personal de Tecnología Informática debe
reconstruir y actualizar los entornos continuamente.
Los directores empresariales se encuentran muy alejados de la ciencia de datos. Los
flujos de trabajo de la ciencia de datos no siempre están integrados en los procesos y en los
sistemas de toma de decisiones empresariales, lo que dificulta que los gerentes comerciales
colaboren de manera inteligente con los científicos de datos. Si no cuentan con una
integración mejor, a los directores empresariales les resulta muy difícil comprender por qué
toma tanto tiempo pasar del prototipo a la producción, y es menos probable que apoyen la
inversión en proyectos que perciben como demasiado lentos.
La plataforma de ciencia de datos ofrece nuevas
capacidades
Muchas compañías se percataron de que si no cuentan con una plataforma integrada, el
trabajo de la ciencia de datos es ineficiente, inseguro y difícil de escalar. Esto condujo al
desarrollo de plataformas de ciencia de datos. Estas plataformas son centros de software,
alrededor de los cuales se lleva a cabo todo el trabajo de ciencia de datos. Una buena
plataforma alivia muchos de los desafíos de la implementación de la ciencia de datos y
ayuda a las empresas a convertir sus datos en información de forma más rápida y eficiente.
Con una plataforma centralizada de aprendizaje automático, los científicos de datos pueden
trabajar en un entorno de colaboración con sus herramientas de código abierto favoritas, y
donde todo su trabajo es sincronizado mediante un sistema de control de versiones.
Los beneficios de una plataforma de ciencia de datos
Una plataforma de ciencia de datos disminuye las redundancias y fomenta la innovación al
permitir que los equipos compartan código, resultados e informes. Elimina los cuellos de
botella en el flujo de trabajo al simplificar la administración e incorporar prácticas
recomendadas.
En general, las mejores plataformas de ciencia de datos tienen como objetivo:
 Permitir que los científicos de datos sean más productivos al ayudarlos a acelerar
y entregar los modelos en forma más rápida y con menos errores.
 Facilitar que los científicos de datos trabajen con grandes volúmenes y variedades
de datos.
 Brindar una inteligencia artificial confiable, de categoría empresarial, que esté
libre de sesgos, sea auditable y reproducible.
Las plataformas de ciencia de datos están diseñadas para que colaboren diversos usuarios,
como científicos de datos expertos, ciudadanos científicos de datos, ingenieros de datos e
ingenieros o especialistas en aprendizaje automático. Por ejemplo, una plataforma de
ciencia de datos podría permitir que los científicos de datos implementen los modelos en
forma de API, lo que facilita su integración en diferentes aplicaciones. Los científicos de
datos pueden acceder a herramientas, datos e infraestructura sin tener que esperar por la
Tecnología Informática.
La demanda de plataformas de ciencia de datos ha explotado en el mercado. De hecho, se
espera que el mercado de las plataformas crezca a una tasa anual compuesta de más
del 39% en los próximos años y se proyecta que alcance los $385.000 millones de dólares
para el 2025.
Lo que un científico de datos necesita en una plataforma
Si está listo para explorar las capacidades de las plataformas de ciencia de datos, debe tener
en cuenta ciertas capacidades clave:
Elija una interfaz de usuario basada en proyectos que fomente la colaboración. La
plataforma debe facultar a las personas para que trabajen en conjunto en un modelo, desde
la concepción hasta el desarrollo final. Debe otorgar a cada miembro del equipo acceso de
autoservicio a los datos y a los recursos.
Priorice la integración y la flexibilidad. Asegúrese de que la plataforma sea compatible
con las últimas herramientas de código abierto; proveedores comunes de control de
versiones como GitHub, GitLab y Bitbucket; y una estrecha integración con otros recursos.
Incluya funcionalidades de categoría empresarial. Asegúrese de que la plataforma pueda
escalar con su negocio a medida que crece su equipo. La plataforma debe contar con un alto
grado de disponibilidad, tener controles de acceso robustos y admitir una gran cantidad de
usuarios concurrentes.
Permita que la ciencia de datos se convierta en autoservicio. Busque una plataforma que
reduzca la carga del departamento de Tecnología Informática e Ingeniería y permita que los
científicos de datos creen de manera instantánea entornos, realicen un seguimiento de todo
su trabajo e implementen fácilmente modelos en la producción.
Garantice una implementación más sencilla de los modelos. La implementación y
puesta en funcionamiento del modelo es uno de los pasos más importantes del ciclo de vida
del aprendizaje automático, pero frecuentemente se ignora. Asegúrese de que el servicio
que elija facilite la puesta en marcha de los modelos, ya sea proporcionando API o
asegurando que los usuarios creen modelos de una manera que permita una integración
fácil.
Cuando una plataforma de ciencia de datos es el paso
correcto
Su organización podría estar lista para una plataforma de ciencia de datos, si ha notado que:
 La productividad y la colaboración muestran signos de tensión.
 Los modelos de aprendizaje automático no se pueden auditar ni reproducir.
 Los modelos nunca llegan a la producción.
Una plataforma de ciencia de datos puede ofrecer un valor real para su empresa. La
plataforma de ciencia de datos de Oracle incluye una amplia gama de servicios que brindan
una experiencia integral de extremo a extremo, diseñada para acelerar la implementación de
los modelos y mejorar los resultados de la ciencia de datos.

Más contenido relacionado

La actualidad más candente

Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
Ana Delgado
 
Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Minería datos con SQL Server 2012
Minería datos con SQL Server 2012
Eduardo Castro
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
Snoop Consulting
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresa
Nexolution
 

La actualidad más candente (19)

Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Minería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilizaciónMinería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilización
 
Minería de Datos
Minería de DatosMinería de Datos
Minería de Datos
 
Nociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de DatosNociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de Datos
 
Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Minería datos con SQL Server 2012
Minería datos con SQL Server 2012
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
El arte de la Ciencia de Datos
El arte de la Ciencia de DatosEl arte de la Ciencia de Datos
El arte de la Ciencia de Datos
 
Io t _analitica_maximizando_el_poder_de_sus_datos
Io t _analitica_maximizando_el_poder_de_sus_datosIo t _analitica_maximizando_el_poder_de_sus_datos
Io t _analitica_maximizando_el_poder_de_sus_datos
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid Miner
 
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
La Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica PredictivaLa Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica Predictiva
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresa
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 

Similar a Ciencia de datos

Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdfSesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Juan225106
 
C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia
C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo AyudantiaC:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia
C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia
anabarrospineda
 

Similar a Ciencia de datos (20)

B dtrab4
B dtrab4B dtrab4
B dtrab4
 
Introducción al Business Intelligence y al Big Data
Introducción al Business Intelligence y al Big DataIntroducción al Business Intelligence y al Big Data
Introducción al Business Intelligence y al Big Data
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdfSesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
 
introduccion aministracion industrial con inteligencia de negocios
introduccion aministracion industrial con inteligencia de negociosintroduccion aministracion industrial con inteligencia de negocios
introduccion aministracion industrial con inteligencia de negocios
 
PRESENTACIÓN FINAL.pptx
PRESENTACIÓN FINAL.pptxPRESENTACIÓN FINAL.pptx
PRESENTACIÓN FINAL.pptx
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
 
C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia
C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo AyudantiaC:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia
C:\Documents And Settings\Administrador\Escritorio\Sistemas\Trabajo Ayudantia
 
Inteligencia de negocios.
Inteligencia de negocios.Inteligencia de negocios.
Inteligencia de negocios.
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera
 
“Definición y Análisis de requerimientos de información”
“Definición y Análisis de requerimientos de información”“Definición y Análisis de requerimientos de información”
“Definición y Análisis de requerimientos de información”
 
Power-BI-básico.pdf
Power-BI-básico.pdfPower-BI-básico.pdf
Power-BI-básico.pdf
 
Desayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & AnalyticsDesayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & Analytics
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Nancy Adilene Gonzalez Sifuentes
Nancy Adilene Gonzalez Sifuentes Nancy Adilene Gonzalez Sifuentes
Nancy Adilene Gonzalez Sifuentes
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 

Último

fase 4-Estudio de la geometria analitica[1].pptx
fase 4-Estudio de la geometria analitica[1].pptxfase 4-Estudio de la geometria analitica[1].pptx
fase 4-Estudio de la geometria analitica[1].pptx
QuerubinOlayamedina
 
La ética digital, de que trata, algunas características y como lo podemos uti...
La ética digital, de que trata, algunas características y como lo podemos uti...La ética digital, de que trata, algunas características y como lo podemos uti...
La ética digital, de que trata, algunas características y como lo podemos uti...
yeisonmoreno02
 

Último (9)

EduLearnIAappde IAparatodosdisponible.pptx
EduLearnIAappde IAparatodosdisponible.pptxEduLearnIAappde IAparatodosdisponible.pptx
EduLearnIAappde IAparatodosdisponible.pptx
 
Enfermedades Crónicas No Transmisibles e
Enfermedades Crónicas No Transmisibles eEnfermedades Crónicas No Transmisibles e
Enfermedades Crónicas No Transmisibles e
 
fase 4-Estudio de la geometria analitica[1].pptx
fase 4-Estudio de la geometria analitica[1].pptxfase 4-Estudio de la geometria analitica[1].pptx
fase 4-Estudio de la geometria analitica[1].pptx
 
Metodología Investigación Cientifica 6ta ed.pdf
Metodología Investigación Cientifica 6ta ed.pdfMetodología Investigación Cientifica 6ta ed.pdf
Metodología Investigación Cientifica 6ta ed.pdf
 
La ética digital, de que trata, algunas características y como lo podemos uti...
La ética digital, de que trata, algunas características y como lo podemos uti...La ética digital, de que trata, algunas características y como lo podemos uti...
La ética digital, de que trata, algunas características y como lo podemos uti...
 
PANCREATITIS aguda explicacion anatomia todo
PANCREATITIS aguda explicacion anatomia todoPANCREATITIS aguda explicacion anatomia todo
PANCREATITIS aguda explicacion anatomia todo
 
SliderSHARE ¿que es? y ¿c0mo funciona ?.
SliderSHARE ¿que es? y ¿c0mo funciona ?.SliderSHARE ¿que es? y ¿c0mo funciona ?.
SliderSHARE ¿que es? y ¿c0mo funciona ?.
 
PLAN LOS ANIMALES MARINOS.pdf con las actividades a realizar día a días, tota...
PLAN LOS ANIMALES MARINOS.pdf con las actividades a realizar día a días, tota...PLAN LOS ANIMALES MARINOS.pdf con las actividades a realizar día a días, tota...
PLAN LOS ANIMALES MARINOS.pdf con las actividades a realizar día a días, tota...
 
INSTITUTO AUCARA SEMANA NUMERO 7 AGROPECUARIA I
INSTITUTO AUCARA SEMANA NUMERO 7 AGROPECUARIA IINSTITUTO AUCARA SEMANA NUMERO 7 AGROPECUARIA I
INSTITUTO AUCARA SEMANA NUMERO 7 AGROPECUARIA I
 

Ciencia de datos

  • 1. La ciencia de datos combina múltiples campos que incluyen estadísticas, métodos científicos y análisis de datos para extraer el valor de los datos. Los practicantes de la ciencia de datos se llaman científicos de datos y combinan una variedad de conocimientos para analizar los datos recopilados de la web, de teléfonos inteligentes, de clientes, sensores y otras fuentes. Lea el libro electrónico sobre la nube de aprendizaje automático(PDF) Ciencia de datos: Un recurso inexplotado para el aprendizaje automático La ciencia de datos es uno de los campos más emocionantes que existen en la actualidad. Pero, ¿por qué es tan importante? Porque las empresas disponen un tesoro de datos sin aprovechar. Ahora que la tecnología moderna ha permitido la creación y el almacenamiento de cantidades cada vez mayores de información, el volumen de datos explotó. Se estima que el 90% de los datos en el mundo se crearon en los últimos dos años. Por ejemplo, los usuarios de Facebook suben 10 millones de fotos por hora. Pero estos datos frecuentemente solo permanecen almacenados en bases de datos y lagos de datos, básicamente sin tocar. La gran cantidad de datos recopilados y almacenados por estas tecnologías puede generar beneficios transformadores para las organizaciones y sociedades de todo el mundo, pero solo si sabemos interpretarlos. Ahí es donde entra en acción la ciencia de datos. La ciencia de datos revela tendencias y genera información que las empresas pueden utilizar para tomar mejores decisiones y crear productos y servicios más innovadores. Quizás lo más importante es que permite que los modelos de aprendizaje automático (ML) aprendan de las grandes cantidades de datos que se les suministran en vez de depender principalmente de los analistas de negocios para ver qué pueden descubrir a partir de los datos. Los datos son la base de la innovación, pero su valor proviene de la información que los científicos pueden extraer y luego utilizar a partir de estos. ¿Cuál es la diferencia entre la ciencia de datos, la inteligencia artificial y el aprendizaje automático?
  • 2. Para comprender mejor la ciencia de datos (y cómo puede aprovecharla) es igual de importante conocer otros términos relacionados con el campo, como inteligencia artificial (IA) y aprendizaje automático. Frecuentemente, encontrará que estos términos se usan indistintamente, pero hay matices. Este es un breve resumen:  IA significa hacer que una computadora imite de alguna manera el comportamiento humano.  La ciencia de los datos es un subconjunto de la IA que se refiere más a las áreas superpuestas de las estadísticas, los métodos científicos y el análisis de datos, que se utilizan todas para extraer significado y conocimientos de los datos.  El Aprendizaje automático es otro subconjunto de la IA y consiste en las técnicas que permiten que las computadoras descubran cosas a partir de los datos y realicen aplicaciones de IA. Y, por si acaso, incluimos otra definición:  Aprendizaje profundo, que es un subconjunto del aprendizaje automático que permite que las computadoras resuelvan problemas más complejos. Cómo la ciencia de datos está transformando los negocios
  • 3. Las organizaciones están utilizando la ciencia de datos para convertir los datos en una ventaja competitiva al perfeccionar los productos y servicios. Algunos casos de uso de la ciencia de datos y el aprendizaje automático incluyen:  Determinar la fuga de clientes analizando los datos que se recopilan de los centros de llamadas, para que el departamento de Marketing pueda tomar medidas a fin de retenerlos.  Mejorar la eficiencia al analizar los patrones de tráfico, las condiciones climáticas y otros factores para que las empresas de logística puedan mejorar los tiempos de entrega y reducir los costos.  Mejorar los diagnósticos de los pacientes mediante el análisis de los exámenes médicos y los síntomas informados para que los médicos puedan diagnosticar antes las enfermedades y tratarlas de manera más eficaz.  Optimizar la cadena de suministro al predecir cuándo se producirán fallos en los equipos.  Detectar los fraudes en los servicios financieros mediante el reconocimiento de los comportamientos sospechosos y las acciones anómalas.  Mejorar las ventas al crear recomendaciones para los clientes basadas en las compras anteriores. Muchas empresas han hecho de la ciencia de datos una prioridad y están realizando grandes inversiones en ella. En la última encuesta de Gartner a más de 3.000 CIO, los encuestados clasificaron la analítica y la inteligencia empresarial como las tecnologías de diferenciación más importantes para sus organizaciones. Los directores de informática encuestados ven estas tecnologías como las más estratégicas para sus empresas y están realizando las inversiones correspondientes. Cómo se lleva a cabo la ciencia de datos
  • 4. El proceso de analizar y utilizar los datos es iterativo más que lineal, pero este es el flujo normal del ciclo de vida de la ciencia de datos para un proyecto de modelado de datos: Planificación: Definir un proyecto y sus posibles resultados. Construir un modelo de datos: Los científicos de datos frecuentemente usan una variedad de bibliotecas de código abierto o herramientas en la base de datos para construir modelos de aprendizaje automático. A menudo, los usuarios necesitan API para que los ayuden con la ingestión de datos, la visualización y creación de perfiles de datos o la ingeniería de funciones. Necesitan las herramientas adecuadas, así como acceso a los datos correctos y otros recursos como la capacidad de proceso. Evaluar un modelo: Los científicos de datos deben lograr un alto porcentaje de exactitud en sus modelos antes de poder implementarlos con confianza. La evaluación del modelo habitualmente genera un conjunto completo de métricas de evaluación y visualizaciones para medir el rendimiento del modelo frente a los datos nuevos y también para clasificarlos a lo largo del tiempo a fin de permitir un comportamiento óptimo en la producción. La evaluación del modelo va más allá del rendimiento en bruto para tener en cuenta el comportamiento de referencia esperado. Explicar los modelos: Poder explicar la mecánica interna de los resultados de los modelos de aprendizaje automático en términos humanos no ha sido posible siempre, pero es cada vez más importante. Los científicos de datos desean recibir explicaciones automatizadas de la ponderación relativa y la importancia de los factores que intervienen en la generación de una predicción, junto con detalles explicativos específicos del modelo sobre las predicciones del modelo. Implementar un modelo: Tomar un modelo de aprendizaje automático entrenado e implementarlo en los sistemas correctos es frecuentemente un proceso difícil y laborioso. Esto se puede simplificar operacionalizando los modelos como API escalables y seguras, o usando modelos de aprendizaje automático dentro de la base de datos. Monitorear los modelos: Desafortunadamente, la implementación del modelo no es el paso final. Los modelos siempre deben monitorearse después de la implementación para garantizar que funcionen correctamente. Con el paso del tiempo, los datos con los que se entrenó el modelo pueden quedar obsoletos para las predicciones futuras. En la detección de fraudes, por ejemplo, los delincuentes siempre encuentran nuevas formas de piratear las cuentas.
  • 5. Herramientas para la ciencia de datos Crear, evaluar, implementar y monitorear modelos de aprendizaje automático puede ser un proceso complejo. Es por eso que la cantidad de herramientas de ciencia de datos ha aumentado. Los científicos de datos utilizan muchos tipos de herramientas, pero una de las más comunes son los cuadernos de código abierto, que son aplicaciones web para escribir y ejecutar código, visualizar datos y ver resultados, todo dentro de un mismo entorno. Algunos de los cuadernos más populares son Jupyter, RStudio y Zepplin. Los cuadernos son muy útiles para realizar análisis, pero presentan ciertas limitaciones cuando los científicos de datos tienen que trabajar en equipo. Para resolver este problema, se crearon las plataformas de ciencia de datos. Para determinar qué herramienta de ciencia de datos es adecuada para usted, es importante formular las siguientes preguntas: ¿Qué tipo de lenguajes utilizan sus científicos de datos? ¿Qué tipo de métodos de trabajo prefieren? ¿Qué tipo de fuentes de datos usan? Por ejemplo, algunos usuarios prefieren tener un servicio independiente de la fuente de datos que utilice bibliotecas de código abierto. Otros prefieren la velocidad de los algoritmos de aprendizaje automático en la base de datos. ¿Quién supervisa el proceso de ciencia de datos?
  • 6. En la mayoría de las organizaciones, los proyectos de ciencia de datos suelen estar supervisados por tres tipos de administradores: Directores comerciales: Estos directores trabajan con el equipo de ciencia de datos para definir el problema y desarrollar una estrategia para el análisis. Pueden ser los jefes de una línea de negocios como Marketing, Finanzas o Ventas y contar con un equipo de ciencia de datos directamente subordinado. Trabajan codo a codo con los directores de Ciencia de Datos y Tecnología Informática para garantizar que se concreten los proyectos. Directores de Tecnología Informática: Los directores sénior de Tecnología Informática son responsables de la infraestructura y de la arquitectura que asistirá las operaciones de ciencia de datos. Supervisan continuamente las operaciones y el uso de los recursos para garantizar que los equipos de ciencia de datos operen en forma eficiente y segura. También pueden ser responsables de la creación y actualización de los entornos de TI para los equipos de ciencia de datos. Directores de ciencia de datos: Estos gerentes supervisan el equipo de ciencia de datos y su trabajo diario. Son creadores de equipos que pueden equilibrar el desarrollo del equipo con la planificación y el monitoreo del proyecto. Pero el participante más importante en este proceso es el científico de datos. ¿Qué es un científico de datos?
  • 7. Como especialidad, la ciencia de datos aún es nueva. Surgió de los campos del análisis estadístico y de la minería de datos. La revista Data Science Journal debutó en 2002, publicada por Consejo Internacional para la Ciencia: Comité de Información para Ciencia y Tecnología. En el año 2008, ya había surgido el título de científico de datos y el campo despegó rápidamente. Desde entonces, ha habido una escasez de científicos de datos, a pesar de que cada vez más escuelas y universidades han comenzado a ofrecer títulos en ciencia de datos. Las tareas de un científico de datos pueden incluir el desarrollo de estrategias para analizar datos; la preparación de datos para su análisis; explorar, analizar y visualizar datos; construir modelos con datos mediante lenguajes de programación como Python y R; e implementar modelos en aplicaciones. El científico de datos no trabaja solo. De hecho, la ciencia de datos más efectiva se ejecuta en equipos. Además de un científico de datos, este equipo puede incluir un analista empresarial que define el problema, un ingeniero de datos que prepara los datos y su método de acceso, un arquitecto de tecnología informática que supervisa los procesos subyacentes y la infraestructura, y un desarrollador de aplicaciones que implementa los modelos o las salidas del análisis en aplicaciones y productos. Desafíos de la implementación de la ciencia de datos
  • 8. A pesar de la promesa de la ciencia de datos y las grandes inversiones en equipos de ciencia de datos, muchas empresas no materializan todo el valor de sus datos. En su carrera por contratar talento y crear programas de ciencia de datos, algunas empresas han experimentado flujos de trabajo ineficientes para los equipos, donde diferentes personas utilizan diferentes herramientas y procesos que no funcionan bien en conjunto. Sin una administración centralizada más disciplinada, es probable que los ejecutivos no obtengan un retorno completo de sus inversiones. Este ambiente caótico presenta muchos desafíos. Los científicos de datos no pueden trabajar de forma eficiente. Debido a que el acceso a los datos lo debe otorgar un administrador de Tecnología Informática, los científicos de datos a menudo tienen una larga espera por los datos y los recursos que necesitan para analizarlos. Una vez que tengan acceso, el equipo de ciencia de datos podría analizar los datos a través de diferentes herramientas posiblemente incompatibles. Por ejemplo, un científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación en la que se usará está escrita en un lenguaje distinto. Es por eso que la implementación de los modelos en las aplicaciones útiles puede demorar semanas o incluso meses. Los desarrolladores de aplicaciones no pueden acceder a un aprendizaje automático utilizable. A veces, los modelos de aprendizaje automático que reciben los desarrolladores no están listos para implementarse en las aplicaciones. Además, como los puntos de acceso pueden ser inflexibles, los modelos no se pueden implementar en todos los casos y la responsabilidad de la escalabilidad queda en manos del desarrollador de la aplicación. Los administradores de Tecnología Informática dedican demasiado tiempo al soporte. Debido a la proliferación de herramientas de código abierto, el departamento de Tecnología Informática frecuentemente tiene que mantener una lista cada vez mayor de herramientas. Un científico de datos en marketing, por ejemplo, podría usar herramientas distintas a las que usa un científico de datos en finanzas. Los equipos también pueden tener
  • 9. distintos flujos de trabajo, lo que significa que el personal de Tecnología Informática debe reconstruir y actualizar los entornos continuamente. Los directores empresariales se encuentran muy alejados de la ciencia de datos. Los flujos de trabajo de la ciencia de datos no siempre están integrados en los procesos y en los sistemas de toma de decisiones empresariales, lo que dificulta que los gerentes comerciales colaboren de manera inteligente con los científicos de datos. Si no cuentan con una integración mejor, a los directores empresariales les resulta muy difícil comprender por qué toma tanto tiempo pasar del prototipo a la producción, y es menos probable que apoyen la inversión en proyectos que perciben como demasiado lentos. La plataforma de ciencia de datos ofrece nuevas capacidades Muchas compañías se percataron de que si no cuentan con una plataforma integrada, el trabajo de la ciencia de datos es ineficiente, inseguro y difícil de escalar. Esto condujo al desarrollo de plataformas de ciencia de datos. Estas plataformas son centros de software, alrededor de los cuales se lleva a cabo todo el trabajo de ciencia de datos. Una buena plataforma alivia muchos de los desafíos de la implementación de la ciencia de datos y ayuda a las empresas a convertir sus datos en información de forma más rápida y eficiente. Con una plataforma centralizada de aprendizaje automático, los científicos de datos pueden trabajar en un entorno de colaboración con sus herramientas de código abierto favoritas, y donde todo su trabajo es sincronizado mediante un sistema de control de versiones. Los beneficios de una plataforma de ciencia de datos
  • 10. Una plataforma de ciencia de datos disminuye las redundancias y fomenta la innovación al permitir que los equipos compartan código, resultados e informes. Elimina los cuellos de botella en el flujo de trabajo al simplificar la administración e incorporar prácticas recomendadas. En general, las mejores plataformas de ciencia de datos tienen como objetivo:  Permitir que los científicos de datos sean más productivos al ayudarlos a acelerar y entregar los modelos en forma más rápida y con menos errores.  Facilitar que los científicos de datos trabajen con grandes volúmenes y variedades de datos.  Brindar una inteligencia artificial confiable, de categoría empresarial, que esté libre de sesgos, sea auditable y reproducible. Las plataformas de ciencia de datos están diseñadas para que colaboren diversos usuarios, como científicos de datos expertos, ciudadanos científicos de datos, ingenieros de datos e ingenieros o especialistas en aprendizaje automático. Por ejemplo, una plataforma de ciencia de datos podría permitir que los científicos de datos implementen los modelos en forma de API, lo que facilita su integración en diferentes aplicaciones. Los científicos de datos pueden acceder a herramientas, datos e infraestructura sin tener que esperar por la Tecnología Informática. La demanda de plataformas de ciencia de datos ha explotado en el mercado. De hecho, se espera que el mercado de las plataformas crezca a una tasa anual compuesta de más del 39% en los próximos años y se proyecta que alcance los $385.000 millones de dólares para el 2025. Lo que un científico de datos necesita en una plataforma
  • 11. Si está listo para explorar las capacidades de las plataformas de ciencia de datos, debe tener en cuenta ciertas capacidades clave: Elija una interfaz de usuario basada en proyectos que fomente la colaboración. La plataforma debe facultar a las personas para que trabajen en conjunto en un modelo, desde la concepción hasta el desarrollo final. Debe otorgar a cada miembro del equipo acceso de autoservicio a los datos y a los recursos. Priorice la integración y la flexibilidad. Asegúrese de que la plataforma sea compatible con las últimas herramientas de código abierto; proveedores comunes de control de versiones como GitHub, GitLab y Bitbucket; y una estrecha integración con otros recursos. Incluya funcionalidades de categoría empresarial. Asegúrese de que la plataforma pueda escalar con su negocio a medida que crece su equipo. La plataforma debe contar con un alto grado de disponibilidad, tener controles de acceso robustos y admitir una gran cantidad de usuarios concurrentes. Permita que la ciencia de datos se convierta en autoservicio. Busque una plataforma que reduzca la carga del departamento de Tecnología Informática e Ingeniería y permita que los científicos de datos creen de manera instantánea entornos, realicen un seguimiento de todo su trabajo e implementen fácilmente modelos en la producción. Garantice una implementación más sencilla de los modelos. La implementación y puesta en funcionamiento del modelo es uno de los pasos más importantes del ciclo de vida del aprendizaje automático, pero frecuentemente se ignora. Asegúrese de que el servicio que elija facilite la puesta en marcha de los modelos, ya sea proporcionando API o asegurando que los usuarios creen modelos de una manera que permita una integración fácil. Cuando una plataforma de ciencia de datos es el paso correcto Su organización podría estar lista para una plataforma de ciencia de datos, si ha notado que:  La productividad y la colaboración muestran signos de tensión.  Los modelos de aprendizaje automático no se pueden auditar ni reproducir.  Los modelos nunca llegan a la producción.
  • 12. Una plataforma de ciencia de datos puede ofrecer un valor real para su empresa. La plataforma de ciencia de datos de Oracle incluye una amplia gama de servicios que brindan una experiencia integral de extremo a extremo, diseñada para acelerar la implementación de los modelos y mejorar los resultados de la ciencia de datos.