La ciencia de datos combina múltiples campos como estadísticas, métodos científicos y análisis de datos para extraer valor de los datos. Los científicos de datos usan varios conocimientos para analizar datos de fuentes como la web y sensores. La ciencia de datos revela tendencias en los datos que permiten a las empresas tomar mejores decisiones y crear productos más innovadores.
1. La ciencia de datos combina múltiples campos que incluyen estadísticas, métodos
científicos y análisis de datos para extraer el valor de los datos.
Los practicantes de la ciencia de datos se llaman científicos de datos y combinan una
variedad de conocimientos para analizar los datos recopilados de la web, de teléfonos
inteligentes, de clientes, sensores y otras fuentes.
Lea el libro electrónico sobre la nube de aprendizaje automático(PDF)
Ciencia de datos: Un recurso inexplotado para el
aprendizaje automático
La ciencia de datos es uno de los campos más emocionantes que existen en la actualidad.
Pero, ¿por qué es tan importante?
Porque las empresas disponen un tesoro de datos sin aprovechar. Ahora que la tecnología
moderna ha permitido la creación y el almacenamiento de cantidades cada vez mayores de
información, el volumen de datos explotó. Se estima que el 90% de los datos en el mundo
se crearon en los últimos dos años. Por ejemplo, los usuarios de Facebook suben 10
millones de fotos por hora.
Pero estos datos frecuentemente solo permanecen almacenados en bases de datos y lagos de
datos, básicamente sin tocar.
La gran cantidad de datos recopilados y almacenados por estas tecnologías puede generar
beneficios transformadores para las organizaciones y sociedades de todo el mundo, pero
solo si sabemos interpretarlos. Ahí es donde entra en acción la ciencia de datos.
La ciencia de datos revela tendencias y genera información que las empresas pueden
utilizar para tomar mejores decisiones y crear productos y servicios más innovadores.
Quizás lo más importante es que permite que los modelos de aprendizaje automático (ML)
aprendan de las grandes cantidades de datos que se les suministran en vez de depender
principalmente de los analistas de negocios para ver qué pueden descubrir a partir de los
datos.
Los datos son la base de la innovación, pero su valor proviene de la información que los
científicos pueden extraer y luego utilizar a partir de estos.
¿Cuál es la diferencia entre la ciencia de datos, la
inteligencia artificial y el aprendizaje automático?
2. Para comprender mejor la ciencia de datos (y cómo puede aprovecharla) es igual de
importante conocer otros términos relacionados con el campo, como inteligencia artificial
(IA) y aprendizaje automático. Frecuentemente, encontrará que estos términos se usan
indistintamente, pero hay matices.
Este es un breve resumen:
IA significa hacer que una computadora imite de alguna manera el
comportamiento humano.
La ciencia de los datos es un subconjunto de la IA que se refiere más a las áreas
superpuestas de las estadísticas, los métodos científicos y el análisis de datos, que
se utilizan todas para extraer significado y conocimientos de los datos.
El Aprendizaje automático es otro subconjunto de la IA y consiste en las
técnicas que permiten que las computadoras descubran cosas a partir de los datos
y realicen aplicaciones de IA.
Y, por si acaso, incluimos otra definición:
Aprendizaje profundo, que es un subconjunto del aprendizaje automático que
permite que las computadoras resuelvan problemas más complejos.
Cómo la ciencia de datos está transformando los negocios
3. Las organizaciones están utilizando la ciencia de datos para convertir los datos en una
ventaja competitiva al perfeccionar los productos y servicios. Algunos casos de uso de la
ciencia de datos y el aprendizaje automático incluyen:
Determinar la fuga de clientes analizando los datos que se recopilan de los
centros de llamadas, para que el departamento de Marketing pueda tomar
medidas a fin de retenerlos.
Mejorar la eficiencia al analizar los patrones de tráfico, las condiciones climáticas
y otros factores para que las empresas de logística puedan mejorar los tiempos de
entrega y reducir los costos.
Mejorar los diagnósticos de los pacientes mediante el análisis de los exámenes
médicos y los síntomas informados para que los médicos puedan diagnosticar
antes las enfermedades y tratarlas de manera más eficaz.
Optimizar la cadena de suministro al predecir cuándo se producirán fallos en los
equipos.
Detectar los fraudes en los servicios financieros mediante el reconocimiento de
los comportamientos sospechosos y las acciones anómalas.
Mejorar las ventas al crear recomendaciones para los clientes basadas en las
compras anteriores.
Muchas empresas han hecho de la ciencia de datos una prioridad y están realizando grandes
inversiones en ella. En la última encuesta de Gartner a más de 3.000 CIO, los encuestados
clasificaron la analítica y la inteligencia empresarial como las tecnologías de diferenciación
más importantes para sus organizaciones. Los directores de informática encuestados ven
estas tecnologías como las más estratégicas para sus empresas y están realizando las
inversiones correspondientes.
Cómo se lleva a cabo la ciencia de datos
4. El proceso de analizar y utilizar los datos es iterativo más que lineal, pero este es el flujo
normal del ciclo de vida de la ciencia de datos para un proyecto de modelado de datos:
Planificación: Definir un proyecto y sus posibles resultados.
Construir un modelo de datos: Los científicos de datos frecuentemente usan una variedad
de bibliotecas de código abierto o herramientas en la base de datos para construir modelos
de aprendizaje automático. A menudo, los usuarios necesitan API para que los ayuden con
la ingestión de datos, la visualización y creación de perfiles de datos o la ingeniería de
funciones. Necesitan las herramientas adecuadas, así como acceso a los datos correctos y
otros recursos como la capacidad de proceso.
Evaluar un modelo: Los científicos de datos deben lograr un alto porcentaje de exactitud
en sus modelos antes de poder implementarlos con confianza. La evaluación del modelo
habitualmente genera un conjunto completo de métricas de evaluación y visualizaciones
para medir el rendimiento del modelo frente a los datos nuevos y también para clasificarlos
a lo largo del tiempo a fin de permitir un comportamiento óptimo en la producción. La
evaluación del modelo va más allá del rendimiento en bruto para tener en cuenta el
comportamiento de referencia esperado.
Explicar los modelos: Poder explicar la mecánica interna de los resultados de los modelos
de aprendizaje automático en términos humanos no ha sido posible siempre, pero es cada
vez más importante. Los científicos de datos desean recibir explicaciones automatizadas de
la ponderación relativa y la importancia de los factores que intervienen en la generación de
una predicción, junto con detalles explicativos específicos del modelo sobre las
predicciones del modelo.
Implementar un modelo: Tomar un modelo de aprendizaje automático entrenado e
implementarlo en los sistemas correctos es frecuentemente un proceso difícil y laborioso.
Esto se puede simplificar operacionalizando los modelos como API escalables y seguras, o
usando modelos de aprendizaje automático dentro de la base de datos.
Monitorear los modelos: Desafortunadamente, la implementación del modelo no es el
paso final. Los modelos siempre deben monitorearse después de la implementación para
garantizar que funcionen correctamente. Con el paso del tiempo, los datos con los que se
entrenó el modelo pueden quedar obsoletos para las predicciones futuras. En la detección
de fraudes, por ejemplo, los delincuentes siempre encuentran nuevas formas de piratear las
cuentas.
5. Herramientas para la ciencia de datos
Crear, evaluar, implementar y monitorear modelos de aprendizaje automático puede ser un
proceso complejo. Es por eso que la cantidad de herramientas de ciencia de datos ha
aumentado. Los científicos de datos utilizan muchos tipos de herramientas, pero una de las
más comunes son los cuadernos de código abierto, que son aplicaciones web para escribir y
ejecutar código, visualizar datos y ver resultados, todo dentro de un mismo entorno.
Algunos de los cuadernos más populares son Jupyter, RStudio y Zepplin. Los cuadernos
son muy útiles para realizar análisis, pero presentan ciertas limitaciones cuando los
científicos de datos tienen que trabajar en equipo. Para resolver este problema, se crearon
las plataformas de ciencia de datos.
Para determinar qué herramienta de ciencia de datos es adecuada para usted, es importante
formular las siguientes preguntas: ¿Qué tipo de lenguajes utilizan sus científicos de datos?
¿Qué tipo de métodos de trabajo prefieren? ¿Qué tipo de fuentes de datos usan?
Por ejemplo, algunos usuarios prefieren tener un servicio independiente de la fuente de
datos que utilice bibliotecas de código abierto. Otros prefieren la velocidad de los
algoritmos de aprendizaje automático en la base de datos.
¿Quién supervisa el proceso de ciencia de datos?
6. En la mayoría de las organizaciones, los proyectos de ciencia de datos suelen estar
supervisados por tres tipos de administradores:
Directores comerciales: Estos directores trabajan con el equipo de ciencia de datos para
definir el problema y desarrollar una estrategia para el análisis. Pueden ser los jefes de una
línea de negocios como Marketing, Finanzas o Ventas y contar con un equipo de ciencia de
datos directamente subordinado. Trabajan codo a codo con los directores de Ciencia de
Datos y Tecnología Informática para garantizar que se concreten los proyectos.
Directores de Tecnología Informática: Los directores sénior de Tecnología Informática
son responsables de la infraestructura y de la arquitectura que asistirá las operaciones de
ciencia de datos. Supervisan continuamente las operaciones y el uso de los recursos para
garantizar que los equipos de ciencia de datos operen en forma eficiente y segura. También
pueden ser responsables de la creación y actualización de los entornos de TI para los
equipos de ciencia de datos.
Directores de ciencia de datos: Estos gerentes supervisan el equipo de ciencia de datos y
su trabajo diario. Son creadores de equipos que pueden equilibrar el desarrollo del equipo
con la planificación y el monitoreo del proyecto.
Pero el participante más importante en este proceso es el científico de datos.
¿Qué es un científico de datos?
7. Como especialidad, la ciencia de datos aún es nueva. Surgió de los campos del análisis
estadístico y de la minería de datos. La revista Data Science Journal debutó en 2002,
publicada por Consejo Internacional para la Ciencia: Comité de Información para Ciencia y
Tecnología. En el año 2008, ya había surgido el título de científico de datos y el campo
despegó rápidamente. Desde entonces, ha habido una escasez de científicos de datos, a
pesar de que cada vez más escuelas y universidades han comenzado a ofrecer títulos en
ciencia de datos.
Las tareas de un científico de datos pueden incluir el desarrollo de estrategias para analizar
datos; la preparación de datos para su análisis; explorar, analizar y visualizar datos;
construir modelos con datos mediante lenguajes de programación como Python y R; e
implementar modelos en aplicaciones.
El científico de datos no trabaja solo. De hecho, la ciencia de datos más efectiva se ejecuta
en equipos. Además de un científico de datos, este equipo puede incluir un analista
empresarial que define el problema, un ingeniero de datos que prepara los datos y su
método de acceso, un arquitecto de tecnología informática que supervisa los procesos
subyacentes y la infraestructura, y un desarrollador de aplicaciones que implementa los
modelos o las salidas del análisis en aplicaciones y productos.
Desafíos de la implementación de la ciencia de datos
8. A pesar de la promesa de la ciencia de datos y las grandes inversiones en equipos de ciencia
de datos, muchas empresas no materializan todo el valor de sus datos. En su carrera por
contratar talento y crear programas de ciencia de datos, algunas empresas han
experimentado flujos de trabajo ineficientes para los equipos, donde diferentes personas
utilizan diferentes herramientas y procesos que no funcionan bien en conjunto. Sin una
administración centralizada más disciplinada, es probable que los ejecutivos no obtengan
un retorno completo de sus inversiones.
Este ambiente caótico presenta muchos desafíos.
Los científicos de datos no pueden trabajar de forma eficiente. Debido a que el acceso a
los datos lo debe otorgar un administrador de Tecnología Informática, los científicos de
datos a menudo tienen una larga espera por los datos y los recursos que necesitan para
analizarlos. Una vez que tengan acceso, el equipo de ciencia de datos podría analizar los
datos a través de diferentes herramientas posiblemente incompatibles. Por ejemplo, un
científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación en la
que se usará está escrita en un lenguaje distinto. Es por eso que la implementación de los
modelos en las aplicaciones útiles puede demorar semanas o incluso meses.
Los desarrolladores de aplicaciones no pueden acceder a un aprendizaje automático
utilizable. A veces, los modelos de aprendizaje automático que reciben los desarrolladores
no están listos para implementarse en las aplicaciones. Además, como los puntos de acceso
pueden ser inflexibles, los modelos no se pueden implementar en todos los casos y la
responsabilidad de la escalabilidad queda en manos del desarrollador de la aplicación.
Los administradores de Tecnología Informática dedican demasiado tiempo al
soporte. Debido a la proliferación de herramientas de código abierto, el departamento de
Tecnología Informática frecuentemente tiene que mantener una lista cada vez mayor de
herramientas. Un científico de datos en marketing, por ejemplo, podría usar herramientas
distintas a las que usa un científico de datos en finanzas. Los equipos también pueden tener
9. distintos flujos de trabajo, lo que significa que el personal de Tecnología Informática debe
reconstruir y actualizar los entornos continuamente.
Los directores empresariales se encuentran muy alejados de la ciencia de datos. Los
flujos de trabajo de la ciencia de datos no siempre están integrados en los procesos y en los
sistemas de toma de decisiones empresariales, lo que dificulta que los gerentes comerciales
colaboren de manera inteligente con los científicos de datos. Si no cuentan con una
integración mejor, a los directores empresariales les resulta muy difícil comprender por qué
toma tanto tiempo pasar del prototipo a la producción, y es menos probable que apoyen la
inversión en proyectos que perciben como demasiado lentos.
La plataforma de ciencia de datos ofrece nuevas
capacidades
Muchas compañías se percataron de que si no cuentan con una plataforma integrada, el
trabajo de la ciencia de datos es ineficiente, inseguro y difícil de escalar. Esto condujo al
desarrollo de plataformas de ciencia de datos. Estas plataformas son centros de software,
alrededor de los cuales se lleva a cabo todo el trabajo de ciencia de datos. Una buena
plataforma alivia muchos de los desafíos de la implementación de la ciencia de datos y
ayuda a las empresas a convertir sus datos en información de forma más rápida y eficiente.
Con una plataforma centralizada de aprendizaje automático, los científicos de datos pueden
trabajar en un entorno de colaboración con sus herramientas de código abierto favoritas, y
donde todo su trabajo es sincronizado mediante un sistema de control de versiones.
Los beneficios de una plataforma de ciencia de datos
10. Una plataforma de ciencia de datos disminuye las redundancias y fomenta la innovación al
permitir que los equipos compartan código, resultados e informes. Elimina los cuellos de
botella en el flujo de trabajo al simplificar la administración e incorporar prácticas
recomendadas.
En general, las mejores plataformas de ciencia de datos tienen como objetivo:
Permitir que los científicos de datos sean más productivos al ayudarlos a acelerar
y entregar los modelos en forma más rápida y con menos errores.
Facilitar que los científicos de datos trabajen con grandes volúmenes y variedades
de datos.
Brindar una inteligencia artificial confiable, de categoría empresarial, que esté
libre de sesgos, sea auditable y reproducible.
Las plataformas de ciencia de datos están diseñadas para que colaboren diversos usuarios,
como científicos de datos expertos, ciudadanos científicos de datos, ingenieros de datos e
ingenieros o especialistas en aprendizaje automático. Por ejemplo, una plataforma de
ciencia de datos podría permitir que los científicos de datos implementen los modelos en
forma de API, lo que facilita su integración en diferentes aplicaciones. Los científicos de
datos pueden acceder a herramientas, datos e infraestructura sin tener que esperar por la
Tecnología Informática.
La demanda de plataformas de ciencia de datos ha explotado en el mercado. De hecho, se
espera que el mercado de las plataformas crezca a una tasa anual compuesta de más
del 39% en los próximos años y se proyecta que alcance los $385.000 millones de dólares
para el 2025.
Lo que un científico de datos necesita en una plataforma
11. Si está listo para explorar las capacidades de las plataformas de ciencia de datos, debe tener
en cuenta ciertas capacidades clave:
Elija una interfaz de usuario basada en proyectos que fomente la colaboración. La
plataforma debe facultar a las personas para que trabajen en conjunto en un modelo, desde
la concepción hasta el desarrollo final. Debe otorgar a cada miembro del equipo acceso de
autoservicio a los datos y a los recursos.
Priorice la integración y la flexibilidad. Asegúrese de que la plataforma sea compatible
con las últimas herramientas de código abierto; proveedores comunes de control de
versiones como GitHub, GitLab y Bitbucket; y una estrecha integración con otros recursos.
Incluya funcionalidades de categoría empresarial. Asegúrese de que la plataforma pueda
escalar con su negocio a medida que crece su equipo. La plataforma debe contar con un alto
grado de disponibilidad, tener controles de acceso robustos y admitir una gran cantidad de
usuarios concurrentes.
Permita que la ciencia de datos se convierta en autoservicio. Busque una plataforma que
reduzca la carga del departamento de Tecnología Informática e Ingeniería y permita que los
científicos de datos creen de manera instantánea entornos, realicen un seguimiento de todo
su trabajo e implementen fácilmente modelos en la producción.
Garantice una implementación más sencilla de los modelos. La implementación y
puesta en funcionamiento del modelo es uno de los pasos más importantes del ciclo de vida
del aprendizaje automático, pero frecuentemente se ignora. Asegúrese de que el servicio
que elija facilite la puesta en marcha de los modelos, ya sea proporcionando API o
asegurando que los usuarios creen modelos de una manera que permita una integración
fácil.
Cuando una plataforma de ciencia de datos es el paso
correcto
Su organización podría estar lista para una plataforma de ciencia de datos, si ha notado que:
La productividad y la colaboración muestran signos de tensión.
Los modelos de aprendizaje automático no se pueden auditar ni reproducir.
Los modelos nunca llegan a la producción.
12. Una plataforma de ciencia de datos puede ofrecer un valor real para su empresa. La
plataforma de ciencia de datos de Oracle incluye una amplia gama de servicios que brindan
una experiencia integral de extremo a extremo, diseñada para acelerar la implementación de
los modelos y mejorar los resultados de la ciencia de datos.