Este documento describe los desafíos de implementar ciencia de datos en las empresas debido a flujos de trabajo ineficientes y herramientas incompatibles. También explica cómo las plataformas de ciencia de datos pueden ayudar a superar estos desafíos al proporcionar un entorno centralizado que permite una mayor colaboración, productividad y escalabilidad en el desarrollo de modelos de aprendizaje automático. Finalmente, señala algunas características clave que los científicos de datos deben considerar al sele
2. Desafíos de la implementación
de la ciencia de datos
• A pesar de la promesa de la ciencia de datos y las grandes inversiones en equipos de ciencia
de datos, muchas empresas no materializan todo el valor de sus datos.
• En su carrera por contratar talento y crear programas de ciencia de datos, algunas empresas han
experimentado flujos de trabajo ineficientes para los equipos, donde diferentes personas utilizan
diferentes herramientas y procesos que no funcionan bien en conjunto.
• Sin una administración centralizada más disciplinada, es probable que los ejecutivos no
obtengan un retorno completo de sus inversiones.
• Este ambiente caótico presenta muchos desafíos.
3. Desafíos de la implementación
de la ciencia de datos
• Los científicos de datos no pueden trabajar de forma eficiente.
• Debido a que el acceso a los datos lo debe otorgar un administrador de Tecnología Informática, los
científicos de datos a menudo tienen una larga espera por los datos y los recursos que necesitan
para analizarlos.
• Una vez que tengan acceso, el equipo de ciencia de datos podría analizar los datos a través de
diferentes herramientas posiblemente incompatibles.
• Por ejemplo, un científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación
en la que se usará está escrita en un lenguaje distinto.
• Es por eso que la implementación de los modelos en forma de aplicaciones útiles puede demorar
semanas o incluso meses.
4. Desafíos de la implementación
de la ciencia de datos
• Los desarrolladores de aplicaciones no pueden acceder a un aprendizaje autónomo
utilizable.
• A veces, los modelos de aprendizaje autónomo que reciben los desarrolladores no están listos
para implementarse en las aplicaciones.
• Además, como los puntos de acceso pueden ser inflexibles, los modelos no se pueden
implementar en todos los casos y la responsabilidad de la escalabilidad queda en manos del
desarrollador de la aplicación.
5. Desafíos de la implementación
de la ciencia de datos
• Los administradores de Tecnología Informática dedican demasiado tiempo al
soporte.
• Debido a la proliferación de herramientas de código abierto, el departamento de Tecnología
Informática frecuentemente tiene que mantener una lista cada vez mayor de herramientas.
• Un científico de datos en marketing, por ejemplo, podría usar herramientas distintas a las que usa
un científico de datos en finanzas.
• Los equipos también pueden tener distintos flujos de trabajo, lo que significa que el personal de
Tecnología Informática debe reconstruir y actualizar los entornos continuamente.
6. Desafíos de la implementación
de la ciencia de datos
• Los directores empresariales se encuentran muy alejados de la ciencia de datos.
• Los flujos de trabajo de la ciencia de datos no siempre están integrados en los procesos y en los
sistemas de toma de decisiones empresariales, lo que dificulta que los gerentes comerciales
colaboren de manera informada con los científicos de datos.
• Si no cuentan con una integración mejor, a los gerentes empresariales se les dificulta comprender
por qué toma tanto tiempo pasar del prototipo a la producción, y es menos probable que apoyen la
inversión de proyectos que consideran demasiado lentos.
7. La plataforma de ciencia de datos
ofrece nuevas capacidades
• Muchas compañías se percataron de que si no cuentan con una plataforma integrada, el trabajo
de la ciencia de datos es ineficiente, inseguro y difícil de escalar.
• Esto condujo al desarrollo de plataformas de ciencias de datos.
• Estas plataformas son centros de software, alrededor de los cuales se lleva a cabo todo el trabajo
de ciencia de datos. Una buena plataforma alivia muchos de los desafíos de la implementación de
la ciencia de datos y ayuda a las empresas a convertir sus datos en información de forma más
rápida y eficiente.
• Con una plataforma centralizada de aprendizaje autónomo, los científicos de datos pueden
trabajar en un entorno de colaboración con sus herramientas de código abierto favoritas, y donde
todo su trabajo se sincroniza mediante un sistema de control de versiones.
8. Los beneficios de una plataforma
de ciencia de datos
• Una plataforma de ciencia de datos disminuye las redundancias y fomenta la innovación al permitir
que los equipos compartan código, resultados e informes. Elimina los cuellos de botella en el flujo
de trabajo al simplificar la administración e incorporar prácticas recomendadas.
• En general, las mejores plataformas de ciencia de datos tienen como objetivo:
• Permitir que los científicos de datos sean más productivos al ayudarlos a acelerar y entregar
los modelos en forma más rápida y con menos errores.
• Facilitar que los científicos de datos trabajen con grandes volúmenes y variedades de datos.
• Brindar una inteligencia artificial confiable, de categoría empresarial, que esté libre de sesgos,
sea auditable y reproducible.
9. Los beneficios de una plataforma
de ciencia de datos
• Las plataformas de ciencia de datos están diseñadas para que colaboren diversos usuarios, como
científicos de datos expertos, cientificos de datos ciudadanos, ingenieros de datos e ingenieros o
especialistas en aprendizaje autónomo.
• Por ejemplo, una plataforma de ciencia de datos podría permitir que los científicos de datos
implementen los modelos en forma de API, lo que facilita su integración en diferentes aplicaciones.
• Los científicos de datos pueden acceder a herramientas, datos e infraestructura sin tener que esperar
por la Tecnología Informática.
• La demanda de plataformas de ciencia de datos ha explotado en el mercado. De hecho, se espera que
el mercado de las plataformas crezca a una tasa anual compuesta de más del 39 % en los próximos
años y se proyecta que alcance los $385 000 millones de dólares para el 2025.
10. Lo que un científico de datos
requiere de una plataforma
• Si está listo para explorar las capacidades de las plataformas de ciencia de datos, debe tener en
cuenta ciertas capacidades clave:
• Elija una interfaz de usuario basada en proyectos que fomente la colaboración. La plataforma
debe facultar a las personas para que trabajen en conjunto en un modelo, desde la concepción
hasta el desarrollo final. Debe otorgar a cada miembro del equipo acceso de autoservicio a los
datos y a los recursos.
• Priorice la integración y la flexibilidad. Asegúrese de que la plataforma sea compatible con las
últimas herramientas de código abierto; proveedores comunes de control de versiones como
GitHub, GitLab y Bitbucket; y una estrecha integración con otros recursos.
11. Lo que un científico de datos
requiere de una plataforma
• Incluya funcionalidades de categoría empresarial. Asegúrese de que la plataforma pueda escalar con su negocio
a medida que crece su equipo. La plataforma debe contar con un alto grado de disponibilidad, tener controles de
acceso robustos y admitir una gran cantidad de usuarios concurrentes.
• Permita que la ciencia de datos se convierta en autoservicio. Busque una plataforma que reduzca la carga del
departamento de Tecnología Informática e Ingeniería y permita que los científicos de datos creen de manera
instantánea entornos, realicen un seguimiento de todo su trabajo e implementen fácilmente modelos en la
producción.
• Garantice una implementación más sencilla de los modelos. La implementación y puesta en funcionamiento del
modelo es uno de los pasos más importantes del ciclo de vida del aprendizaje autónomo, pero frecuentemente se
ignora. Asegúrese de que el servicio que elija facilite la puesta en marcha de los modelos, ya sea proporcionando
API o asegurando que los usuarios creen modelos de una manera que permita una integración fácil.
12. Cuando una plataforma de ciencia
de datos es el paso correcto
• Su organización podría estar lista para una plataforma de ciencia de datos, si ha notado que:
• La productividad y la colaboración muestran signos de tensión.
• Los modelos de aprendizaje autónomo no se pueden auditar ni reproducir.
• Los modelos nunca llegan a la producción.
• Una plataforma de ciencia de datos puede ofrecer un valor real para su empresa.