Este documento describe cómo integrar Azure Synapse con MLflow para habilitar el seguimiento de experimentos de aprendizaje automático y el registro y despliegue de modelos en Azure Machine Learning. Explica cómo configurar los cuadernos de Azure Synapse para usar MLflow conectado a un área de trabajo de Azure Machine Learning, registrar modelos entrenados en Synapse en el registro de modelos de Azure ML y desplegarlos para su uso.
3. La primer plataforma nativa en la
nube unificada para análisis
convergente
Azure Synapse es la única plataforma unificada
para análisis, combinando big data,
almacenamiento de datos e integración de datos
en un servicio nativo de nube única para análisis
de extremo a extremo a escala de la nube.
4. Mejor precio en
clase por
rendimiento
Productividad de los
desarrolladores
Ejecución de
consultas consciente
de la carga de
trabajo
Flexibilidad de datos
Hasta un 94% menos de
caro que los
competidores
Gestionar cargas de
trabajo heterogéneas a
través de prioridades de
carga de trabajo y
aislamiento
Ingerir variedad de
fuentes de datos para
obtener el máximo
beneficio.
Consulta todos los datos.
Usar herramientas
preferidas para el
desarrollo de
almacenamiento de
datos SQL
Seguridad líder en la
industria
Seguridad en
profundidad de defensa y
99,9% de disponibilidad
respaldada
financieramente SLA
Azure Synapse – SQL Analytics
focus areas
6. Compatibilidad con Azure SQL Data Warehouse
para la integración y orquestación de datos
Las capacidades de análisis adicionales de Azure
Synapse desbloquean nuevos escenarios
Synapse + ISV de Azure puede traer continuidad
de datos con Azure Machine Learning y Power BI
Reduzca el esfuerzo migratorio reutilizando las
plataformas de socios existentes
Azure Synapse Analytics
Power BI Azure Machine Learning
Azure Data Share Ecosystem
Azure Synapse Analytics
7. Modelos de consumo flexibles
Pago por consulta sin servidor es ideal para la
exploración y transformación del lago de datos ad-hoc
Dedicado clústeres optimizados de misión crítica cargas
de trabajo del almacén de datos
Sin servidor Dedicado
8. Seguridad y cumplimiento completos
Integración de datos optimizada
Almacenamiento de datos flexible
Analítica operativa en tiempo real
Aprendizaje automático integrado
Power BI + Azure Synapse
10. Categoría Característica
Protección de Datos
Datos en tránsito
Cifrado de datos en reposo
Descubrimiento y clasificación de datos
Control de acceso
Seguridad a nivel de objeto (tablas / vistas)
Seguridad a nivel de fila
Seguridad a nivel de columna
Enmascaramiento dinámico de datos
Cifrado a nivel de columna
Autenticación
Inicio de sesión SQL
Directorio activo de Azure
Autenticación multifactor
Seguridad de la red
Red virtual administrada
Red virtual personalizada
Cortafuegos
Azure ExpressRoute
Enlace privado de Azure
Protección contra
amenazas
Detección de amenazas
Revisión de cuentas
Evaluación de vulnerabilidad
Aislamiento
Almacén de metadatos dedicado
Alojado en el inquilino del cliente
La mejor seguridad de su clase
Llaves administradas por el cliente y el sistema
Todos los datos encriptados por defecto
Hasta 3 veces más niveles de cifrado de datos en
reposo
Democratice los datos a escala con ACL de grano fino
Protección proactiva
Cumplimiento integral
11. Elimina el mantenimiento de la red
Un clic permite la gestión automatizada de redes
virtuales entre los puntos finales del clúster.
Los recursos de Synapse solo interoperan con
terminales privados
Sin gestión de subredes o rangos de IP
Evita la filtración de datos
Límite de cumplimiento
12. Más que solo seguridad de datos
Integración nativa con Azure Purview
Descubra y clasifique activos de datos
automáticamente
Linaje de datos de un extremo a otro
14. ETL / ELT nativo de la nube
95+ conectores disponibles
Conectividad segura a fuentes de datos locales, otras
nubes y aplicaciones SaaS
Interfaces de diseño de código primero y bajo / sin
código
Activación basada en eventos y horarios
Sin código
15. Real-time
operational analytics
No se requieren pipelines de integración de datos
Impacto casi nulo en los sistemas transaccionales
Latencia <90s en percentil 99
17. Plataforma elástica totalmente
gestionada
Computación elástica que se puede optimizar
fácilmente para diferentes clases de carga de trabajo
Todas las funciones disponibles en un solo nivel
Almacenamiento PAYG infinito y rentable
18. Editor de SQL
Finalización automática de código (Intellisense)
Colaboración de guiones dentro del espacio de
trabajo
Visualizaciones integradas
Cambie fácilmente entre clústeres
20. Democratizar el poder predictivo
Synapse hace que el análisis predictivo sea accesible
para todos
Notebooks proporciona una experiencia de creación
de código para modelos predictivos complejos
La interfaz gráfica de aprendizaje automático
automático proporciona una experiencia sin código
para crear modelos de aprendizaje automático
La integración nativa con Azure Cognitive Search
proporciona acceso a modelos prediseñados
Todo el código Bajo / sin código Modelos prediseñados
21. Desarrollo de modelo de
aprendizaje automático basado en
el código
PySpark, Scala y lenguajes C # compatibles
Finalización automática de código (Intellisense)
Cree varios idiomas en un solo cuaderno
Analice los datos del almacén de datos, el lago de
datos y los datos operativos en tiempo real desde un
solo lugar
22. Datos + Idiomas
Lenguajes como SQL, PySpark, Scala y
C # en apoyo de la ciencia de datos y los datos
cargas de trabajo del almacén
El lago de datos admite un conjunto ilimitado de
formatos de archivo, incluidos Parquet, ORC y Json,
así como formatos de audio, imagen y video
Idioma
Datos
25. 25
Plataformas de ML personalizadas
Facebook FBLearner, Uber Michelangelo, Google TFX
+ Estandarizar el bucle de preparación / capacitación /
implementación de datos:
Si trabajas con la plataforma, obtienes estos!
– Limitado a unos pocos algoritmos o marcos
– Vinculado a la infraestructura de una empresa
¿Podemos proporcionar beneficios similares en
un ambiente abierto?
26. 26
Introduciendo
Plataforma abierta de aprendizaje automático
• Funciona con cualquier biblioteca e idioma de ML
• Se ejecuta de la misma manera en cualquier lugar (por
ejemplo, en cualquier nube)
• Diseñado para ser útil para organizaciones de 1 o 1000+
personas
27. 27
Componentes de MLflow
Tracking
Registro y consulta
experimentos:
código,
configuraciones,
resultados, ... etc
Project
s
Formato de
empaquetado
para ejecuciones
reproducibles en
cualquier
plataforma
Model
s
Formato de modelo
general que admite
diversos
Herramientas de
implementación
28. 28
Conceptos clave en Tracking
Parameters: Entradas clave-valor en el
código
Metrics: Valores numéricos (se pueden
actualizar con el tiempo)
Artifacts: Archivos arbitrarios, incluidos
datos y modelos
Source: Código de entrenamiento que se
ejecutó
Version: Versión del código de
entrenamiento
Tags and Notes: cualquier información
adicional
30. 30
MLflow Tracking
Tracking
Registro y consulta
experimentos:
código,
configuraciones,
resultados, ... etc
import mlflow
with mlflow.start_run():
mlflow.log_param("layers", layers)
mlflow.log_param("alpha", alpha)
# train model
mlflow.log_metric("mse", model.mse())
mlflow.log_artifact("plot", model.plot(test_df))
mlflow.tensorflow.log_model(model)
31. 31
MLflow backend stores
1. Entity Store
• FileStore (local filesystem)
• SQLStore (via SQLAlchemy)
• REST Store
2. Artifact Repository
• S3 backed store
• Azure Blob storage
• Google Cloud storage
• DBFS artifact repo
32. 32
Motivación de los proyectos MLflow
Diverse set of training tools
Diverse set of
environments
Resultado:
El código ML es
difícil de poner en
producción.
34. 34
MLflow Projects
Formato de empaquetado para ejecuciones de ML reproducibles
Cualquier carpeta de código o repositorio de GitHub
Archivo MLproject opcional con configuración de proyecto
Define dependencias para la reproducibilidad
Las dependencias de Conda (+ R, Docker, ...) se pueden especificar en
MLproject
Reproducible en (casi) cualquier entorno
API de ejecución para ejecutar proyectos
CLI / Python / R / Java
Soporta ejecución local y remota
37. 37
Model Format
Flavor 2
Flavor 1
ML
Frameworks
Inference Code
Batch & Stream
Scoring
Serving Tools
Estándar para
modelos de ML
MLflow Models
38. 38
Modelos MLflow
Formato de empaquetado para modelos ML
Cualquier directorio con archivo Mlmodel
Define dependencias para la reproducibilidad
El entorno de Conda se puede especificar en la configuración de MLmodel
Utilidades de creación de modelos
Guardar modelos desde cualquier marco en formato MLflow
API de implementación
CLI / Python / R / Java
40. 40
Ejemplo de Model Flavors
Train a model
mlflow.pytorch.log_model()
Model
Format
Flavor 1:
Pyfunc
Flavor 2:
PyTorch
predict = mlflow.pyfunc.load_pyfunc(…)
predict(input_dataframe)
model = mlflow.pytorch.load_model(…)
with torch.no_grad():
model(input_tensor)
PyTorch
41. 41
Ejemplo de Model Flavors
predict = mlflow.pyfunc.load_pyfunc(…)
predict(input_dataframe)