Azure Synapse Analytics MLflow

Azure Synapse con ML flow
Ing. Eduardo Castro PhD

Agenda
 Introducción a Azure Synapse
 Qué es ML Flow
 Integración de Synapse con ML Flow

La primer plataforma nativa en la
nube unificada para análisis
convergente
Azure Synapse es la única plataforma unificada
para análisis, combinando big data,
almacenamiento de datos e integración de datos
en un servicio nativo de nube única para análisis
de extremo a extremo a escala de la nube.

Mejor precio en
clase por
rendimiento
Productividad de los
desarrolladores
Ejecución de
consultas consciente
de la carga de
trabajo
Flexibilidad de datos
Hasta un 94% menos de
caro que los
competidores
Gestionar cargas de
trabajo heterogéneas a
través de prioridades de
carga de trabajo y
aislamiento
Ingerir variedad de
fuentes de datos para
obtener el máximo
beneficio.
Consulta todos los datos.
Usar herramientas
preferidas para el
desarrollo de
almacenamiento de
datos SQL
Seguridad líder en la
industria
Seguridad en
profundidad de defensa y
99,9% de disponibilidad
respaldada
financieramente SLA
Azure Synapse – SQL Analytics
focus areas

Impulsado por un nuevo motor SQL
distribuido nativo en la nube

Compatibilidad con Azure SQL Data Warehouse
para la integración y orquestación de datos
Las capacidades de análisis adicionales de Azure
Synapse desbloquean nuevos escenarios
Synapse + ISV de Azure puede traer continuidad
de datos con Azure Machine Learning y Power BI
Reduzca el esfuerzo migratorio reutilizando las
plataformas de socios existentes
Azure Synapse Analytics
Power BI Azure Machine Learning
Azure Data Share Ecosystem
Azure Synapse Analytics

Modelos de consumo flexibles
Pago por consulta sin servidor es ideal para la
exploración y transformación del lago de datos ad-hoc
Dedicado clústeres optimizados de misión crítica cargas
de trabajo del almacén de datos
Sin servidor Dedicado

 Seguridad y cumplimiento completos
 Integración de datos optimizada
 Almacenamiento de datos flexible
 Analítica operativa en tiempo real
 Aprendizaje automático integrado
 Power BI + Azure Synapse

Seguridad y cumplimiento
Controles de gobernanza unificados

Categoría Característica
Protección de Datos
Datos en tránsito
Cifrado de datos en reposo
Descubrimiento y clasificación de datos
Control de acceso
Seguridad a nivel de objeto (tablas / vistas)
Seguridad a nivel de fila
Seguridad a nivel de columna
Enmascaramiento dinámico de datos
Cifrado a nivel de columna
Autenticación
Inicio de sesión SQL
Directorio activo de Azure
Autenticación multifactor
Seguridad de la red
Red virtual administrada
Red virtual personalizada
Cortafuegos
Azure ExpressRoute
Enlace privado de Azure
Protección contra
amenazas
Detección de amenazas
Revisión de cuentas
Evaluación de vulnerabilidad
Aislamiento
Almacén de metadatos dedicado
Alojado en el inquilino del cliente
La mejor seguridad de su clase
Llaves administradas por el cliente y el sistema
Todos los datos encriptados por defecto
Hasta 3 veces más niveles de cifrado de datos en
reposo
Democratice los datos a escala con ACL de grano fino
Protección proactiva
Cumplimiento integral

Elimina el mantenimiento de la red
Un clic permite la gestión automatizada de redes
virtuales entre los puntos finales del clúster.
Los recursos de Synapse solo interoperan con
terminales privados
Sin gestión de subredes o rangos de IP
Evita la filtración de datos
Límite de cumplimiento

Más que solo seguridad de datos
Integración nativa con Azure Purview
Descubra y clasifique activos de datos
automáticamente
Linaje de datos de un extremo a otro

Integración de
datos
Integración de datos híbridos sin código

ETL / ELT nativo de la nube
95+ conectores disponibles
Conectividad segura a fuentes de datos locales, otras
nubes y aplicaciones SaaS
Interfaces de diseño de código primero y bajo / sin
código
Activación basada en eventos y horarios
Sin código

Real-time
operational analytics
No se requieren pipelines de integración de datos
Impacto casi nulo en los sistemas transaccionales
Latencia <90s en percentil 99

Almacén de datos
Plataforma de análisis escalable y segura para cargas de
trabajo SQL

Plataforma elástica totalmente
gestionada
Computación elástica que se puede optimizar
fácilmente para diferentes clases de carga de trabajo
Todas las funciones disponibles en un solo nivel
Almacenamiento PAYG infinito y rentable

Editor de SQL
Finalización automática de código (Intellisense)
Colaboración de guiones dentro del espacio de
trabajo
Visualizaciones integradas
Cambie fácilmente entre clústeres

Aprendizaje
automático
Capacite a todos con información predictiva

Democratizar el poder predictivo
Synapse hace que el análisis predictivo sea accesible
para todos
Notebooks proporciona una experiencia de creación
de código para modelos predictivos complejos
La interfaz gráfica de aprendizaje automático
automático proporciona una experiencia sin código
para crear modelos de aprendizaje automático
La integración nativa con Azure Cognitive Search
proporciona acceso a modelos prediseñados
Todo el código Bajo / sin código Modelos prediseñados

Desarrollo de modelo de
aprendizaje automático basado en
el código
PySpark, Scala y lenguajes C # compatibles
Finalización automática de código (Intellisense)
Cree varios idiomas en un solo cuaderno
Analice los datos del almacén de datos, el lago de
datos y los datos operativos en tiempo real desde un
solo lugar

Datos + Idiomas
Lenguajes como SQL, PySpark, Scala y
C # en apoyo de la ciencia de datos y los datos
cargas de trabajo del almacén
El lago de datos admite un conjunto ilimitado de
formatos de archivo, incluidos Parquet, ORC y Json,
así como formatos de audio, imagen y video
Idioma
Datos

23
El desarrollo del
aprendizaje automático es
complejo

24
ML Lifecycle
Data Prep
Training
Deploy
Raw Data
μ
λ θ Tunin
g
Scal
e
μ
λ θ Tunin
g
Scal
e
Scal
e
Scal
e
Model
Exchang
e
Governanc
e
Delta

25
Plataformas de ML personalizadas
Facebook FBLearner, Uber Michelangelo, Google TFX
+ Estandarizar el bucle de preparación / capacitación /
implementación de datos:
Si trabajas con la plataforma, obtienes estos!
– Limitado a unos pocos algoritmos o marcos
– Vinculado a la infraestructura de una empresa
¿Podemos proporcionar beneficios similares en
un ambiente abierto?

26
Introduciendo
Plataforma abierta de aprendizaje automático
• Funciona con cualquier biblioteca e idioma de ML
• Se ejecuta de la misma manera en cualquier lugar (por
ejemplo, en cualquier nube)
• Diseñado para ser útil para organizaciones de 1 o 1000+
personas

27
Componentes de MLflow
Tracking
Registro y consulta
experimentos:
código,
configuraciones,
resultados, ... etc
Project
s
Formato de
empaquetado
para ejecuciones
reproducibles en
cualquier
plataforma
Model
s
Formato de modelo
general que admite
diversos
Herramientas de
implementación

28
Conceptos clave en Tracking
Parameters: Entradas clave-valor en el
código
Metrics: Valores numéricos (se pueden
actualizar con el tiempo)
Artifacts: Archivos arbitrarios, incluidos
datos y modelos
Source: Código de entrenamiento que se
ejecutó
Version: Versión del código de
entrenamiento
Tags and Notes: cualquier información
adicional

29
MLflow Tracking
Tracking Server
UI
API
Tracking APIs
(REST, Python, Java, R)

30
MLflow Tracking
Tracking
Registro y consulta
experimentos:
código,
configuraciones,
resultados, ... etc
import mlflow
with mlflow.start_run():
mlflow.log_param("layers", layers)
mlflow.log_param("alpha", alpha)
# train model
mlflow.log_metric("mse", model.mse())
mlflow.log_artifact("plot", model.plot(test_df))
mlflow.tensorflow.log_model(model)

31
MLflow backend stores
1. Entity Store
• FileStore (local filesystem)
• SQLStore (via SQLAlchemy)
• REST Store
2. Artifact Repository
• S3 backed store
• Azure Blob storage
• Google Cloud storage
• DBFS artifact repo

32
Motivación de los proyectos MLflow
Diverse set of training tools
Diverse set of
environments
Resultado:
El código ML es
difícil de poner en
producción.

33
Project Spec
Code
Data
Config
Local Execution
Remote Execution
MLflow Projects
Dependencie
s

34
MLflow Projects
Formato de empaquetado para ejecuciones de ML reproducibles
Cualquier carpeta de código o repositorio de GitHub
Archivo MLproject opcional con configuración de proyecto
Define dependencias para la reproducibilidad
Las dependencias de Conda (+ R, Docker, ...) se pueden especificar en
MLproject
Reproducible en (casi) cualquier entorno
API de ejecución para ejecutar proyectos
CLI / Python / R / Java
Soporta ejecución local y remota

35
Ejemplo de proyecto MLflow
my_project/
├── MLproject
│
│
│
│
│
├── conda.yaml
├── main.py
└── model.py
...
conda_env: conda.yaml
entry_points:
main:
parameters:
training_data: path
lambda: {type: float, default: 0.1}
command: python main.py {training_data}
{lambda}
$ mlflow run git://<my_project>

36
Inference
Code
Batch & Stream
Scoring
Serving Tools
MLflow Models Motivation
ML
Frameworks

37
Model Format
Flavor 2
Flavor 1
ML
Frameworks
Inference Code
Batch & Stream
Scoring
Serving Tools
Estándar para
modelos de ML
MLflow Models

38
Modelos MLflow
Formato de empaquetado para modelos ML
Cualquier directorio con archivo Mlmodel
Define dependencias para la reproducibilidad
El entorno de Conda se puede especificar en la configuración de MLmodel
Utilidades de creación de modelos
Guardar modelos desde cualquier marco en formato MLflow
API de implementación
CLI / Python / R / Java

39
Ejemplo de modelo MLflow
my_model/
├── MLmodel
│
│
│
│
│
└ estimator/
├─ saved_model.pb
└─ variables/
...
Utilizable con Tensorflow
herramientas / APIs
Utilizable con cualquier
Python
herramienta
mlflow.tensorflow.log_model(...)
run_id: 769915006efd4c4bbd662461
time_created: 2022-06-28T12:34
flavors:
tensorflow:
saved_model_dir: estimator
signature_def_key: predict
python_function:
loader_module:
mlflow.tensorflow

40
Ejemplo de Model Flavors
Train a model
mlflow.pytorch.log_model()
Model
Format
Flavor 1:
Pyfunc
Flavor 2:
PyTorch
predict = mlflow.pyfunc.load_pyfunc(…)
predict(input_dataframe)
model = mlflow.pytorch.load_model(…)
with torch.no_grad():
model(input_tensor)
PyTorch

41
Ejemplo de Model Flavors
predict = mlflow.pyfunc.load_pyfunc(…)
predict(input_dataframe)

©Microsoft Corporation
Azure
ML Flow con Azure Synapse
Requisitos previos
Instalar bibliotecas
Seguimiento de experimentos con MLflow
Registro de modelos en el registro con MLflow
Implementación y consumo de modelos registrados en Azure
Machine Learning

Azure
Requisitos previos
•Área de trabajo y un clúster de Azure Synapse Analytics.
•Área de trabajo de Azure Machine Learning.

Azure
Instalación de bibliotecas
Archivo requirements.txt
mlflow
azureml-mlflow
azure-ai-ml

Azure
Seguimiento de experimentos con MLflow
Azure Synapse Analytics puede configurarse para realizar un
seguimiento de los experimentos con MLflow en el área de trabajo de
Azure Machine Learning.
Azure Machine Learning proporciona un repositorio centralizado para
administrar el ciclo de vida completo de los experimentos, modelos e
implementaciones.
También tiene la ventaja de habilitar una forma más sencilla para la
implementación con las opciones de implementación de Azure
Machine Learning.

Azure
Configuración de los cuadernos para usar MLflow conectado
a Azure Machine Learning
Para usar Azure Machine Learning como repositorio centralizado de los
experimentos, puede aprovechar MLflow. En cada cuaderno en el que
esté trabajando, debe configurar el URI de seguimiento para que
apunte al área de trabajo que va a usar.
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
import mlflow
ml_client = MLClient.from_config(credential=DefaultAzureCredential()
azureml_mlflow_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
mlflow.set_tracking_uri(azureml_mlflow_uri)

Azure
Registro de modelos en el registro con MLflow
Los modelos se pueden registrar en el área de trabajo de Azure
Machine Learning, que ofrece un repositorio centralizado para
administrar su ciclo de vida. En el ejemplo siguiente, se registra un
modelo entrenado con Spark MLLib y también se registra en el
registro.
mlflow.spark.log_model(model,
artifact_path = "model",
registered_model_name = "model_name")

Azure Synapse Analytics MLflow

Más contenido relacionado

Similar a Azure Synapse Analytics MLflow

Más de Eduardo Castro

Azure Synapse Analytics MLflow