SlideShare una empresa de Scribd logo
abstracta.us
Los desafíos de
calidad de software
que nos trae la GenIA
y los LLMs
Federico Toledo
federico@abstracta.us
abstracta.us
abstracta.us/blog
federico-toledo.com
About me
Cursos online de
testing de software
abstracta.us
Software Quality Conferences
Latam
abstracta.us
2. Riesgos
3. Estrategias de calidad
4. Para seguir pensando
1. Introducción a soluciones inteligentes
Agenda
abstracta.us
01.
Introducción a soluciones
inteligentes
abstracta.us
Personalización de soluciones basadas
en LLMs visto como un Sistema
Operativo
Fuente: Andrej Karpathy https://x.com/karpathy
abstracta.us
02.
Riesgos
abstracta.us
Riesgos
Expectativas de calidad
● Nivel conversacional (Alexa, Siri, Google
Assistant pasaron a ser muy simples)
● Performance / tiempos de respuesta
Poder y alcance
● No solo puede leer
● Le dimos acceso a internet y potencial de
generar y ejecutar código
● Ahora ChatGPT 4o puede escuchar y ver
Para probar en casa con ChatGPT 4o:
“A raíz de todo lo que hemos interactuado en este
tiempo. ¿Me podrías contar un poco sobre mi?”
abstracta.us
¿Sobre qué bases estamos trabajando?
● Los modelos fueron entrenados con
contenidos disponibles en internet, lo cual
refleja aspectos de la sociedad actual
● Los modelos pueden ser alterados o
recortados para intentar compensar esa
realidad o evitar uso indebido
Riesgos
abstracta.us
En qué enfocar el
análisis de riesgos
Equidad e inclusión
Accountability (responsabilidad, hacerse cargo)
● Transparencia
● Interpretabilidad
● Explicabilidad
Seguridad y privacidad
● Posibilidad de generar daños (con o sin intención)
● Gobernabilidad de datos, control de acceso
● Datos sensibles o identificatorios
abstracta.us
Sesgo
Los datos SIEMPRE tienen sesgo, en especial en AI
● Queremos un trato diferencial según la clasificación
de los datos
Modelos entrenados con datos históricos
● La historia tiene sesgo
● Los humanos tenemos sesgos
● Los datos disponibles tienen sesgo
¿Qué sesgos implican un riesgo?
● Daños por representación, estereotipos,
discriminación
● Denegación de oportunidades o desventajas
● Fallas específicas con ciertos grupos minoritarios
abstracta.us
Riesgos legales
Prohibiciones de uso de Gen AI (Política de uso de Google)
● Actividades peligrosas, ilegales o maliciosas
● Desinformar, proporcionar información engañosa o confundir a los usuarios
● Generar contenido sexual explícito
Responsabilidad y accountability en IA
● AI Principles de Google
● Microsoft Responsible AI Standard
● Responsible AI Course
Normativas locales
● GDPR
● Ley de Inteligencia Artificial Europea (EU AI act)
○ Identificar el nivel de riesgo
○ Garantizar calidad de datos de entrenamiento
○ Dar control y transparencia al usuario (avisar si algo fue generado con AI)
○ Documentación y aspectos técnicos
abstracta.us
Categorías de “síndromes”
Categorías de síndromes de comportamientos no deseados observados sistemáticamente
(por James Bach y Michael Bolton):
● Alucinación
● Falta de curiosidad
● Placación
● Indiscreción
● Desalineación
● Ofensividad
● Arrogancia
● Incorrectitud
● Caprichosidad
Fuente: https://developsense.com/large-language-model-syndromes
● Olvido
● Redundancia
● Incongruencia
● Negligencia/Pereza
● Opacidad
● Ineducabilidad
● Falta de respuesta
● Vacuidad
abstracta.us
03.
Estrategias de calidad
abstracta.us
Calidad de datos
Data pipeline para RAG
abstracta.us
Calidad de las respuestas
● Herramientas para verificar falsedad, toxicidad, etc
○ TruthfulQA https://github.com/sylinrl/TruthfulQA/tree/main
■ Adversarial testing
■ Misconceptions
○ DeepEval https://github.com/confident-ai/deepeval
■ G-Eval, hallucination, answer relevancy, RAGAS, etc
● Human in the loop
○ Combinar inteligencia artificial con inteligencia humana, en
lugar de buscar reemplazar al humano
■ Concepto de copiloto (apoya pero no es el responsable)
■ Ejemplo de sistema para reconocer recetas médicas
● Involucrar al usuario dando transparencia
○ Avisar claramente si algo fue generado con GenAI
○ RAG permite poner links a referencias
abstracta.us
Modelos y sus
debilidades desafíos
Los modelos se equivocan (alucinan, no responden ciertas preguntas, etc)
● ¿Tenemos que probar todo el modelo?
● Solo el uso en nuestro contexto y sus riesgos asociados
● Objetivo: ajustar los prompts para acondicionar el uso y mitigar riesgos
La portabilidad entre modelos no es tan directa
● El mismo prompt da diferentes resultados en diferentes modelos
● Incluso, en distintas versiones del mismo modelo
● De hecho, el mismo prompt ejecutado dos veces seguidas da distinto resultado
El testing de regresión automatizado se vuelve clave en la estrategia de calidad
● ¿Cómo automatizar algo no determinístico?
abstracta.us
● Framework de OpenAI para evaluar LLMs o tools
que usan LLMs
● Básicamente son conjuntos de pruebas
automatizadas
● Son simples de crear y no requieren código
● Cuenta con templates básicos y avanzados
Lectura recomendada:
● Decoding OpenAI Evals
Test de regresión
con Evals
abstracta.us
Test de regresión
con Evals
Basic Eval Templates
● Input_prompt
● Ideal_answers
● Se genera el output y se compara (con algún mecanismo de evaluación) con las ideal_answers
abstracta.us
Test de regresión
con Evals
Model-Graded Eval Templates
● Input_prompt
● Ideal_answers
● Se genera el output y se compara con las ideal_answers a través de otro prompt a un LLM
abstracta.us
Aspectos no
funcionales
Seguridad
● OWASP LLM Top 10
● Google's AI Red Team: the ethical hackers making AI safer
Usabilidad y accesibilidad
● Interfaces conversacionales
● Muy relevante recolectar feedback de usuarios
Performance
● Observabilidad / monitorización
abstracta.us
Observabilidad
● Al interactuar con LLMs pierdo mucho control
○ Contenido
○ Utilidad o precisión
○ Costo en dinero
○ Performance (tiempo de respuesta)
● ¿Cómo ver qué pasó?
Problema
● Métricas
○ Tiempos de respuesta
○ # tokens (costo)
○ Drift de modelos (efectividad de predicción)
○ Feedback de usuario
● Trazas
○ Prompts y respuestas
● Logs
Observabilidad
● Monitor OpenAI with Datadog
● Phoenix (open source)
Lecturas y herramientas recomendadas:
abstracta.us
Observabilidad
abstracta.us
04.
Para seguir
pensando
abstracta.us
Para seguir
pensando
● ¿Vamos a usar GenAI y LLMs para todo?
● Encontrar el balance saludable entre
fascinación y escepticismo
● Construir con GenAI, con calidad
abstracta.us
Federico Toledo
federico@abstracta.us
Gracias!
Los desafíos de
calidad de software
que nos trae la IA
y los LLMs

Más contenido relacionado

Similar a Los desafíos de calidad de software que nos trae la IA y los LLMs

16 Cast Software Solo Pruebas 2009
16 Cast Software Solo Pruebas 200916 Cast Software Solo Pruebas 2009
16 Cast Software Solo Pruebas 2009
Pepe
 
Testing de Aplicaciones Móviles, Públicas, Masivas y Críticas
Testing de Aplicaciones Móviles, Públicas, Masivas y CríticasTesting de Aplicaciones Móviles, Públicas, Masivas y Críticas
Testing de Aplicaciones Móviles, Públicas, Masivas y Críticas
Belatrix Software
 
Practico
PracticoPractico
Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
 Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe... Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
Federico Toledo
 
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
Abstracta
 
15 Upm Solo Pruebas 2009
15 Upm Solo Pruebas 200915 Upm Solo Pruebas 2009
15 Upm Solo Pruebas 2009
Pepe
 
Guia para desarrollo de software seguro
Guia para desarrollo de software seguroGuia para desarrollo de software seguro
Guia para desarrollo de software seguro
Jesus Manuel Gilbert Castro
 
PROCESOS DE DESARROLLO DE SOFTWARE_G.pptx
PROCESOS DE DESARROLLO DE SOFTWARE_G.pptxPROCESOS DE DESARROLLO DE SOFTWARE_G.pptx
PROCESOS DE DESARROLLO DE SOFTWARE_G.pptx
AlexChavezAlaniz
 
Ingeniería de software
Ingeniería de softwareIngeniería de software
Ingeniería de software
mat3matik
 
Ingeniería%20de%20 software[1], maryy
Ingeniería%20de%20 software[1], maryyIngeniería%20de%20 software[1], maryy
Ingeniería%20de%20 software[1], maryy
nelly
 
Ingeniería de software16
Ingeniería de software16Ingeniería de software16
Ingeniería de software16
Ramon
 
Ingenier%c3%ada de software
Ingenier%c3%ada de softwareIngenier%c3%ada de software
Ingenier%c3%ada de software
Marilupe
 
Clase 11
Clase 11Clase 11
Clase 11
Julieta M
 
Ingeniería de software
Ingeniería de softwareIngeniería de software
Ingeniería de software
142918
 
Ingeniería de software
Ingeniería de softwareIngeniería de software
Ingeniería de software
samantha
 
Ingen de software
Ingen de softwareIngen de software
Ingen de software
erikapoh
 
PROCESOS DE CALIDAD DE SOFTWARE
PROCESOS DE CALIDAD DE SOFTWAREPROCESOS DE CALIDAD DE SOFTWARE
PROCESOS DE CALIDAD DE SOFTWARE
Alejandro Leon
 
Procesos de calidad software
Procesos de calidad softwareProcesos de calidad software
Procesos de calidad software
Alejandro Leon
 
PROCESOS DE CALIDAD SOFTWARE
PROCESOS DE CALIDAD  SOFTWAREPROCESOS DE CALIDAD  SOFTWARE
PROCESOS DE CALIDAD SOFTWARE
Alejandro Leon
 
Calidad del Software
Calidad del SoftwareCalidad del Software
Calidad del Software
Dharma Consulting
 

Similar a Los desafíos de calidad de software que nos trae la IA y los LLMs (20)

16 Cast Software Solo Pruebas 2009
16 Cast Software Solo Pruebas 200916 Cast Software Solo Pruebas 2009
16 Cast Software Solo Pruebas 2009
 
Testing de Aplicaciones Móviles, Públicas, Masivas y Críticas
Testing de Aplicaciones Móviles, Públicas, Masivas y CríticasTesting de Aplicaciones Móviles, Públicas, Masivas y Críticas
Testing de Aplicaciones Móviles, Públicas, Masivas y Críticas
 
Practico
PracticoPractico
Practico
 
Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
 Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe... Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
 
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
 
15 Upm Solo Pruebas 2009
15 Upm Solo Pruebas 200915 Upm Solo Pruebas 2009
15 Upm Solo Pruebas 2009
 
Guia para desarrollo de software seguro
Guia para desarrollo de software seguroGuia para desarrollo de software seguro
Guia para desarrollo de software seguro
 
PROCESOS DE DESARROLLO DE SOFTWARE_G.pptx
PROCESOS DE DESARROLLO DE SOFTWARE_G.pptxPROCESOS DE DESARROLLO DE SOFTWARE_G.pptx
PROCESOS DE DESARROLLO DE SOFTWARE_G.pptx
 
Ingeniería de software
Ingeniería de softwareIngeniería de software
Ingeniería de software
 
Ingeniería%20de%20 software[1], maryy
Ingeniería%20de%20 software[1], maryyIngeniería%20de%20 software[1], maryy
Ingeniería%20de%20 software[1], maryy
 
Ingeniería de software16
Ingeniería de software16Ingeniería de software16
Ingeniería de software16
 
Ingenier%c3%ada de software
Ingenier%c3%ada de softwareIngenier%c3%ada de software
Ingenier%c3%ada de software
 
Clase 11
Clase 11Clase 11
Clase 11
 
Ingeniería de software
Ingeniería de softwareIngeniería de software
Ingeniería de software
 
Ingeniería de software
Ingeniería de softwareIngeniería de software
Ingeniería de software
 
Ingen de software
Ingen de softwareIngen de software
Ingen de software
 
PROCESOS DE CALIDAD DE SOFTWARE
PROCESOS DE CALIDAD DE SOFTWAREPROCESOS DE CALIDAD DE SOFTWARE
PROCESOS DE CALIDAD DE SOFTWARE
 
Procesos de calidad software
Procesos de calidad softwareProcesos de calidad software
Procesos de calidad software
 
PROCESOS DE CALIDAD SOFTWARE
PROCESOS DE CALIDAD  SOFTWAREPROCESOS DE CALIDAD  SOFTWARE
PROCESOS DE CALIDAD SOFTWARE
 
Calidad del Software
Calidad del SoftwareCalidad del Software
Calidad del Software
 

Más de Federico Toledo

Pasado, presente y futuro del testing en Latinoamérica
Pasado, presente y futuro del testing en  LatinoaméricaPasado, presente y futuro del testing en  Latinoamérica
Pasado, presente y futuro del testing en Latinoamérica
Federico Toledo
 
QA or the Highway - Extra-functional testing, improve how you observe the sys...
QA or the Highway - Extra-functional testing, improve how you observe the sys...QA or the Highway - Extra-functional testing, improve how you observe the sys...
QA or the Highway - Extra-functional testing, improve how you observe the sys...
Federico Toledo
 
Invitación a sponsors - Quality Sense Conf 23.pdf
Invitación a sponsors - Quality Sense Conf 23.pdfInvitación a sponsors - Quality Sense Conf 23.pdf
Invitación a sponsors - Quality Sense Conf 23.pdf
Federico Toledo
 
How do you help motivate testers?
How do you help motivate testers?How do you help motivate testers?
How do you help motivate testers?
Federico Toledo
 
Low code for test automation, state of the art
Low code for test automation, state of the artLow code for test automation, state of the art
Low code for test automation, state of the art
Federico Toledo
 
¿Qué hacer ante la falta de personal calificado en IT?
¿Qué hacer ante la falta de personal calificado en IT?¿Qué hacer ante la falta de personal calificado en IT?
¿Qué hacer ante la falta de personal calificado en IT?
Federico Toledo
 
TSQA - Improving test automation code and strategy
TSQA - Improving test automation code and strategyTSQA - Improving test automation code and strategy
TSQA - Improving test automation code and strategy
Federico Toledo
 
Comunicación Segura y Efectiva en Testing
Comunicación Segura y Efectiva en TestingComunicación Segura y Efectiva en Testing
Comunicación Segura y Efectiva en Testing
Federico Toledo
 
Testing Day Bolivia - Formar testers desde cero
Testing Day Bolivia - Formar testers desde ceroTesting Day Bolivia - Formar testers desde cero
Testing Day Bolivia - Formar testers desde cero
Federico Toledo
 
Low Code Test Automation - Jornadas de Ingeniería de Software 2021
Low Code Test Automation - Jornadas de Ingeniería de Software 2021Low Code Test Automation - Jornadas de Ingeniería de Software 2021
Low Code Test Automation - Jornadas de Ingeniería de Software 2021
Federico Toledo
 
Los errores del 2020 - Argentesting 2021
Los errores del 2020 - Argentesting 2021Los errores del 2020 - Argentesting 2021
Los errores del 2020 - Argentesting 2021
Federico Toledo
 
Shift left and shift right performance testing
Shift left and shift right performance testingShift left and shift right performance testing
Shift left and shift right performance testing
Federico Toledo
 
Ask me anything - ReconverTIte
Ask me anything - ReconverTIteAsk me anything - ReconverTIte
Ask me anything - ReconverTIte
Federico Toledo
 
Webinar: Migrar el testing a open source
Webinar: Migrar el testing a open sourceWebinar: Migrar el testing a open source
Webinar: Migrar el testing a open source
Federico Toledo
 
Webinar: Estrategias para optimizar los costos de testing
Webinar: Estrategias para optimizar los costos de testingWebinar: Estrategias para optimizar los costos de testing
Webinar: Estrategias para optimizar los costos de testing
Federico Toledo
 
Cómo revisar tu estrategia de pruebas? Meetup de QA & Testing en Chile
Cómo revisar tu estrategia de pruebas? Meetup de QA & Testing en ChileCómo revisar tu estrategia de pruebas? Meetup de QA & Testing en Chile
Cómo revisar tu estrategia de pruebas? Meetup de QA & Testing en Chile
Federico Toledo
 
Neotys PAC - Adding Performance Verifications in Continuous Delivery
Neotys PAC - Adding Performance Verifications in Continuous DeliveryNeotys PAC - Adding Performance Verifications in Continuous Delivery
Neotys PAC - Adding Performance Verifications in Continuous Delivery
Federico Toledo
 
Taller de Gestión del Tiempo para ReconverTIte
Taller de Gestión del Tiempo para ReconverTIteTaller de Gestión del Tiempo para ReconverTIte
Taller de Gestión del Tiempo para ReconverTIte
Federico Toledo
 
TestingUY 2019 - Testing en tiempos revueltos, técnicas de autogestión
TestingUY 2019 - Testing en tiempos revueltos, técnicas de autogestiónTestingUY 2019 - Testing en tiempos revueltos, técnicas de autogestión
TestingUY 2019 - Testing en tiempos revueltos, técnicas de autogestión
Federico Toledo
 
El testing como impulsor del cambio hacia una cultura DevOps
El testing como impulsor del cambio hacia una cultura DevOpsEl testing como impulsor del cambio hacia una cultura DevOps
El testing como impulsor del cambio hacia una cultura DevOps
Federico Toledo
 

Más de Federico Toledo (20)

Pasado, presente y futuro del testing en Latinoamérica
Pasado, presente y futuro del testing en  LatinoaméricaPasado, presente y futuro del testing en  Latinoamérica
Pasado, presente y futuro del testing en Latinoamérica
 
QA or the Highway - Extra-functional testing, improve how you observe the sys...
QA or the Highway - Extra-functional testing, improve how you observe the sys...QA or the Highway - Extra-functional testing, improve how you observe the sys...
QA or the Highway - Extra-functional testing, improve how you observe the sys...
 
Invitación a sponsors - Quality Sense Conf 23.pdf
Invitación a sponsors - Quality Sense Conf 23.pdfInvitación a sponsors - Quality Sense Conf 23.pdf
Invitación a sponsors - Quality Sense Conf 23.pdf
 
How do you help motivate testers?
How do you help motivate testers?How do you help motivate testers?
How do you help motivate testers?
 
Low code for test automation, state of the art
Low code for test automation, state of the artLow code for test automation, state of the art
Low code for test automation, state of the art
 
¿Qué hacer ante la falta de personal calificado en IT?
¿Qué hacer ante la falta de personal calificado en IT?¿Qué hacer ante la falta de personal calificado en IT?
¿Qué hacer ante la falta de personal calificado en IT?
 
TSQA - Improving test automation code and strategy
TSQA - Improving test automation code and strategyTSQA - Improving test automation code and strategy
TSQA - Improving test automation code and strategy
 
Comunicación Segura y Efectiva en Testing
Comunicación Segura y Efectiva en TestingComunicación Segura y Efectiva en Testing
Comunicación Segura y Efectiva en Testing
 
Testing Day Bolivia - Formar testers desde cero
Testing Day Bolivia - Formar testers desde ceroTesting Day Bolivia - Formar testers desde cero
Testing Day Bolivia - Formar testers desde cero
 
Low Code Test Automation - Jornadas de Ingeniería de Software 2021
Low Code Test Automation - Jornadas de Ingeniería de Software 2021Low Code Test Automation - Jornadas de Ingeniería de Software 2021
Low Code Test Automation - Jornadas de Ingeniería de Software 2021
 
Los errores del 2020 - Argentesting 2021
Los errores del 2020 - Argentesting 2021Los errores del 2020 - Argentesting 2021
Los errores del 2020 - Argentesting 2021
 
Shift left and shift right performance testing
Shift left and shift right performance testingShift left and shift right performance testing
Shift left and shift right performance testing
 
Ask me anything - ReconverTIte
Ask me anything - ReconverTIteAsk me anything - ReconverTIte
Ask me anything - ReconverTIte
 
Webinar: Migrar el testing a open source
Webinar: Migrar el testing a open sourceWebinar: Migrar el testing a open source
Webinar: Migrar el testing a open source
 
Webinar: Estrategias para optimizar los costos de testing
Webinar: Estrategias para optimizar los costos de testingWebinar: Estrategias para optimizar los costos de testing
Webinar: Estrategias para optimizar los costos de testing
 
Cómo revisar tu estrategia de pruebas? Meetup de QA & Testing en Chile
Cómo revisar tu estrategia de pruebas? Meetup de QA & Testing en ChileCómo revisar tu estrategia de pruebas? Meetup de QA & Testing en Chile
Cómo revisar tu estrategia de pruebas? Meetup de QA & Testing en Chile
 
Neotys PAC - Adding Performance Verifications in Continuous Delivery
Neotys PAC - Adding Performance Verifications in Continuous DeliveryNeotys PAC - Adding Performance Verifications in Continuous Delivery
Neotys PAC - Adding Performance Verifications in Continuous Delivery
 
Taller de Gestión del Tiempo para ReconverTIte
Taller de Gestión del Tiempo para ReconverTIteTaller de Gestión del Tiempo para ReconverTIte
Taller de Gestión del Tiempo para ReconverTIte
 
TestingUY 2019 - Testing en tiempos revueltos, técnicas de autogestión
TestingUY 2019 - Testing en tiempos revueltos, técnicas de autogestiónTestingUY 2019 - Testing en tiempos revueltos, técnicas de autogestión
TestingUY 2019 - Testing en tiempos revueltos, técnicas de autogestión
 
El testing como impulsor del cambio hacia una cultura DevOps
El testing como impulsor del cambio hacia una cultura DevOpsEl testing como impulsor del cambio hacia una cultura DevOps
El testing como impulsor del cambio hacia una cultura DevOps
 

Los desafíos de calidad de software que nos trae la IA y los LLMs

  • 1. abstracta.us Los desafíos de calidad de software que nos trae la GenIA y los LLMs Federico Toledo federico@abstracta.us
  • 4. abstracta.us 2. Riesgos 3. Estrategias de calidad 4. Para seguir pensando 1. Introducción a soluciones inteligentes Agenda
  • 6. abstracta.us Personalización de soluciones basadas en LLMs visto como un Sistema Operativo Fuente: Andrej Karpathy https://x.com/karpathy
  • 8. abstracta.us Riesgos Expectativas de calidad ● Nivel conversacional (Alexa, Siri, Google Assistant pasaron a ser muy simples) ● Performance / tiempos de respuesta Poder y alcance ● No solo puede leer ● Le dimos acceso a internet y potencial de generar y ejecutar código ● Ahora ChatGPT 4o puede escuchar y ver Para probar en casa con ChatGPT 4o: “A raíz de todo lo que hemos interactuado en este tiempo. ¿Me podrías contar un poco sobre mi?”
  • 9. abstracta.us ¿Sobre qué bases estamos trabajando? ● Los modelos fueron entrenados con contenidos disponibles en internet, lo cual refleja aspectos de la sociedad actual ● Los modelos pueden ser alterados o recortados para intentar compensar esa realidad o evitar uso indebido Riesgos
  • 10. abstracta.us En qué enfocar el análisis de riesgos Equidad e inclusión Accountability (responsabilidad, hacerse cargo) ● Transparencia ● Interpretabilidad ● Explicabilidad Seguridad y privacidad ● Posibilidad de generar daños (con o sin intención) ● Gobernabilidad de datos, control de acceso ● Datos sensibles o identificatorios
  • 11. abstracta.us Sesgo Los datos SIEMPRE tienen sesgo, en especial en AI ● Queremos un trato diferencial según la clasificación de los datos Modelos entrenados con datos históricos ● La historia tiene sesgo ● Los humanos tenemos sesgos ● Los datos disponibles tienen sesgo ¿Qué sesgos implican un riesgo? ● Daños por representación, estereotipos, discriminación ● Denegación de oportunidades o desventajas ● Fallas específicas con ciertos grupos minoritarios
  • 12. abstracta.us Riesgos legales Prohibiciones de uso de Gen AI (Política de uso de Google) ● Actividades peligrosas, ilegales o maliciosas ● Desinformar, proporcionar información engañosa o confundir a los usuarios ● Generar contenido sexual explícito Responsabilidad y accountability en IA ● AI Principles de Google ● Microsoft Responsible AI Standard ● Responsible AI Course Normativas locales ● GDPR ● Ley de Inteligencia Artificial Europea (EU AI act) ○ Identificar el nivel de riesgo ○ Garantizar calidad de datos de entrenamiento ○ Dar control y transparencia al usuario (avisar si algo fue generado con AI) ○ Documentación y aspectos técnicos
  • 13. abstracta.us Categorías de “síndromes” Categorías de síndromes de comportamientos no deseados observados sistemáticamente (por James Bach y Michael Bolton): ● Alucinación ● Falta de curiosidad ● Placación ● Indiscreción ● Desalineación ● Ofensividad ● Arrogancia ● Incorrectitud ● Caprichosidad Fuente: https://developsense.com/large-language-model-syndromes ● Olvido ● Redundancia ● Incongruencia ● Negligencia/Pereza ● Opacidad ● Ineducabilidad ● Falta de respuesta ● Vacuidad
  • 16. abstracta.us Calidad de las respuestas ● Herramientas para verificar falsedad, toxicidad, etc ○ TruthfulQA https://github.com/sylinrl/TruthfulQA/tree/main ■ Adversarial testing ■ Misconceptions ○ DeepEval https://github.com/confident-ai/deepeval ■ G-Eval, hallucination, answer relevancy, RAGAS, etc ● Human in the loop ○ Combinar inteligencia artificial con inteligencia humana, en lugar de buscar reemplazar al humano ■ Concepto de copiloto (apoya pero no es el responsable) ■ Ejemplo de sistema para reconocer recetas médicas ● Involucrar al usuario dando transparencia ○ Avisar claramente si algo fue generado con GenAI ○ RAG permite poner links a referencias
  • 17. abstracta.us Modelos y sus debilidades desafíos Los modelos se equivocan (alucinan, no responden ciertas preguntas, etc) ● ¿Tenemos que probar todo el modelo? ● Solo el uso en nuestro contexto y sus riesgos asociados ● Objetivo: ajustar los prompts para acondicionar el uso y mitigar riesgos La portabilidad entre modelos no es tan directa ● El mismo prompt da diferentes resultados en diferentes modelos ● Incluso, en distintas versiones del mismo modelo ● De hecho, el mismo prompt ejecutado dos veces seguidas da distinto resultado El testing de regresión automatizado se vuelve clave en la estrategia de calidad ● ¿Cómo automatizar algo no determinístico?
  • 18. abstracta.us ● Framework de OpenAI para evaluar LLMs o tools que usan LLMs ● Básicamente son conjuntos de pruebas automatizadas ● Son simples de crear y no requieren código ● Cuenta con templates básicos y avanzados Lectura recomendada: ● Decoding OpenAI Evals Test de regresión con Evals
  • 19. abstracta.us Test de regresión con Evals Basic Eval Templates ● Input_prompt ● Ideal_answers ● Se genera el output y se compara (con algún mecanismo de evaluación) con las ideal_answers
  • 20. abstracta.us Test de regresión con Evals Model-Graded Eval Templates ● Input_prompt ● Ideal_answers ● Se genera el output y se compara con las ideal_answers a través de otro prompt a un LLM
  • 21. abstracta.us Aspectos no funcionales Seguridad ● OWASP LLM Top 10 ● Google's AI Red Team: the ethical hackers making AI safer Usabilidad y accesibilidad ● Interfaces conversacionales ● Muy relevante recolectar feedback de usuarios Performance ● Observabilidad / monitorización
  • 22. abstracta.us Observabilidad ● Al interactuar con LLMs pierdo mucho control ○ Contenido ○ Utilidad o precisión ○ Costo en dinero ○ Performance (tiempo de respuesta) ● ¿Cómo ver qué pasó? Problema ● Métricas ○ Tiempos de respuesta ○ # tokens (costo) ○ Drift de modelos (efectividad de predicción) ○ Feedback de usuario ● Trazas ○ Prompts y respuestas ● Logs Observabilidad ● Monitor OpenAI with Datadog ● Phoenix (open source) Lecturas y herramientas recomendadas:
  • 25. abstracta.us Para seguir pensando ● ¿Vamos a usar GenAI y LLMs para todo? ● Encontrar el balance saludable entre fascinación y escepticismo ● Construir con GenAI, con calidad
  • 26. abstracta.us Federico Toledo federico@abstracta.us Gracias! Los desafíos de calidad de software que nos trae la IA y los LLMs