Probando aplicaciones basadas en LLMs.pdf

abstracta.us
Testing de
aplicaciones basadas
en LLMs
Federico Toledo
federico@abstracta.us

abstracta.us
abstracta.us/blog
federico-toledo.com
About me

Mabl
/ USA
#QSConf2023
+20 November 9th & 10th
2 SPEAKERS TRACKS | ONLINE + IN PERSON
International thought
leaders
Free for attendees!
Call for Sponsors is open
Call for Speakers opens soon

abstracta.us
02. Enfoques de testing aplicables
03. Test de regresión y observabilidad
04. Conclusiones y desafíos
Agenda
01. Apps que usan LLMs

abstracta.us
01.
Apps que usan LLMs

abstracta.us
● Inteligencia Artiﬁcial Generativa
● ChatGPT
○ Creado por OpenAI
○ Ecosistema con Whisper, Dall-e, etc
Large Language Models

abstracta.us
Modo conversacional
● https://chat.openai.com/
● Permite conservar contexto
ChatGPT

abstracta.us
Provee una API para integrar ChatGPT en tus sistemas.
ChatGPT
Sistema bajo pruebas
1. Obtiene información contextual
2. Invoca prompt
3. Obtiene respuesta, procesa y presenta

abstracta.us
Importante:
Esto cambió recientemente,
hay posibilidad de que la API
mantenga threads de
conversación y contexto.
ChatGPT
Provee una API para integrar ChatGPT en tus sistemas.
Importante:
La API no tiene memoria del
contexto, el programador
debe gestionarlo.

abstracta.us
Ayuda a tener respuestas más determinísticas
Si se envía, el sistema hará lo posible para generar la misma
respuesta ante la misma pregunta y los mismos parámetros
La respuesta retorna system_ﬁngerprint. Sirve para detectar
cambios en el modelo junto con el parámetro seed
Aún en beta
Seed

abstracta.us
Máximo de tokens (parámetro max_tokens)
● Se suman los tokens del prompt y de la respuesta.
● En el chat, también cuentan los tokens de toda la
conversación.
● Reducir el máximo controla costos pero puede
truncar respuestas.
Tokenizing:
● El texto dado a ChatGPT se divide en tokens.
● Por ejemplo, "ChatGPT es mágico!" se divide en
estos tokens:
● Tokenizer: https://platform.openai.com/tokenizer
Tokens

abstracta.us
● https://home.testcraft.app/
● https://github.com/TestCraft-App
● https://twitter.com/TestCraftApp
Funcionalidades
● Test ideas
● Test automation
● Accessibility
Caso de estudio:
TestCraft

abstracta.us
Caso de estudio:
TestCraft

abstracta.us
02.
Enfoques de
testing aplicables

abstracta.us
Enfoques de
Caja Negra

abstracta.us
Foco en distintos
Factores de calidad
Enfoques de Caja Negra

abstracta.us
Foco en distintos
Factores de calidad
Mantenibilidad
● ¿Cómo estamos estructurando esos prompts?
¿Son legibles y fáciles de entender?
● ¿Se están versionando los prompts junto con el
código?
● ¿Qué tanto tuvimos que ajustar al pasar de
gpt-3 a gpt-4?

abstracta.us
Performance y ﬁabilidad
● ¿Qué pasa si el servicio de OpenAI está caído o anda lento?
● ¿Qué tan rápido puedo llegar a consultarlo? ¿Hay algún tope
de requests por segundo?
Seguridad
● ¿Estamos enviando datos sensibles?
● ¿Podría llegar a sugerir contenido indebido?
● ¿La aplicación se protege de prompt injection?
Foco en distintos
Factores de calidad

abstracta.us
Prompt Injection
Ataque ganando control sobre el output del texto
generado por ChatGPT
● Goal hijacking
● Prompt leaking
Sucede cuando el input del usuario se concatena
directo al prompt

abstracta.us
Heurísticas
y técnicas de pruebas
in stock
State
checked out
State
checked in
State
lost
State
check out
remind
check in
write off

abstracta.us
● Mindmaps
● Partición de equivalencias y valores límite
● Combinación por pares
● Tablas y árboles de decisión
● Matrices de prueba
● Máquinas de estado
● Grafos causa-efecto
● SFDIPOT
● FEW HICCUPPS
● …
Lectura recomendada:
https://federico-toledo.com/
Heurísticas y técnicas
de pruebas
Desafío:
● El valor esperado no es predecible

abstracta.us
Análisis de calidad
sobre el texto

abstracta.us
¿Cuáles son las características deseadas de la
respuesta obtenida?
● Coherencia
● Completitud
● Consistencia
● Fiabilidad
● Relevancia / Valor
● Originalidad / Creatividad
● Claridad, no ambigüedad
● Adecuación - no usar lenguaje inapropiado
● Respuesta concisa - que no sean 10 páginas
● Alineación al objetivo (¿realmente es útil?)
Calidad de texto

abstracta.us
Enfoques de
Caja Blanca

abstracta.us
Enfoques de Caja Blanca
Pruebas estáticas
y unitarias al prompt

abstracta.us
● ¿Es tarea de testing?
● Análisis estático del prompt
● Probar variantes
○ ¿Cómo saber si encontramos una versión mejor, de mejor
calidad?
Revisar y probar el prompt

abstracta.us
● No es lo mismo probar el prompt en la web de ChatGPT que
por la API.
● Es importante probar contra la misma versión del modelo.
● Hay que tener en cuenta los parámetros usados (por ejemplo,
temperatura, máximo de tokens).
● Herramientas
○ Playground: https://platform.openai.com/playground
○ Postman
○ Scripts propios
Consideraciones al probar prompts

abstracta.us
● Revisión y experimentación con el prompt
● Revisar el código mirando:
○ ¿Cómo se procesan las entradas?
○ ¿Cómo se confecciona el prompt?
○ ¿Qué parámetros se están usando? (temperatura, max tokens, etc)
○ ¿Cómo se procesa la respuesta de ChatGPT?
Revisión de código
Análisis de in/out

abstracta.us
Enfoques de Caja Blanca
Pruebas de
integración

abstracta.us
Mock del servicio de OpenAI
● Mecanismo que nos permitirá probar distintas
respuestas o situaciones.
● Servicio caído
● Mensajes de error (ver documentación de error
codes).
● Casos borde (respuesta vacía, respuesta con
máximo de tokens, o con más del máximo por si
este cambiase a futuro).
● ¿Cómo se implementa?
● SoapUI service mocking
● WireMock
● Es importante que el sistema permita conﬁgurar la URL
del endpoint usado.
Pruebas de integración

abstracta.us
03.
Testing de regresión y
Observabilidad

abstracta.us
● Problema
○ Al querer actualizar el modelo (de gpt 3.5 a 4) o si encuentro un
error que me hace cambiar el prompt, ese ajuste me puede afectar
el resto de componentes.
○ ¿Cómo validar que no hay regresiones?
○ ¿Cómo automatizar ese test de regresión?
Test de regresión

abstracta.us
● Framework de OpenAI para evaluar LLMs o tools que usan LLMs
● Basicamente son test sets!
● Son simples de crear y no requieren código
● Incluye un registro open-source de evals desaﬁantes
● Cuenta con templates básicos y avanzados (usando otro prompt)
● Decoding OpenAI Evals
Test de regresión con Evals

abstracta.us
Basic Eval Templates
● Input_prompt
● Ideal_answers
● Se genera el output y se compara (con algún mecanismo de evaluación) con las ideal_answers

abstracta.us
Model-Graded Eval Templates
● Input_prompt
● Ideal_answers
● Se genera el output y se compara con las ideal_answers a través de otro prompt a un LLM

abstracta.us
● Problema
○ Al interactuar con ChatGPT pierdo control de la respuesta que se
da. No tengo control por el contenido, la utilidad o precisión, ni el
costo ni la performance.
○ ¿Cómo ver qué pasó?
Observabilidad
● Observabilidad
○ Métricas
○ Trazas
○ Logs
○ Monitor OpenAI with Datadog

abstracta.us
04.
Conclusiones y desafíos

abstracta.us
● Chatbots
● Sistemas que usan un LLM como servicio
● Sistemas que usan una cadena de AIs y servicios
● Sistemas copilotos
● Interfaces conversacionales
Testing con mayor foco en preparación de datos y
revisión de resultados no determinísticos
La observabilidad del sistema bajo pruebas va a ser
clave
¿Cómo serán los sistemas que
vamos a probar en los próximos
años?
Sistema bajo
pruebas

abstracta.us
Testing de
aplicaciones basadas
en LLMs
Federico Toledo
federico@abstracta.us
¡Gracias!

Probando aplicaciones basadas en LLMs.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a Probando aplicaciones basadas en LLMs.pdf

Similar a Probando aplicaciones basadas en LLMs.pdf (20)

Más de Federico Toledo

Más de Federico Toledo (20)

Último

Último (19)

Probando aplicaciones basadas en LLMs.pdf