- Visión preliminar: detección de objetos simples, colores, formas.
- No se busca reconocimiento completo.
- Se asumen condiciones controladas (iluminación, fondo, etc).
- Se aprovecha el hardware de los dispositivos móviles.
- Se usan redes neuronales convolucionales entrenadas.
- Reconocimiento en tiempo real para interacción conversacional.
- No se busca comprensión completa de la escena.
- Robustez frente a condiciones no ideales.
- Privacidad de