5. Problema
Investigación requiere:
- Corpus exhaustivo (todos los documentos
que se han producido)
- Estructuración de los resultados en una base
de datos que responda a queries específicas
6. ¿Solución?
¿Focused crawling?
- URL semilla
- Relevantes keywords
(Vectores de términos)
- Definición de la frontera
- Clasificación basada en relevancia
- Extracción de nuevas URLs
- Recuperación y almacenaje de datos
- Indización
8. Estructuración
de base de datos indizados
- Definición de atributos
- Datasets Entrenamiento / Validación
- Clasificación
- Generación de algoritmo para clustering
- Modelos