Este documento describe un método propuesto para indexar automáticamente documentos técnicos como solicitudes de patentes mediante el uso de herramientas de reconocimiento óptico de caracteres (OCR). Actualmente, la indexación se realiza manualmente, lo que es costoso y propenso a errores. El método propuesto utilizaría OCR para convertir imágenes escaneadas en texto, que luego se indexaría automáticamente detectando palabras clave en secciones estructuradas como las reivindicaciones. Esto podría reducir costos en la digitalización de archivos, aunque
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
Gb indexacion automatica
1. Indexación automática de documentos
técnicos.
Gabriel Berlicki
Administrador de Datos
División de Modernización de Infraestructuras
2. Procedimiento actual de marcado de
capítulos en solicitudes de patente
Normalmente el procedimiento se realiza manualmente
durante la etapa de carga de las imágenes o durante la
validación de las mismas.
Si bien es un procedimiento relativamente rápido, el
consenso general de los usuarios es que:
ES ABURRIDO y un usuario que se aburre no es
bueno(errores, retrasos, etc.)
etc =
Y normalmente no es un procedimiento particularmente
barato.
3. Cont.
Particularmente en el caso de los proyectos de
digitalización en curso, el uso de marcadores eleva los
costos dado la necesidad de contar con personal
experimentado y entrenado.
No es solamente escanear los documentos, es
necesario interpretarlos, lo cual hace que las empresas
con menor experiencia (de costo mas bajo) no se
presentan o no pueden cumplir con los requisitos
4. Que tan bien esta pensada la digitalización?
El tema es que el personal de las empresas
normalmente no son del ambiente de IP, y normalmente
cometen errores por mas tiempo que dedique la oficina
para entrenarlos al inicio del proyecto.
Dichos errores pueden acarrear costos adicionales si no
son detectados a tiempo(o sea durante el tiempo del
contrato), se puede dar por finalizado un proyecto y lo
entregado no cumple con las especificaciones normales.
Si no se controla el producto de la empresa el resultado
de la digitalización puede ser totalmente inusable (no
solo el tema de los marcadores, resolución no
adecuada, documentos no digitalizados por completo,
etc.).
5. Vale la pena invertir en marcado manual?
Depende de la magnitud del proyecto, de la experiencia
de la empresa.
Y particularmente de los recursos que se tengan
Pero en principio para la magnitud de los proyectos de
digitalización de archivos históricos, es un costo
adicional que debería evitarse.
6. Evitarse si, pero como?
En principio para ingles, español y portugués existen
herramientas gratuitas para realizar OCR(ej: Tesseract-
Google).
Que a partir de imágenes escaneadas pueden producir
un texto, con una calidad suficiente como para ser
evaluado posteriormente para realizar la indexación
automática.
7. Evaluado pero como?
Al fin y al cabo los documentos técnicos de patentes
son muy estructurados.
Los solicitantes siempre nos hacen el favor de incluir
palabras especiales en las diferentes secciones
No es raro encontrar que el capítulo reivindicatorio
comienza con el titulo: Reivindicaciones….
Y normalmente en esa misma página aparecen
palabras muy particulares, "caracterizado por",
“reivindicación” ( al comienzo de una línea), y otros
similares.
8. Desventajas
El procedimiento depende mucho de la calidad de la
imagen.
Si la misma es muy mala, cometerá errores.
El tema es que si la imagen es muy mala, la
digitalización se hizo mal.
Por lo que seria preferible gastar en la mejora de la
imagen, antes que tener un documento perfectamente
indexado pero totalmente ilegible.
9. Antecedentes
Documentos antiguos del INPI De Brasil, no indexados
pero de buena calidad.
Digitalización del INPI de Argentina, implementación de
método para validación de las imágenes y su indexación
realizada por la empresa externa.
11. Por que recién ahora?
Calidad de OCR gratuitos alta
Servidores de alta performance utilizados para
digitalización con capacidad subutilizada( y a costos
bajos en comparación con hace un par de años)
No hubo la necesidad de hacerlo(costos de digitalización
relativamente bajos para países desarrollados)
Costos de digitalización en Latinoamérica altos respecto
a otros lugares del mundo (mano de obra en Asia muy
barata)
12. Futuro.
Integración de aplicación en la versión final de Wiposcan
2.0
Brindando servicios de pre- indexación (inmediatamente
de cargada la solicitud en el manejados de
documentos). Los marcadores “podrán" ser validados
por el usuario encargado del control de calidad del
documento.
En caso de continuación de proyectos de digitalización y
durante la etapa de validación de la resolución de las
imágenes, se implementaría para validar la calidad
precisa de la imagen indexada (por empresa) o a
indexar (por la aplicación).
13. Cont.
La gran diferencia aquí es que seria posible controlar el
100% de las imágenes, no solamente el margen que se
fija actualmente (Argentina 3%)
Posibilidades de extensión a otros lenguajes. Para
lenguajes asiáticos se necesitaría un motor de OCR
compatible con mas lenguajes o ver las posibilidades de
generar mas diccionarios de lenguajes para tesseract.
El tema es que el costo de indexación manual en Asia
es muy bajo. Aunque no es claro como se evalúa la
calidad de lo entregado por las empresas....