SlideShare una empresa de Scribd logo
1 de 13
Indexación automática de documentos
técnicos.

Gabriel Berlicki
Administrador de Datos
División de Modernización de Infraestructuras
Procedimiento actual de marcado de
capítulos en solicitudes de patente
 Normalmente el procedimiento se realiza manualmente
 durante la etapa de carga de las imágenes o durante la
 validación de las mismas.
 Si bien es un procedimiento relativamente rápido, el
 consenso general de los usuarios es que:
       ES ABURRIDO y un usuario que se aburre no es
       bueno(errores, retrasos, etc.)

                        etc =



 Y normalmente no es un procedimiento particularmente
 barato.
Cont.

 Particularmente en el caso de los proyectos de
 digitalización en curso, el uso de marcadores eleva los
 costos dado la necesidad de contar con personal
 experimentado y entrenado.

 No es solamente escanear los documentos, es
 necesario interpretarlos, lo cual hace que las empresas
 con menor experiencia (de costo mas bajo) no se
 presentan o no pueden cumplir con los requisitos
Que tan bien esta pensada la digitalización?
   El tema es que el personal de las empresas
   normalmente no son del ambiente de IP, y normalmente
   cometen errores por mas tiempo que dedique la oficina
   para entrenarlos al inicio del proyecto.
   Dichos errores pueden acarrear costos adicionales si no
   son detectados a tiempo(o sea durante el tiempo del
   contrato), se puede dar por finalizado un proyecto y lo
   entregado no cumple con las especificaciones normales.
   Si no se controla el producto de la empresa el resultado
   de la digitalización puede ser totalmente inusable (no
   solo el tema de los marcadores, resolución no
   adecuada, documentos no digitalizados por completo,
   etc.).
Vale la pena invertir en marcado manual?

   Depende de la magnitud del proyecto, de la experiencia
   de la empresa.
   Y particularmente de los recursos que se tengan
   Pero en principio para la magnitud de los proyectos de
   digitalización de archivos históricos, es un costo
   adicional que debería evitarse.
Evitarse si, pero como?

 En principio para ingles, español y portugués existen
 herramientas gratuitas para realizar OCR(ej: Tesseract-
 Google).
 Que a partir de imágenes escaneadas pueden producir
 un texto, con una calidad suficiente como para ser
 evaluado posteriormente para realizar la indexación
 automática.
Evaluado pero como?

  Al fin y al cabo los documentos técnicos de patentes
  son muy estructurados.
  Los solicitantes siempre nos hacen el favor de incluir
  palabras especiales en las diferentes secciones
  No es raro encontrar que el capítulo reivindicatorio
  comienza con el titulo: Reivindicaciones….
  Y normalmente en esa misma página aparecen
  palabras muy particulares, "caracterizado por",
  “reivindicación” ( al comienzo de una línea), y otros
  similares.
Desventajas

 El procedimiento depende mucho de la calidad de la
 imagen.
 Si la misma es muy mala, cometerá errores.
 El tema es que si la imagen es muy mala, la
 digitalización se hizo mal.
 Por lo que seria preferible gastar en la mejora de la
 imagen, antes que tener un documento perfectamente
 indexado pero totalmente ilegible.
Antecedentes

 Documentos antiguos del INPI De Brasil, no indexados
 pero de buena calidad.

 Digitalización del INPI de Argentina, implementación de
 método para validación de las imágenes y su indexación
 realizada por la empresa externa.
DEMO
Por que recién ahora?

 Calidad de OCR gratuitos alta
 Servidores de alta performance utilizados para
 digitalización con capacidad subutilizada( y a costos
 bajos en comparación con hace un par de años)
 No hubo la necesidad de hacerlo(costos de digitalización
 relativamente bajos para países desarrollados)
 Costos de digitalización en Latinoamérica altos respecto
 a otros lugares del mundo (mano de obra en Asia muy
 barata)
Futuro.
 Integración de aplicación en la versión final de Wiposcan
 2.0
 Brindando servicios de pre- indexación (inmediatamente
 de cargada la solicitud en el manejados de
 documentos). Los marcadores “podrán" ser validados
 por el usuario encargado del control de calidad del
 documento.
 En caso de continuación de proyectos de digitalización y
 durante la etapa de validación de la resolución de las
 imágenes, se implementaría para validar la calidad
 precisa de la imagen indexada (por empresa) o a
 indexar (por la aplicación).
Cont.

 La gran diferencia aquí es que seria posible controlar el
 100% de las imágenes, no solamente el margen que se
 fija actualmente (Argentina 3%)
 Posibilidades de extensión a otros lenguajes. Para
 lenguajes asiáticos se necesitaría un motor de OCR
 compatible con mas lenguajes o ver las posibilidades de
 generar mas diccionarios de lenguajes para tesseract.
 El tema es que el costo de indexación manual en Asia
 es muy bajo. Aunque no es claro como se evalúa la
 calidad de lo entregado por las empresas....

Más contenido relacionado

Similar a Gb indexacion automatica

Pressman capitulo 15
Pressman capitulo 15Pressman capitulo 15
Pressman capitulo 15supito01
 
Portafolio de Introducción a la Gerencia de Proyectos.
Portafolio de Introducción a la Gerencia de Proyectos.Portafolio de Introducción a la Gerencia de Proyectos.
Portafolio de Introducción a la Gerencia de Proyectos.Raynilda Ortega Calcaño
 
Alta automatización de pruebas de calidad de software, cambio de paradigmas
Alta automatización de pruebas de calidad de software, cambio de paradigmasAlta automatización de pruebas de calidad de software, cambio de paradigmas
Alta automatización de pruebas de calidad de software, cambio de paradigmasSoftware Guru
 
Examen del segundo bimestre de computacion
Examen del segundo bimestre de computacionExamen del segundo bimestre de computacion
Examen del segundo bimestre de computacionJairo Salazar
 
Trabajo de investigacion gestion documental
Trabajo de investigacion gestion documental Trabajo de investigacion gestion documental
Trabajo de investigacion gestion documental Csosa3122
 
A1 modelado de los requerimientos de un sistema de informacion
A1   modelado de los requerimientos de un sistema de informacionA1   modelado de los requerimientos de un sistema de informacion
A1 modelado de los requerimientos de un sistema de informacionmariopino129
 
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)Ricardo Devis
 

Similar a Gb indexacion automatica (20)

proceso de e-commerce
proceso de e-commerceproceso de e-commerce
proceso de e-commerce
 
titulo de pdf
titulo de pdftitulo de pdf
titulo de pdf
 
Pressman capitulo 15
Pressman capitulo 15Pressman capitulo 15
Pressman capitulo 15
 
Transformación Digital
Transformación DigitalTransformación Digital
Transformación Digital
 
Mitos del software
Mitos del softwareMitos del software
Mitos del software
 
Portafolio de Introducción a la Gerencia de Proyectos.
Portafolio de Introducción a la Gerencia de Proyectos.Portafolio de Introducción a la Gerencia de Proyectos.
Portafolio de Introducción a la Gerencia de Proyectos.
 
Presentacion casos-de-uso
Presentacion casos-de-usoPresentacion casos-de-uso
Presentacion casos-de-uso
 
Alta automatización de pruebas de calidad de software, cambio de paradigmas
Alta automatización de pruebas de calidad de software, cambio de paradigmasAlta automatización de pruebas de calidad de software, cambio de paradigmas
Alta automatización de pruebas de calidad de software, cambio de paradigmas
 
Mitos de-software
Mitos de-softwareMitos de-software
Mitos de-software
 
Mitos de-software.
Mitos de-software.Mitos de-software.
Mitos de-software.
 
Mitos de software.
Mitos de software.Mitos de software.
Mitos de software.
 
Transicionkanban
TransicionkanbanTransicionkanban
Transicionkanban
 
Examen del segundo bimestre de computacion
Examen del segundo bimestre de computacionExamen del segundo bimestre de computacion
Examen del segundo bimestre de computacion
 
Jairo Salazar
Jairo SalazarJairo Salazar
Jairo Salazar
 
Trabajo de investigacion gestion documental
Trabajo de investigacion gestion documental Trabajo de investigacion gestion documental
Trabajo de investigacion gestion documental
 
A1 modelado de los requerimientos de un sistema de informacion
A1   modelado de los requerimientos de un sistema de informacionA1   modelado de los requerimientos de un sistema de informacion
A1 modelado de los requerimientos de un sistema de informacion
 
Software para digitar
Software para digitarSoftware para digitar
Software para digitar
 
Software para digitar
Software para digitarSoftware para digitar
Software para digitar
 
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
 
Proceso desarrollo software
Proceso desarrollo softwareProceso desarrollo software
Proceso desarrollo software
 

Más de LATIPAT

Ftp data exchange-mechanism
Ftp data exchange-mechanismFtp data exchange-mechanism
Ftp data exchange-mechanismLATIPAT
 
Citation data flow 2012 nat latipat
Citation data flow 2012 nat latipatCitation data flow 2012 nat latipat
Citation data flow 2012 nat latipatLATIPAT
 
2012 11 latipat-cpc_epo
2012 11 latipat-cpc_epo2012 11 latipat-cpc_epo
2012 11 latipat-cpc_epoLATIPAT
 
2012 11 latipat-ccd_epo
2012 11 latipat-ccd_epo2012 11 latipat-ccd_epo
2012 11 latipat-ccd_epoLATIPAT
 
03 patent families latipat the powerpoint
03 patent families latipat   the powerpoint03 patent families latipat   the powerpoint
03 patent families latipat the powerpointLATIPAT
 
E pec colombia todorov
E pec colombia todorovE pec colombia todorov
E pec colombia todorovLATIPAT
 
Legal status at the epo latipat
Legal status at the epo latipatLegal status at the epo latipat
Legal status at the epo latipatLATIPAT
 
Servicios de información y fuentes latest developments sept_2011
Servicios de información y fuentes latest developments sept_2011Servicios de información y fuentes latest developments sept_2011
Servicios de información y fuentes latest developments sept_2011LATIPAT
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rioLATIPAT
 
Gb wipoq@s
Gb wipoq@sGb wipoq@s
Gb wipoq@sLATIPAT
 
Intercambio electrónico 2011
Intercambio electrónico 2011Intercambio electrónico 2011
Intercambio electrónico 2011LATIPAT
 
Estadistica acceso latipat
Estadistica acceso latipatEstadistica acceso latipat
Estadistica acceso latipatLATIPAT
 
Co complemento situacion-actual
Co   complemento situacion-actualCo   complemento situacion-actual
Co complemento situacion-actualLATIPAT
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rioLATIPAT
 
Epo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesEpo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesLATIPAT
 
Presentation vm latipat2011 ver 3
Presentation vm latipat2011 ver 3Presentation vm latipat2011 ver 3
Presentation vm latipat2011 ver 3LATIPAT
 
Papel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arPapel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arLATIPAT
 
Epo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesEpo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesLATIPAT
 
Papel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arPapel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arLATIPAT
 

Más de LATIPAT (20)

Ftp data exchange-mechanism
Ftp data exchange-mechanismFtp data exchange-mechanism
Ftp data exchange-mechanism
 
Citation data flow 2012 nat latipat
Citation data flow 2012 nat latipatCitation data flow 2012 nat latipat
Citation data flow 2012 nat latipat
 
2012 11 latipat-cpc_epo
2012 11 latipat-cpc_epo2012 11 latipat-cpc_epo
2012 11 latipat-cpc_epo
 
2012 11 latipat-ccd_epo
2012 11 latipat-ccd_epo2012 11 latipat-ccd_epo
2012 11 latipat-ccd_epo
 
03 patent families latipat the powerpoint
03 patent families latipat   the powerpoint03 patent families latipat   the powerpoint
03 patent families latipat the powerpoint
 
E pec colombia todorov
E pec colombia todorovE pec colombia todorov
E pec colombia todorov
 
Legal status at the epo latipat
Legal status at the epo latipatLegal status at the epo latipat
Legal status at the epo latipat
 
Servicios de información y fuentes latest developments sept_2011
Servicios de información y fuentes latest developments sept_2011Servicios de información y fuentes latest developments sept_2011
Servicios de información y fuentes latest developments sept_2011
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rio
 
Gb wipoq@s
Gb wipoq@sGb wipoq@s
Gb wipoq@s
 
Logo
LogoLogo
Logo
 
Intercambio electrónico 2011
Intercambio electrónico 2011Intercambio electrónico 2011
Intercambio electrónico 2011
 
Estadistica acceso latipat
Estadistica acceso latipatEstadistica acceso latipat
Estadistica acceso latipat
 
Co complemento situacion-actual
Co   complemento situacion-actualCo   complemento situacion-actual
Co complemento situacion-actual
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rio
 
Epo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesEpo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniques
 
Presentation vm latipat2011 ver 3
Presentation vm latipat2011 ver 3Presentation vm latipat2011 ver 3
Presentation vm latipat2011 ver 3
 
Papel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arPapel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_ar
 
Epo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesEpo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniques
 
Papel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arPapel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_ar
 

Último

Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialpatriciaines1993
 
Mapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdfMapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdfvictorbeltuce
 
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfTarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfManuel Molina
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALEDUCCUniversidadCatl
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 
CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docxAgustinaNuez21
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfAlfredoRamirez953210
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfromanmillans
 
periodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicasperiodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicas123yudy
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIAAbelardoVelaAlbrecht1
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.José Luis Palma
 
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxOscarEduardoSanchezC
 

Último (20)

Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundial
 
Mapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdfMapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdf
 
PPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptxPPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptx
 
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfTarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 
CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docx
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdf
 
periodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicasperiodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicas
 
Unidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDIUnidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDI
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.
 
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
 

Gb indexacion automatica

  • 1. Indexación automática de documentos técnicos. Gabriel Berlicki Administrador de Datos División de Modernización de Infraestructuras
  • 2. Procedimiento actual de marcado de capítulos en solicitudes de patente Normalmente el procedimiento se realiza manualmente durante la etapa de carga de las imágenes o durante la validación de las mismas. Si bien es un procedimiento relativamente rápido, el consenso general de los usuarios es que: ES ABURRIDO y un usuario que se aburre no es bueno(errores, retrasos, etc.) etc = Y normalmente no es un procedimiento particularmente barato.
  • 3. Cont. Particularmente en el caso de los proyectos de digitalización en curso, el uso de marcadores eleva los costos dado la necesidad de contar con personal experimentado y entrenado. No es solamente escanear los documentos, es necesario interpretarlos, lo cual hace que las empresas con menor experiencia (de costo mas bajo) no se presentan o no pueden cumplir con los requisitos
  • 4. Que tan bien esta pensada la digitalización? El tema es que el personal de las empresas normalmente no son del ambiente de IP, y normalmente cometen errores por mas tiempo que dedique la oficina para entrenarlos al inicio del proyecto. Dichos errores pueden acarrear costos adicionales si no son detectados a tiempo(o sea durante el tiempo del contrato), se puede dar por finalizado un proyecto y lo entregado no cumple con las especificaciones normales. Si no se controla el producto de la empresa el resultado de la digitalización puede ser totalmente inusable (no solo el tema de los marcadores, resolución no adecuada, documentos no digitalizados por completo, etc.).
  • 5. Vale la pena invertir en marcado manual? Depende de la magnitud del proyecto, de la experiencia de la empresa. Y particularmente de los recursos que se tengan Pero en principio para la magnitud de los proyectos de digitalización de archivos históricos, es un costo adicional que debería evitarse.
  • 6. Evitarse si, pero como? En principio para ingles, español y portugués existen herramientas gratuitas para realizar OCR(ej: Tesseract- Google). Que a partir de imágenes escaneadas pueden producir un texto, con una calidad suficiente como para ser evaluado posteriormente para realizar la indexación automática.
  • 7. Evaluado pero como? Al fin y al cabo los documentos técnicos de patentes son muy estructurados. Los solicitantes siempre nos hacen el favor de incluir palabras especiales en las diferentes secciones No es raro encontrar que el capítulo reivindicatorio comienza con el titulo: Reivindicaciones…. Y normalmente en esa misma página aparecen palabras muy particulares, "caracterizado por", “reivindicación” ( al comienzo de una línea), y otros similares.
  • 8. Desventajas El procedimiento depende mucho de la calidad de la imagen. Si la misma es muy mala, cometerá errores. El tema es que si la imagen es muy mala, la digitalización se hizo mal. Por lo que seria preferible gastar en la mejora de la imagen, antes que tener un documento perfectamente indexado pero totalmente ilegible.
  • 9. Antecedentes Documentos antiguos del INPI De Brasil, no indexados pero de buena calidad. Digitalización del INPI de Argentina, implementación de método para validación de las imágenes y su indexación realizada por la empresa externa.
  • 10. DEMO
  • 11. Por que recién ahora? Calidad de OCR gratuitos alta Servidores de alta performance utilizados para digitalización con capacidad subutilizada( y a costos bajos en comparación con hace un par de años) No hubo la necesidad de hacerlo(costos de digitalización relativamente bajos para países desarrollados) Costos de digitalización en Latinoamérica altos respecto a otros lugares del mundo (mano de obra en Asia muy barata)
  • 12. Futuro. Integración de aplicación en la versión final de Wiposcan 2.0 Brindando servicios de pre- indexación (inmediatamente de cargada la solicitud en el manejados de documentos). Los marcadores “podrán" ser validados por el usuario encargado del control de calidad del documento. En caso de continuación de proyectos de digitalización y durante la etapa de validación de la resolución de las imágenes, se implementaría para validar la calidad precisa de la imagen indexada (por empresa) o a indexar (por la aplicación).
  • 13. Cont. La gran diferencia aquí es que seria posible controlar el 100% de las imágenes, no solamente el margen que se fija actualmente (Argentina 3%) Posibilidades de extensión a otros lenguajes. Para lenguajes asiáticos se necesitaría un motor de OCR compatible con mas lenguajes o ver las posibilidades de generar mas diccionarios de lenguajes para tesseract. El tema es que el costo de indexación manual en Asia es muy bajo. Aunque no es claro como se evalúa la calidad de lo entregado por las empresas....