SlideShare una empresa de Scribd logo
Indexación automática de documentos
técnicos.

Gabriel Berlicki
Administrador de Datos
División de Modernización de Infraestructuras
Procedimiento actual de marcado de
capítulos en solicitudes de patente
 Normalmente el procedimiento se realiza manualmente
 durante la etapa de carga de las imágenes o durante la
 validación de las mismas.
 Si bien es un procedimiento relativamente rápido, el
 consenso general de los usuarios es que:
       ES ABURRIDO y un usuario que se aburre no es
       bueno(errores, retrasos, etc.)

                        etc =



 Y normalmente no es un procedimiento particularmente
 barato.
Cont.

 Particularmente en el caso de los proyectos de
 digitalización en curso, el uso de marcadores eleva los
 costos dado la necesidad de contar con personal
 experimentado y entrenado.

 No es solamente escanear los documentos, es
 necesario interpretarlos, lo cual hace que las empresas
 con menor experiencia (de costo mas bajo) no se
 presentan o no pueden cumplir con los requisitos
Que tan bien esta pensada la digitalización?
   El tema es que el personal de las empresas
   normalmente no son del ambiente de IP, y normalmente
   cometen errores por mas tiempo que dedique la oficina
   para entrenarlos al inicio del proyecto.
   Dichos errores pueden acarrear costos adicionales si no
   son detectados a tiempo(o sea durante el tiempo del
   contrato), se puede dar por finalizado un proyecto y lo
   entregado no cumple con las especificaciones normales.
   Si no se controla el producto de la empresa el resultado
   de la digitalización puede ser totalmente inusable (no
   solo el tema de los marcadores, resolución no
   adecuada, documentos no digitalizados por completo,
   etc.).
Vale la pena invertir en marcado manual?

   Depende de la magnitud del proyecto, de la experiencia
   de la empresa.
   Y particularmente de los recursos que se tengan
   Pero en principio para la magnitud de los proyectos de
   digitalización de archivos históricos, es un costo
   adicional que debería evitarse.
Evitarse si, pero como?

 En principio para ingles, español y portugués existen
 herramientas gratuitas para realizar OCR(ej: Tesseract-
 Google).
 Que a partir de imágenes escaneadas pueden producir
 un texto, con una calidad suficiente como para ser
 evaluado posteriormente para realizar la indexación
 automática.
Evaluado pero como?

  Al fin y al cabo los documentos técnicos de patentes
  son muy estructurados.
  Los solicitantes siempre nos hacen el favor de incluir
  palabras especiales en las diferentes secciones
  No es raro encontrar que el capítulo reivindicatorio
  comienza con el titulo: Reivindicaciones….
  Y normalmente en esa misma página aparecen
  palabras muy particulares, "caracterizado por",
  “reivindicación” ( al comienzo de una línea), y otros
  similares.
Desventajas

 El procedimiento depende mucho de la calidad de la
 imagen.
 Si la misma es muy mala, cometerá errores.
 El tema es que si la imagen es muy mala, la
 digitalización se hizo mal.
 Por lo que seria preferible gastar en la mejora de la
 imagen, antes que tener un documento perfectamente
 indexado pero totalmente ilegible.
Antecedentes

 Documentos antiguos del INPI De Brasil, no indexados
 pero de buena calidad.

 Digitalización del INPI de Argentina, implementación de
 método para validación de las imágenes y su indexación
 realizada por la empresa externa.
DEMO
Por que recién ahora?

 Calidad de OCR gratuitos alta
 Servidores de alta performance utilizados para
 digitalización con capacidad subutilizada( y a costos
 bajos en comparación con hace un par de años)
 No hubo la necesidad de hacerlo(costos de digitalización
 relativamente bajos para países desarrollados)
 Costos de digitalización en Latinoamérica altos respecto
 a otros lugares del mundo (mano de obra en Asia muy
 barata)
Futuro.
 Integración de aplicación en la versión final de Wiposcan
 2.0
 Brindando servicios de pre- indexación (inmediatamente
 de cargada la solicitud en el manejados de
 documentos). Los marcadores “podrán" ser validados
 por el usuario encargado del control de calidad del
 documento.
 En caso de continuación de proyectos de digitalización y
 durante la etapa de validación de la resolución de las
 imágenes, se implementaría para validar la calidad
 precisa de la imagen indexada (por empresa) o a
 indexar (por la aplicación).
Cont.

 La gran diferencia aquí es que seria posible controlar el
 100% de las imágenes, no solamente el margen que se
 fija actualmente (Argentina 3%)
 Posibilidades de extensión a otros lenguajes. Para
 lenguajes asiáticos se necesitaría un motor de OCR
 compatible con mas lenguajes o ver las posibilidades de
 generar mas diccionarios de lenguajes para tesseract.
 El tema es que el costo de indexación manual en Asia
 es muy bajo. Aunque no es claro como se evalúa la
 calidad de lo entregado por las empresas....

Más contenido relacionado

Similar a Gb indexacion automatica

PROCESO DE E-COMMERCE
PROCESO DE E-COMMERCEPROCESO DE E-COMMERCE
PROCESO DE E-COMMERCE
robertojesucristo
 
titulo de pdf
titulo de pdftitulo de pdf
titulo de pdf
Mariangela Salcedo
 
Pressman capitulo 15
Pressman capitulo 15Pressman capitulo 15
Pressman capitulo 15
supito01
 
Transformación Digital
Transformación DigitalTransformación Digital
Transformación Digital
Antonio Garin Rodríguez
 
Mitos del software
Mitos del softwareMitos del software
Mitos del software
rubenarturo_garcia
 
Portafolio de Introducción a la Gerencia de Proyectos.
Portafolio de Introducción a la Gerencia de Proyectos.Portafolio de Introducción a la Gerencia de Proyectos.
Portafolio de Introducción a la Gerencia de Proyectos.
Raynilda Ortega Calcaño
 
Presentacion casos-de-uso
Presentacion casos-de-usoPresentacion casos-de-uso
Presentacion casos-de-uso
vladimirayala2011
 
Alta automatización de pruebas de calidad de software, cambio de paradigmas
Alta automatización de pruebas de calidad de software, cambio de paradigmasAlta automatización de pruebas de calidad de software, cambio de paradigmas
Alta automatización de pruebas de calidad de software, cambio de paradigmas
Software Guru
 
CarenBelmont_IngenieriaDeSoftware_TrabajoPractico_N°1.pdf
CarenBelmont_IngenieriaDeSoftware_TrabajoPractico_N°1.pdfCarenBelmont_IngenieriaDeSoftware_TrabajoPractico_N°1.pdf
CarenBelmont_IngenieriaDeSoftware_TrabajoPractico_N°1.pdf
ssuser7ccf16
 
Mitos de software.
Mitos de software.Mitos de software.
Mitos de software.
jessica_jara7
 
Transicionkanban
TransicionkanbanTransicionkanban
Transicionkanban
Andrés Grosso
 
Examen del segundo bimestre de computacion
Examen del segundo bimestre de computacionExamen del segundo bimestre de computacion
Examen del segundo bimestre de computacionJairo Salazar
 
Trabajo de investigacion gestion documental
Trabajo de investigacion gestion documental Trabajo de investigacion gestion documental
Trabajo de investigacion gestion documental
Csosa3122
 
A1 modelado de los requerimientos de un sistema de informacion
A1   modelado de los requerimientos de un sistema de informacionA1   modelado de los requerimientos de un sistema de informacion
A1 modelado de los requerimientos de un sistema de informacion
mariopino129
 
Software para digitar
Software para digitarSoftware para digitar
Software para digitar
laura atatiana valencia riaño
 
Software para digitar
Software para digitarSoftware para digitar
Software para digitar
laura atatiana valencia riaño
 
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
Ricardo Devis
 

Similar a Gb indexacion automatica (20)

PROCESO DE E-COMMERCE
PROCESO DE E-COMMERCEPROCESO DE E-COMMERCE
PROCESO DE E-COMMERCE
 
titulo de pdf
titulo de pdftitulo de pdf
titulo de pdf
 
Pressman capitulo 15
Pressman capitulo 15Pressman capitulo 15
Pressman capitulo 15
 
Transformación Digital
Transformación DigitalTransformación Digital
Transformación Digital
 
Mitos del software
Mitos del softwareMitos del software
Mitos del software
 
Portafolio de Introducción a la Gerencia de Proyectos.
Portafolio de Introducción a la Gerencia de Proyectos.Portafolio de Introducción a la Gerencia de Proyectos.
Portafolio de Introducción a la Gerencia de Proyectos.
 
Presentacion casos-de-uso
Presentacion casos-de-usoPresentacion casos-de-uso
Presentacion casos-de-uso
 
Alta automatización de pruebas de calidad de software, cambio de paradigmas
Alta automatización de pruebas de calidad de software, cambio de paradigmasAlta automatización de pruebas de calidad de software, cambio de paradigmas
Alta automatización de pruebas de calidad de software, cambio de paradigmas
 
CarenBelmont_IngenieriaDeSoftware_TrabajoPractico_N°1.pdf
CarenBelmont_IngenieriaDeSoftware_TrabajoPractico_N°1.pdfCarenBelmont_IngenieriaDeSoftware_TrabajoPractico_N°1.pdf
CarenBelmont_IngenieriaDeSoftware_TrabajoPractico_N°1.pdf
 
Mitos de-software.
Mitos de-software.Mitos de-software.
Mitos de-software.
 
Mitos de software.
Mitos de software.Mitos de software.
Mitos de software.
 
Mitos de-software
Mitos de-softwareMitos de-software
Mitos de-software
 
Transicionkanban
TransicionkanbanTransicionkanban
Transicionkanban
 
Examen del segundo bimestre de computacion
Examen del segundo bimestre de computacionExamen del segundo bimestre de computacion
Examen del segundo bimestre de computacion
 
Jairo Salazar
Jairo SalazarJairo Salazar
Jairo Salazar
 
Trabajo de investigacion gestion documental
Trabajo de investigacion gestion documental Trabajo de investigacion gestion documental
Trabajo de investigacion gestion documental
 
A1 modelado de los requerimientos de un sistema de informacion
A1   modelado de los requerimientos de un sistema de informacionA1   modelado de los requerimientos de un sistema de informacion
A1 modelado de los requerimientos de un sistema de informacion
 
Software para digitar
Software para digitarSoftware para digitar
Software para digitar
 
Software para digitar
Software para digitarSoftware para digitar
Software para digitar
 
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
Diseño de Interacción - El primer Paso Necesario (Ricardo Devis)
 

Más de LATIPAT

Ftp data exchange-mechanism
Ftp data exchange-mechanismFtp data exchange-mechanism
Ftp data exchange-mechanismLATIPAT
 
Citation data flow 2012 nat latipat
Citation data flow 2012 nat latipatCitation data flow 2012 nat latipat
Citation data flow 2012 nat latipatLATIPAT
 
2012 11 latipat-cpc_epo
2012 11 latipat-cpc_epo2012 11 latipat-cpc_epo
2012 11 latipat-cpc_epoLATIPAT
 
2012 11 latipat-ccd_epo
2012 11 latipat-ccd_epo2012 11 latipat-ccd_epo
2012 11 latipat-ccd_epoLATIPAT
 
03 patent families latipat the powerpoint
03 patent families latipat   the powerpoint03 patent families latipat   the powerpoint
03 patent families latipat the powerpointLATIPAT
 
E pec colombia todorov
E pec colombia todorovE pec colombia todorov
E pec colombia todorovLATIPAT
 
Legal status at the epo latipat
Legal status at the epo latipatLegal status at the epo latipat
Legal status at the epo latipatLATIPAT
 
Servicios de información y fuentes latest developments sept_2011
Servicios de información y fuentes latest developments sept_2011Servicios de información y fuentes latest developments sept_2011
Servicios de información y fuentes latest developments sept_2011
LATIPAT
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rioLATIPAT
 
Gb wipoq@s
Gb wipoq@sGb wipoq@s
Gb wipoq@sLATIPAT
 
Intercambio electrónico 2011
Intercambio electrónico 2011Intercambio electrónico 2011
Intercambio electrónico 2011LATIPAT
 
Estadistica acceso latipat
Estadistica acceso latipatEstadistica acceso latipat
Estadistica acceso latipatLATIPAT
 
Co complemento situacion-actual
Co   complemento situacion-actualCo   complemento situacion-actual
Co complemento situacion-actualLATIPAT
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rioLATIPAT
 
Epo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesEpo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniques
LATIPAT
 
Presentation vm latipat2011 ver 3
Presentation vm latipat2011 ver 3Presentation vm latipat2011 ver 3
Presentation vm latipat2011 ver 3
LATIPAT
 
Papel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arPapel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arLATIPAT
 
Epo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesEpo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniques
LATIPAT
 
Papel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arPapel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arLATIPAT
 

Más de LATIPAT (20)

Ftp data exchange-mechanism
Ftp data exchange-mechanismFtp data exchange-mechanism
Ftp data exchange-mechanism
 
Citation data flow 2012 nat latipat
Citation data flow 2012 nat latipatCitation data flow 2012 nat latipat
Citation data flow 2012 nat latipat
 
2012 11 latipat-cpc_epo
2012 11 latipat-cpc_epo2012 11 latipat-cpc_epo
2012 11 latipat-cpc_epo
 
2012 11 latipat-ccd_epo
2012 11 latipat-ccd_epo2012 11 latipat-ccd_epo
2012 11 latipat-ccd_epo
 
03 patent families latipat the powerpoint
03 patent families latipat   the powerpoint03 patent families latipat   the powerpoint
03 patent families latipat the powerpoint
 
E pec colombia todorov
E pec colombia todorovE pec colombia todorov
E pec colombia todorov
 
Legal status at the epo latipat
Legal status at the epo latipatLegal status at the epo latipat
Legal status at the epo latipat
 
Servicios de información y fuentes latest developments sept_2011
Servicios de información y fuentes latest developments sept_2011Servicios de información y fuentes latest developments sept_2011
Servicios de información y fuentes latest developments sept_2011
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rio
 
Gb wipoq@s
Gb wipoq@sGb wipoq@s
Gb wipoq@s
 
Logo
LogoLogo
Logo
 
Intercambio electrónico 2011
Intercambio electrónico 2011Intercambio electrónico 2011
Intercambio electrónico 2011
 
Estadistica acceso latipat
Estadistica acceso latipatEstadistica acceso latipat
Estadistica acceso latipat
 
Co complemento situacion-actual
Co   complemento situacion-actualCo   complemento situacion-actual
Co complemento situacion-actual
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rio
 
Epo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesEpo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniques
 
Presentation vm latipat2011 ver 3
Presentation vm latipat2011 ver 3Presentation vm latipat2011 ver 3
Presentation vm latipat2011 ver 3
 
Papel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arPapel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_ar
 
Epo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniquesEpo info resources & espacenet & search techniques
Epo info resources & espacenet & search techniques
 
Papel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_arPapel de la ompi promocion innov arc_ar
Papel de la ompi promocion innov arc_ar
 

Último

Horarios Exámenes EVAU Ordinaria 2024 de Madrid
Horarios Exámenes EVAU Ordinaria 2024 de MadridHorarios Exámenes EVAU Ordinaria 2024 de Madrid
Horarios Exámenes EVAU Ordinaria 2024 de Madrid
20minutos
 
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptxCLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
LilianaRivera778668
 
ENSAYO SOBRE LA ANSIEDAD Y LA DEPRESION.docx
ENSAYO SOBRE LA ANSIEDAD Y LA DEPRESION.docxENSAYO SOBRE LA ANSIEDAD Y LA DEPRESION.docx
ENSAYO SOBRE LA ANSIEDAD Y LA DEPRESION.docx
SandraPiza2
 
3° UNIDAD 3 CUIDAMOS EL AMBIENTE RECICLANDO EN FAMILIA 933623393 PROF YESSENI...
3° UNIDAD 3 CUIDAMOS EL AMBIENTE RECICLANDO EN FAMILIA 933623393 PROF YESSENI...3° UNIDAD 3 CUIDAMOS EL AMBIENTE RECICLANDO EN FAMILIA 933623393 PROF YESSENI...
3° UNIDAD 3 CUIDAMOS EL AMBIENTE RECICLANDO EN FAMILIA 933623393 PROF YESSENI...
rosannatasaycoyactay
 
El Liberalismo económico en la sociedad y en el mundo
El Liberalismo económico en la sociedad y en el mundoEl Liberalismo económico en la sociedad y en el mundo
El Liberalismo económico en la sociedad y en el mundo
SandraBenitez52
 
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernándezPRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
Ruben53283
 
Automatización de proceso de producción de la empresa Gloria SA (1).pptx
Automatización de proceso de producción de la empresa Gloria SA (1).pptxAutomatización de proceso de producción de la empresa Gloria SA (1).pptx
Automatización de proceso de producción de la empresa Gloria SA (1).pptx
GallardoJahse
 
Junio 2024 Fotocopiables Ediba actividades
Junio 2024 Fotocopiables Ediba actividadesJunio 2024 Fotocopiables Ediba actividades
Junio 2024 Fotocopiables Ediba actividades
cintiat3400
 
Educar por Competencias GS2 Ccesa007.pdf
Educar por Competencias GS2 Ccesa007.pdfEducar por Competencias GS2 Ccesa007.pdf
Educar por Competencias GS2 Ccesa007.pdf
Demetrio Ccesa Rayme
 
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
20minutos
 
CUENTO EL TIGRILLO DESOBEDIENTE PARA INICIAL
CUENTO EL TIGRILLO DESOBEDIENTE PARA INICIALCUENTO EL TIGRILLO DESOBEDIENTE PARA INICIAL
CUENTO EL TIGRILLO DESOBEDIENTE PARA INICIAL
DivinoNioJess885
 
PPT: El fundamento del gobierno de Dios.
PPT: El fundamento del gobierno de Dios.PPT: El fundamento del gobierno de Dios.
PPT: El fundamento del gobierno de Dios.
https://gramadal.wordpress.com/
 
Sesión: El fundamento del gobierno de Dios.pdf
Sesión: El fundamento del gobierno de Dios.pdfSesión: El fundamento del gobierno de Dios.pdf
Sesión: El fundamento del gobierno de Dios.pdf
https://gramadal.wordpress.com/
 
Libro infantil sapo y sepo un año entero pdf
Libro infantil sapo y sepo un año entero pdfLibro infantil sapo y sepo un año entero pdf
Libro infantil sapo y sepo un año entero pdf
danitarb
 
c3.hu3.p3.p2.Superioridad e inferioridad en la sociedad.pptx
c3.hu3.p3.p2.Superioridad e inferioridad en la sociedad.pptxc3.hu3.p3.p2.Superioridad e inferioridad en la sociedad.pptx
c3.hu3.p3.p2.Superioridad e inferioridad en la sociedad.pptx
Martín Ramírez
 
Fase 2, Pensamiento variacional y trigonometrico
Fase 2, Pensamiento variacional y trigonometricoFase 2, Pensamiento variacional y trigonometrico
Fase 2, Pensamiento variacional y trigonometrico
YasneidyGonzalez
 
ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...
ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...
ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...
JAVIER SOLIS NOYOLA
 
Productos contestatos de la Séptima sesión ordinaria de CTE y TIFC para Docen...
Productos contestatos de la Séptima sesión ordinaria de CTE y TIFC para Docen...Productos contestatos de la Séptima sesión ordinaria de CTE y TIFC para Docen...
Productos contestatos de la Séptima sesión ordinaria de CTE y TIFC para Docen...
Monseespinoza6
 
Fase 1, Lenguaje algebraico y pensamiento funcional
Fase 1, Lenguaje algebraico y pensamiento funcionalFase 1, Lenguaje algebraico y pensamiento funcional
Fase 1, Lenguaje algebraico y pensamiento funcional
YasneidyGonzalez
 
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdfAsistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Demetrio Ccesa Rayme
 

Último (20)

Horarios Exámenes EVAU Ordinaria 2024 de Madrid
Horarios Exámenes EVAU Ordinaria 2024 de MadridHorarios Exámenes EVAU Ordinaria 2024 de Madrid
Horarios Exámenes EVAU Ordinaria 2024 de Madrid
 
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptxCLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
 
ENSAYO SOBRE LA ANSIEDAD Y LA DEPRESION.docx
ENSAYO SOBRE LA ANSIEDAD Y LA DEPRESION.docxENSAYO SOBRE LA ANSIEDAD Y LA DEPRESION.docx
ENSAYO SOBRE LA ANSIEDAD Y LA DEPRESION.docx
 
3° UNIDAD 3 CUIDAMOS EL AMBIENTE RECICLANDO EN FAMILIA 933623393 PROF YESSENI...
3° UNIDAD 3 CUIDAMOS EL AMBIENTE RECICLANDO EN FAMILIA 933623393 PROF YESSENI...3° UNIDAD 3 CUIDAMOS EL AMBIENTE RECICLANDO EN FAMILIA 933623393 PROF YESSENI...
3° UNIDAD 3 CUIDAMOS EL AMBIENTE RECICLANDO EN FAMILIA 933623393 PROF YESSENI...
 
El Liberalismo económico en la sociedad y en el mundo
El Liberalismo económico en la sociedad y en el mundoEl Liberalismo económico en la sociedad y en el mundo
El Liberalismo económico en la sociedad y en el mundo
 
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernándezPRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
 
Automatización de proceso de producción de la empresa Gloria SA (1).pptx
Automatización de proceso de producción de la empresa Gloria SA (1).pptxAutomatización de proceso de producción de la empresa Gloria SA (1).pptx
Automatización de proceso de producción de la empresa Gloria SA (1).pptx
 
Junio 2024 Fotocopiables Ediba actividades
Junio 2024 Fotocopiables Ediba actividadesJunio 2024 Fotocopiables Ediba actividades
Junio 2024 Fotocopiables Ediba actividades
 
Educar por Competencias GS2 Ccesa007.pdf
Educar por Competencias GS2 Ccesa007.pdfEducar por Competencias GS2 Ccesa007.pdf
Educar por Competencias GS2 Ccesa007.pdf
 
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
 
CUENTO EL TIGRILLO DESOBEDIENTE PARA INICIAL
CUENTO EL TIGRILLO DESOBEDIENTE PARA INICIALCUENTO EL TIGRILLO DESOBEDIENTE PARA INICIAL
CUENTO EL TIGRILLO DESOBEDIENTE PARA INICIAL
 
PPT: El fundamento del gobierno de Dios.
PPT: El fundamento del gobierno de Dios.PPT: El fundamento del gobierno de Dios.
PPT: El fundamento del gobierno de Dios.
 
Sesión: El fundamento del gobierno de Dios.pdf
Sesión: El fundamento del gobierno de Dios.pdfSesión: El fundamento del gobierno de Dios.pdf
Sesión: El fundamento del gobierno de Dios.pdf
 
Libro infantil sapo y sepo un año entero pdf
Libro infantil sapo y sepo un año entero pdfLibro infantil sapo y sepo un año entero pdf
Libro infantil sapo y sepo un año entero pdf
 
c3.hu3.p3.p2.Superioridad e inferioridad en la sociedad.pptx
c3.hu3.p3.p2.Superioridad e inferioridad en la sociedad.pptxc3.hu3.p3.p2.Superioridad e inferioridad en la sociedad.pptx
c3.hu3.p3.p2.Superioridad e inferioridad en la sociedad.pptx
 
Fase 2, Pensamiento variacional y trigonometrico
Fase 2, Pensamiento variacional y trigonometricoFase 2, Pensamiento variacional y trigonometrico
Fase 2, Pensamiento variacional y trigonometrico
 
ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...
ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...
ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...
 
Productos contestatos de la Séptima sesión ordinaria de CTE y TIFC para Docen...
Productos contestatos de la Séptima sesión ordinaria de CTE y TIFC para Docen...Productos contestatos de la Séptima sesión ordinaria de CTE y TIFC para Docen...
Productos contestatos de la Séptima sesión ordinaria de CTE y TIFC para Docen...
 
Fase 1, Lenguaje algebraico y pensamiento funcional
Fase 1, Lenguaje algebraico y pensamiento funcionalFase 1, Lenguaje algebraico y pensamiento funcional
Fase 1, Lenguaje algebraico y pensamiento funcional
 
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdfAsistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
 

Gb indexacion automatica

  • 1. Indexación automática de documentos técnicos. Gabriel Berlicki Administrador de Datos División de Modernización de Infraestructuras
  • 2. Procedimiento actual de marcado de capítulos en solicitudes de patente Normalmente el procedimiento se realiza manualmente durante la etapa de carga de las imágenes o durante la validación de las mismas. Si bien es un procedimiento relativamente rápido, el consenso general de los usuarios es que: ES ABURRIDO y un usuario que se aburre no es bueno(errores, retrasos, etc.) etc = Y normalmente no es un procedimiento particularmente barato.
  • 3. Cont. Particularmente en el caso de los proyectos de digitalización en curso, el uso de marcadores eleva los costos dado la necesidad de contar con personal experimentado y entrenado. No es solamente escanear los documentos, es necesario interpretarlos, lo cual hace que las empresas con menor experiencia (de costo mas bajo) no se presentan o no pueden cumplir con los requisitos
  • 4. Que tan bien esta pensada la digitalización? El tema es que el personal de las empresas normalmente no son del ambiente de IP, y normalmente cometen errores por mas tiempo que dedique la oficina para entrenarlos al inicio del proyecto. Dichos errores pueden acarrear costos adicionales si no son detectados a tiempo(o sea durante el tiempo del contrato), se puede dar por finalizado un proyecto y lo entregado no cumple con las especificaciones normales. Si no se controla el producto de la empresa el resultado de la digitalización puede ser totalmente inusable (no solo el tema de los marcadores, resolución no adecuada, documentos no digitalizados por completo, etc.).
  • 5. Vale la pena invertir en marcado manual? Depende de la magnitud del proyecto, de la experiencia de la empresa. Y particularmente de los recursos que se tengan Pero en principio para la magnitud de los proyectos de digitalización de archivos históricos, es un costo adicional que debería evitarse.
  • 6. Evitarse si, pero como? En principio para ingles, español y portugués existen herramientas gratuitas para realizar OCR(ej: Tesseract- Google). Que a partir de imágenes escaneadas pueden producir un texto, con una calidad suficiente como para ser evaluado posteriormente para realizar la indexación automática.
  • 7. Evaluado pero como? Al fin y al cabo los documentos técnicos de patentes son muy estructurados. Los solicitantes siempre nos hacen el favor de incluir palabras especiales en las diferentes secciones No es raro encontrar que el capítulo reivindicatorio comienza con el titulo: Reivindicaciones…. Y normalmente en esa misma página aparecen palabras muy particulares, "caracterizado por", “reivindicación” ( al comienzo de una línea), y otros similares.
  • 8. Desventajas El procedimiento depende mucho de la calidad de la imagen. Si la misma es muy mala, cometerá errores. El tema es que si la imagen es muy mala, la digitalización se hizo mal. Por lo que seria preferible gastar en la mejora de la imagen, antes que tener un documento perfectamente indexado pero totalmente ilegible.
  • 9. Antecedentes Documentos antiguos del INPI De Brasil, no indexados pero de buena calidad. Digitalización del INPI de Argentina, implementación de método para validación de las imágenes y su indexación realizada por la empresa externa.
  • 10. DEMO
  • 11. Por que recién ahora? Calidad de OCR gratuitos alta Servidores de alta performance utilizados para digitalización con capacidad subutilizada( y a costos bajos en comparación con hace un par de años) No hubo la necesidad de hacerlo(costos de digitalización relativamente bajos para países desarrollados) Costos de digitalización en Latinoamérica altos respecto a otros lugares del mundo (mano de obra en Asia muy barata)
  • 12. Futuro. Integración de aplicación en la versión final de Wiposcan 2.0 Brindando servicios de pre- indexación (inmediatamente de cargada la solicitud en el manejados de documentos). Los marcadores “podrán" ser validados por el usuario encargado del control de calidad del documento. En caso de continuación de proyectos de digitalización y durante la etapa de validación de la resolución de las imágenes, se implementaría para validar la calidad precisa de la imagen indexada (por empresa) o a indexar (por la aplicación).
  • 13. Cont. La gran diferencia aquí es que seria posible controlar el 100% de las imágenes, no solamente el margen que se fija actualmente (Argentina 3%) Posibilidades de extensión a otros lenguajes. Para lenguajes asiáticos se necesitaría un motor de OCR compatible con mas lenguajes o ver las posibilidades de generar mas diccionarios de lenguajes para tesseract. El tema es que el costo de indexación manual en Asia es muy bajo. Aunque no es claro como se evalúa la calidad de lo entregado por las empresas....