SlideShare una empresa de Scribd logo
1 de 26
Dr. Humberto F.
Mandirola Brieux
10/01/2020
www.biocom.com
1
A L G O R I T M O S D E
N O R M A L I Z A C I Ó N O
C O M P A R A C I Ó N
P A R A B Ú S Q U E D A
E N P A D R O N E S M P I
ALGORITMOS DE NORMALIZACIÓN O
COMPARACIÓN PARA BÚSQUEDA EN
PADRONES
• Estos algoritmos nos permiten identificar palabras similares
midiendo las diferencias entre palabras.
• Hay de 2 tipos
– Fonéticos
– Comparativos
10/01/2020 www.biocom.com 2
¿QUÉ ES UN ALGORITMO
FONÉTICO?
• Un algoritmo fonético es un algoritmo para indexar palabras
por su pronunciación.
• La mayoría de los algoritmos fonéticos se desarrollaron para
usar con el idioma inglés; en consecuencia, la aplicación de las
reglas a las palabras en otros idiomas podría no dar un
resultado significativo.
10/01/2020 www.biocom.com 3
¿CUÁLES TENEMOS
DISPONIBLES?
• Soundex es tal vez uno de los mas conocidos, se basa en qué tan cerca
están dos palabras dependiendo de su pronunciación.
• Levenshtein funciona distinto, mide la diferencia entre dos palabras
escritas.
• Needleman-Wunsch: Fue una de las primeras aplicaciones de
programación dinámica para comparar secuencias biológicas. El algoritmo
fue desarrollado por Saul B. Needleman y Christian D. Wunsch y publicado
en 1970.
• Metaphone: Mejora fundamentalmente el algoritmo Soundex mediante el
uso de información sobre variaciones e inconsistencias en la ortografía y
pronunciación en inglés para producir una codificación más precisa, que
hace un mejor trabajo al combinar palabras y nombres que suenan
similares.
• Double Metaphone. Contrariamente al algoritmo original cuya aplicación10/01/2020 www.biocom.com 4
¿EN QUE PROBLEMAS EN LOS
CUALES NOS PUEDEN AYUDAR?
• Considerar un algoritmo fonético mejora la
performance de las búsquedas en los MPI para
ayudar a detectar posibles errores de tipeo. Es
común que no sepamos escribir un nombre,
por ejemplo:
• Lopez o Lopes
• Viviana o Biviana o Bibiana
• Nuñez o Nunes
• Jessica o Yésica10/01/2020 www.biocom.com 5
LEVENSHTEIN DISTANCE
CALCULATOR
• https://planetcalc.com/1721/
• Esta página nos permite chequear con funciona el algoritmo
de Levenshtein. Calcula on line la distancia de Levenshtein
entre dos palabras,
10/01/2020 www.biocom.com 6
EJERCICIO LEVENSHTEIN 1
Pusimos viviana en source y viviana en target apretamos calculate y nos da que la distancia
de diferencia entre esas 2 palabras es 1
10/01/2020 www.biocom.com 7
EJERCICIO LEVENSHTEIN 2
10/01/2020 www.biocom.com 8
EJERCICIO LEVENSHTEIN 3
10/01/2020 www.biocom.com 9
EJERCICIO LEVENSHTEIN 4
10/01/2020 www.biocom.com 10
EJERCICIO LEVENSHTEIN 5
10/01/2020 www.biocom.com 11
EJERCICIO LEVENSHTEIN 6
Conclusión del ejercicio de Levenshtein: A medida que las palabras son mas diferentes el
numero de Levenshtein aumenta. Ejemplos de códigos de este algoritmo en el lenguaje que
quieran esta lleno en internet.
10/01/2020 www.biocom.com 12
https://estandaresparadummies.blogspot.com/search?q=soundex
10/01/2020 www.biocom.com 13
AHORA PROBEMOS CÓMO FUNCIONA
EL ALGORITMO DE SOUNDEX.
Soundex tienen la propiedad de que las palabras pronunciadas de manera
similar producen la misma clave de Soundex y, por lo tanto, pueden usarse
para simplificar las búsquedas en bases de datos donde se conoce la
pronunciación pero no la ortografía.
Lo que hace Soundex es devolvernos una cadena de 4 caracteres de largo,
comenzando con una letra, para ver las diferencias fonéticas entre
esas palabras comparamos los códigos Soundex.
Para esto vamos a usar la siguiente página
https://www.ics.uci.edu/~dan/genealogy/Miller/javascrp/soundex.htm
10/01/2020 www.biocom.com 14
EJERCICIO SOUNDEX
10/01/2020 www.biocom.com 15
EJERCICIO SOUNDEX
10/01/2020 www.biocom.com 16
SET MÍNIMO DE DATOS
• Apellido (primero y siguientes)
• Nombre (primero y siguientes)
• sexo
• Tipo de Documento
• Número de documento
• Fecha de Nacimiento
Cálculo de Pesos Teniendo en cuenta los candidatos obtenidos en el punto anterior se utiliza el
algoritmo Jaro-Winkler para medir el grado de similitud entre dos cadenas. La puntuación que
devuelve el algoritmo se normaliza de forma que 0 equivale a ninguna similitud y 1 es una
coincidencia exacta.
10/01/2020 www.biocom.com 17
SERVICIO DE IDENTIFIACIÓN
DE PERSONAS VS BÚSQUEDA
• Evitan la fragmentación de la información.
• Hay distintas estrategias para
minimizar este problema.
• La comparación de pacientes
proporciona la capacidad de unir a
un individuo único con un conjunto
único de datos en una base de datos
10/01/2020 www.biocom.com 18
ASIGNACIÓN DE PESOS
RELATIVOS
1. La Búsqueda de Candidatos se basa en la ponderación de
puntajes o pesos relativos que se asignan a cada
coincidencia entre los diversos campos de un caso
considerado índice (del cual se quiere conocer su presencia
en el dominio) y el resto de los casos del dominio.
2. Así, la fecha de nacimiento, el sexo y el primer apellido
materno llevan pesos relativos altos debido a su poder
discriminatorio, en contraste con los nombres y los apellidos
del propio sujeto.
3. Cada comparación arroja entonces un puntaje total que se
mide contra un valor mínimo de corte prefijado para señalar
al par de casos estudiados como posibles duplicaciones.10/01/2020 19www.biocom.com
ASIGNACIÓN DE PESOS
RELATIVOS
10/01/2020 20
Datos Peso
Apellidos 15
Nombres 15
Sexo 10
Tipo de Documento 10
Número de Documento 30
Fecha de Nacimiento 20
100
www.biocom.com
TEST DE COMPARACIÓN DE DISTINTOS
ALGORITMOS PARA DETECTAR DIFERENCIAS
https://asecuritysite.com/forensics/simstring
Esta página permite chequear como funcionan distintos algoritmos
10/01/2020 www.biocom.com 21
10/01/2020 www.biocom.com 22
10/01/2020 www.biocom.com 23
10/01/2020 www.biocom.com 24
CONCLUSIONES
• Viviana y Vibiana tienen tambien el mismo código Soundex sin
embargo Biviana devuelve B150 y Viviana V150 es decir que
para la primer letra Soundex es un copión de lo que
escribimos, es como que le da otro tratamiento, pero fíjense
que la segunda parte del código es bien distinta.
• Los invito a jugar con estos algoritmos y a considerarlos en
sus aplicaciones, son de gran utilidad para encontrar
diferencias de tipeos y errores y para depurar maestros de
pacientes. Nos permiten encontrar candidatos en las
búsquedas que con los querys convencionales no podríamos
encontrar en las bases de datos.
10/01/2020 www.biocom.com 25
REFERENCIAS
• https://www.functions-online.com/soundex.html
• http://44jaiio.sadio.org.ar/sites/default/files/cais67-77.pdf
• https://es.khanacademy.org/math/arithmetic-home/arith-place-value/arith-comparing-multi-
digit-numbers/v/comparing-multi-digit-numbers
• https://planetcalc.com/1721/
• https://scriptun.com/tools/php/soundex
• https://www.ics.uci.edu/~dan/genealogy/Miller/javascrp/soundex.htm
• https://www.inf.utfsm.cl/~noell/IWI-131-p1/Tema8b.pdf
• https://pdfs.semanticscholar.org/1a26/342bf18c6e8785d402453577bace42ee0887.pdf
• http://sce2.umkc.edu/csee/leeyu/Mahi/medical-data8.pdf
• https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4832129/
• https://estandaresparadummies.blogspot.com/2019/08/que-algoritmos-fonetico-es-mejor-
usar.html
10/01/2020 www.biocom.com 26

Más contenido relacionado

Similar a Algoritmos de normalizacion para busquedas de pacientes en mpi

Estrategias de búsqueda en internet
Estrategias de búsqueda en internetEstrategias de búsqueda en internet
Estrategias de búsqueda en internet
Mirelda Olán
 
Estrategias de búsqueda en internet-Las TIC
Estrategias de búsqueda en internet-Las TICEstrategias de búsqueda en internet-Las TIC
Estrategias de búsqueda en internet-Las TIC
karely20
 
Estrategias de búsqueda en internet
Estrategias de búsqueda en internetEstrategias de búsqueda en internet
Estrategias de búsqueda en internet
karely20
 
Act2 lsc.doc.
Act2 lsc.doc.Act2 lsc.doc.
Act2 lsc.doc.
Lucy Soc
 
Examen final
Examen finalExamen final
Examen final
Jose King
 

Similar a Algoritmos de normalizacion para busquedas de pacientes en mpi (20)

Buscadores
BuscadoresBuscadores
Buscadores
 
Buscadores
BuscadoresBuscadores
Buscadores
 
Fuentes electrónicas
Fuentes electrónicasFuentes electrónicas
Fuentes electrónicas
 
Estrategias de búsqueda en internet
Estrategias de búsqueda en internetEstrategias de búsqueda en internet
Estrategias de búsqueda en internet
 
Estrategias de búsqueda en internet
Estrategias de búsqueda en internetEstrategias de búsqueda en internet
Estrategias de búsqueda en internet
 
Estrategias de búsqueda en internet-Las TIC
Estrategias de búsqueda en internet-Las TICEstrategias de búsqueda en internet-Las TIC
Estrategias de búsqueda en internet-Las TIC
 
Estrategias de búsqueda en internet
Estrategias de búsqueda en internetEstrategias de búsqueda en internet
Estrategias de búsqueda en internet
 
BúSquedas Avanzadas2
BúSquedas Avanzadas2BúSquedas Avanzadas2
BúSquedas Avanzadas2
 
Motores de búsqueda
Motores de búsquedaMotores de búsqueda
Motores de búsqueda
 
Defina lo que busca
Defina lo que buscaDefina lo que busca
Defina lo que busca
 
Internet2
Internet2Internet2
Internet2
 
Historia de internet
Historia de internetHistoria de internet
Historia de internet
 
Guia#2.ortega.bello.wendy.med.com.oraly escrita
Guia#2.ortega.bello.wendy.med.com.oraly escritaGuia#2.ortega.bello.wendy.med.com.oraly escrita
Guia#2.ortega.bello.wendy.med.com.oraly escrita
 
Act2 lsc.doc.
Act2 lsc.doc.Act2 lsc.doc.
Act2 lsc.doc.
 
Cómo realizar una búsqueda en pubmed
Cómo realizar una búsqueda en pubmedCómo realizar una búsqueda en pubmed
Cómo realizar una búsqueda en pubmed
 
Examen final power point
Examen final power point Examen final power point
Examen final power point
 
Examen final power point
Examen final power pointExamen final power point
Examen final power point
 
El Internet
El Internet El Internet
El Internet
 
Examen final
Examen finalExamen final
Examen final
 
Examen final power ponit
Examen final power ponit Examen final power ponit
Examen final power ponit
 

Último

Clase 17 Artrologia MMII 3 de 3 (Pie) 2024 (1).pdf
Clase 17 Artrologia MMII 3 de 3 (Pie) 2024 (1).pdfClase 17 Artrologia MMII 3 de 3 (Pie) 2024 (1).pdf
Clase 17 Artrologia MMII 3 de 3 (Pie) 2024 (1).pdf
garrotamara01
 
(2024-05-07). ANTICONCEPCIÓN EN ATENCIÓN PRIMARIA
(2024-05-07). ANTICONCEPCIÓN EN ATENCIÓN PRIMARIA(2024-05-07). ANTICONCEPCIÓN EN ATENCIÓN PRIMARIA
(2024-05-07). ANTICONCEPCIÓN EN ATENCIÓN PRIMARIA
UDMAFyC SECTOR ZARAGOZA II
 
etapas de la anestesia (inducción, mantenimiento, recuperacion)
etapas de la anestesia (inducción, mantenimiento, recuperacion)etapas de la anestesia (inducción, mantenimiento, recuperacion)
etapas de la anestesia (inducción, mantenimiento, recuperacion)
mariaarrdlc
 
Clase 16 Artrologia mmii 2 de 3 (Rodilla y Tobillo) 2024.pdf
Clase 16 Artrologia mmii 2 de 3 (Rodilla y Tobillo) 2024.pdfClase 16 Artrologia mmii 2 de 3 (Rodilla y Tobillo) 2024.pdf
Clase 16 Artrologia mmii 2 de 3 (Rodilla y Tobillo) 2024.pdf
garrotamara01
 

Último (20)

CASO CLINICO HERNIA INGUINAL - ENFERMERIA
CASO CLINICO HERNIA INGUINAL - ENFERMERIACASO CLINICO HERNIA INGUINAL - ENFERMERIA
CASO CLINICO HERNIA INGUINAL - ENFERMERIA
 
Anatomia y fisiologia del pancreas medicina
Anatomia y fisiologia del pancreas medicinaAnatomia y fisiologia del pancreas medicina
Anatomia y fisiologia del pancreas medicina
 
Clase 17 Artrologia MMII 3 de 3 (Pie) 2024 (1).pdf
Clase 17 Artrologia MMII 3 de 3 (Pie) 2024 (1).pdfClase 17 Artrologia MMII 3 de 3 (Pie) 2024 (1).pdf
Clase 17 Artrologia MMII 3 de 3 (Pie) 2024 (1).pdf
 
Cómo evoluciono la enfermería línea del tiempo.pptx
Cómo evoluciono la enfermería línea del tiempo.pptxCómo evoluciono la enfermería línea del tiempo.pptx
Cómo evoluciono la enfermería línea del tiempo.pptx
 
Transparencia Fiscal Abril año 2024.pdf
Transparencia Fiscal Abril  año 2024.pdfTransparencia Fiscal Abril  año 2024.pdf
Transparencia Fiscal Abril año 2024.pdf
 
DESARROLLO FETAL basado en el libro de embriología de arteaga
DESARROLLO FETAL basado en el libro de embriología de arteagaDESARROLLO FETAL basado en el libro de embriología de arteaga
DESARROLLO FETAL basado en el libro de embriología de arteaga
 
(2024-05-07). ANTICONCEPCIÓN EN ATENCIÓN PRIMARIA
(2024-05-07). ANTICONCEPCIÓN EN ATENCIÓN PRIMARIA(2024-05-07). ANTICONCEPCIÓN EN ATENCIÓN PRIMARIA
(2024-05-07). ANTICONCEPCIÓN EN ATENCIÓN PRIMARIA
 
INFLUENZA SUPER RESUMEN PREVENCION Y PROMOCION DE LA SALUD
INFLUENZA SUPER RESUMEN PREVENCION Y PROMOCION DE LA SALUDINFLUENZA SUPER RESUMEN PREVENCION Y PROMOCION DE LA SALUD
INFLUENZA SUPER RESUMEN PREVENCION Y PROMOCION DE LA SALUD
 
Contaminación del agua en la ciudad de Arequipa.pdf
Contaminación del agua en la ciudad de Arequipa.pdfContaminación del agua en la ciudad de Arequipa.pdf
Contaminación del agua en la ciudad de Arequipa.pdf
 
etapas de la anestesia (inducción, mantenimiento, recuperacion)
etapas de la anestesia (inducción, mantenimiento, recuperacion)etapas de la anestesia (inducción, mantenimiento, recuperacion)
etapas de la anestesia (inducción, mantenimiento, recuperacion)
 
Cuadernillo depresion para trabajar a nivel clinico
Cuadernillo depresion para trabajar a nivel clinicoCuadernillo depresion para trabajar a nivel clinico
Cuadernillo depresion para trabajar a nivel clinico
 
Power point Tunel Carpiano y Guyon anatomia
Power point Tunel Carpiano y Guyon anatomiaPower point Tunel Carpiano y Guyon anatomia
Power point Tunel Carpiano y Guyon anatomia
 
Clase 16 Artrologia mmii 2 de 3 (Rodilla y Tobillo) 2024.pdf
Clase 16 Artrologia mmii 2 de 3 (Rodilla y Tobillo) 2024.pdfClase 16 Artrologia mmii 2 de 3 (Rodilla y Tobillo) 2024.pdf
Clase 16 Artrologia mmii 2 de 3 (Rodilla y Tobillo) 2024.pdf
 
tuberculosis monografía de la universidad udabol
tuberculosis monografía de la universidad udaboltuberculosis monografía de la universidad udabol
tuberculosis monografía de la universidad udabol
 
Uso Racional del medicamento prescripción
Uso Racional del medicamento prescripciónUso Racional del medicamento prescripción
Uso Racional del medicamento prescripción
 
COLORACION GRAM.docx en enfermeria y salud en
COLORACION GRAM.docx en enfermeria y salud enCOLORACION GRAM.docx en enfermeria y salud en
COLORACION GRAM.docx en enfermeria y salud en
 
Epidemiologia 6: Evaluación de Pruebas Diagnósticas: Cualidades del Test, Par...
Epidemiologia 6: Evaluación de Pruebas Diagnósticas: Cualidades del Test, Par...Epidemiologia 6: Evaluación de Pruebas Diagnósticas: Cualidades del Test, Par...
Epidemiologia 6: Evaluación de Pruebas Diagnósticas: Cualidades del Test, Par...
 
Reticulo endoplasmático y aparato de golgi
Reticulo endoplasmático y aparato de golgiReticulo endoplasmático y aparato de golgi
Reticulo endoplasmático y aparato de golgi
 
Sesión 6 - Estructuras oseas y musculares de Miembro Superior - ANATOMÍA.pptx
Sesión 6 - Estructuras oseas y musculares de Miembro Superior - ANATOMÍA.pptxSesión 6 - Estructuras oseas y musculares de Miembro Superior - ANATOMÍA.pptx
Sesión 6 - Estructuras oseas y musculares de Miembro Superior - ANATOMÍA.pptx
 
Diabetes mellitus tipo 2- Medicina interna.pptx
Diabetes mellitus tipo 2- Medicina interna.pptxDiabetes mellitus tipo 2- Medicina interna.pptx
Diabetes mellitus tipo 2- Medicina interna.pptx
 

Algoritmos de normalizacion para busquedas de pacientes en mpi

  • 1. Dr. Humberto F. Mandirola Brieux 10/01/2020 www.biocom.com 1 A L G O R I T M O S D E N O R M A L I Z A C I Ó N O C O M P A R A C I Ó N P A R A B Ú S Q U E D A E N P A D R O N E S M P I
  • 2. ALGORITMOS DE NORMALIZACIÓN O COMPARACIÓN PARA BÚSQUEDA EN PADRONES • Estos algoritmos nos permiten identificar palabras similares midiendo las diferencias entre palabras. • Hay de 2 tipos – Fonéticos – Comparativos 10/01/2020 www.biocom.com 2
  • 3. ¿QUÉ ES UN ALGORITMO FONÉTICO? • Un algoritmo fonético es un algoritmo para indexar palabras por su pronunciación. • La mayoría de los algoritmos fonéticos se desarrollaron para usar con el idioma inglés; en consecuencia, la aplicación de las reglas a las palabras en otros idiomas podría no dar un resultado significativo. 10/01/2020 www.biocom.com 3
  • 4. ¿CUÁLES TENEMOS DISPONIBLES? • Soundex es tal vez uno de los mas conocidos, se basa en qué tan cerca están dos palabras dependiendo de su pronunciación. • Levenshtein funciona distinto, mide la diferencia entre dos palabras escritas. • Needleman-Wunsch: Fue una de las primeras aplicaciones de programación dinámica para comparar secuencias biológicas. El algoritmo fue desarrollado por Saul B. Needleman y Christian D. Wunsch y publicado en 1970. • Metaphone: Mejora fundamentalmente el algoritmo Soundex mediante el uso de información sobre variaciones e inconsistencias en la ortografía y pronunciación en inglés para producir una codificación más precisa, que hace un mejor trabajo al combinar palabras y nombres que suenan similares. • Double Metaphone. Contrariamente al algoritmo original cuya aplicación10/01/2020 www.biocom.com 4
  • 5. ¿EN QUE PROBLEMAS EN LOS CUALES NOS PUEDEN AYUDAR? • Considerar un algoritmo fonético mejora la performance de las búsquedas en los MPI para ayudar a detectar posibles errores de tipeo. Es común que no sepamos escribir un nombre, por ejemplo: • Lopez o Lopes • Viviana o Biviana o Bibiana • Nuñez o Nunes • Jessica o Yésica10/01/2020 www.biocom.com 5
  • 6. LEVENSHTEIN DISTANCE CALCULATOR • https://planetcalc.com/1721/ • Esta página nos permite chequear con funciona el algoritmo de Levenshtein. Calcula on line la distancia de Levenshtein entre dos palabras, 10/01/2020 www.biocom.com 6
  • 7. EJERCICIO LEVENSHTEIN 1 Pusimos viviana en source y viviana en target apretamos calculate y nos da que la distancia de diferencia entre esas 2 palabras es 1 10/01/2020 www.biocom.com 7
  • 12. EJERCICIO LEVENSHTEIN 6 Conclusión del ejercicio de Levenshtein: A medida que las palabras son mas diferentes el numero de Levenshtein aumenta. Ejemplos de códigos de este algoritmo en el lenguaje que quieran esta lleno en internet. 10/01/2020 www.biocom.com 12
  • 14. AHORA PROBEMOS CÓMO FUNCIONA EL ALGORITMO DE SOUNDEX. Soundex tienen la propiedad de que las palabras pronunciadas de manera similar producen la misma clave de Soundex y, por lo tanto, pueden usarse para simplificar las búsquedas en bases de datos donde se conoce la pronunciación pero no la ortografía. Lo que hace Soundex es devolvernos una cadena de 4 caracteres de largo, comenzando con una letra, para ver las diferencias fonéticas entre esas palabras comparamos los códigos Soundex. Para esto vamos a usar la siguiente página https://www.ics.uci.edu/~dan/genealogy/Miller/javascrp/soundex.htm 10/01/2020 www.biocom.com 14
  • 17. SET MÍNIMO DE DATOS • Apellido (primero y siguientes) • Nombre (primero y siguientes) • sexo • Tipo de Documento • Número de documento • Fecha de Nacimiento Cálculo de Pesos Teniendo en cuenta los candidatos obtenidos en el punto anterior se utiliza el algoritmo Jaro-Winkler para medir el grado de similitud entre dos cadenas. La puntuación que devuelve el algoritmo se normaliza de forma que 0 equivale a ninguna similitud y 1 es una coincidencia exacta. 10/01/2020 www.biocom.com 17
  • 18. SERVICIO DE IDENTIFIACIÓN DE PERSONAS VS BÚSQUEDA • Evitan la fragmentación de la información. • Hay distintas estrategias para minimizar este problema. • La comparación de pacientes proporciona la capacidad de unir a un individuo único con un conjunto único de datos en una base de datos 10/01/2020 www.biocom.com 18
  • 19. ASIGNACIÓN DE PESOS RELATIVOS 1. La Búsqueda de Candidatos se basa en la ponderación de puntajes o pesos relativos que se asignan a cada coincidencia entre los diversos campos de un caso considerado índice (del cual se quiere conocer su presencia en el dominio) y el resto de los casos del dominio. 2. Así, la fecha de nacimiento, el sexo y el primer apellido materno llevan pesos relativos altos debido a su poder discriminatorio, en contraste con los nombres y los apellidos del propio sujeto. 3. Cada comparación arroja entonces un puntaje total que se mide contra un valor mínimo de corte prefijado para señalar al par de casos estudiados como posibles duplicaciones.10/01/2020 19www.biocom.com
  • 20. ASIGNACIÓN DE PESOS RELATIVOS 10/01/2020 20 Datos Peso Apellidos 15 Nombres 15 Sexo 10 Tipo de Documento 10 Número de Documento 30 Fecha de Nacimiento 20 100 www.biocom.com
  • 21. TEST DE COMPARACIÓN DE DISTINTOS ALGORITMOS PARA DETECTAR DIFERENCIAS https://asecuritysite.com/forensics/simstring Esta página permite chequear como funcionan distintos algoritmos 10/01/2020 www.biocom.com 21
  • 25. CONCLUSIONES • Viviana y Vibiana tienen tambien el mismo código Soundex sin embargo Biviana devuelve B150 y Viviana V150 es decir que para la primer letra Soundex es un copión de lo que escribimos, es como que le da otro tratamiento, pero fíjense que la segunda parte del código es bien distinta. • Los invito a jugar con estos algoritmos y a considerarlos en sus aplicaciones, son de gran utilidad para encontrar diferencias de tipeos y errores y para depurar maestros de pacientes. Nos permiten encontrar candidatos en las búsquedas que con los querys convencionales no podríamos encontrar en las bases de datos. 10/01/2020 www.biocom.com 25
  • 26. REFERENCIAS • https://www.functions-online.com/soundex.html • http://44jaiio.sadio.org.ar/sites/default/files/cais67-77.pdf • https://es.khanacademy.org/math/arithmetic-home/arith-place-value/arith-comparing-multi- digit-numbers/v/comparing-multi-digit-numbers • https://planetcalc.com/1721/ • https://scriptun.com/tools/php/soundex • https://www.ics.uci.edu/~dan/genealogy/Miller/javascrp/soundex.htm • https://www.inf.utfsm.cl/~noell/IWI-131-p1/Tema8b.pdf • https://pdfs.semanticscholar.org/1a26/342bf18c6e8785d402453577bace42ee0887.pdf • http://sce2.umkc.edu/csee/leeyu/Mahi/medical-data8.pdf • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4832129/ • https://estandaresparadummies.blogspot.com/2019/08/que-algoritmos-fonetico-es-mejor- usar.html 10/01/2020 www.biocom.com 26

Notas del editor

  1. Soundex es tal vez uno de los mas conocidos, se basa en qué tan cerca están dos palabras dependiendo de su pronunciación. Uno de los inconvenientes es que Soundex esta optimizado para el inglés y no funciona muy bien en español. Levenshtein  funciona distinto, mide la diferencia entre dos palabras escritas.  Needleman-Wunsch: El algoritmo Needleman-Wunsch es un algoritmo utilizado en bioinformática para alinear secuencias de proteínas o nucleótidos. Fue una de las primeras aplicaciones de programación dinámica para comparar secuencias biológicas. El algoritmo fue desarrollado por Saul B. Needleman y Christian D. Wunsch y publicado en 1970. Metaphone: Es un algoritmo fonético, publicado por Lawrence Philips en 1990, para indexar palabras por su pronunciación en inglés. [1] Mejora fundamentalmente el algoritmo Soundex mediante el uso de información sobre variaciones e inconsistencias en la ortografía y pronunciación en inglés para producir una codificación más precisa, que hace un mejor trabajo al combinar palabras y nombres que suenan similares. Al igual que con Soundex, las palabras de sonido similar deberían compartir las mismas claves. Metaphone está disponible como operador integrado en varios sistemas. El autor original más tarde produjo una nueva versión del algoritmo, al que llamó Double Metaphone. Contrariamente al algoritmo original cuya aplicación se limita al inglés solamente, esta versión tiene en cuenta las peculiaridades ortográficas de varios otros idiomas. En 2009, Lawrence Philips lanzó una tercera versión, llamada Metaphone 3, que logra una precisión de aproximadamente el 99% para las palabras en inglés, palabras que no están en inglés familiares para los estadounidenses, y los nombres y apellidos que se encuentran comúnmente en los Estados Unidos, que se han desarrollado de acuerdo con según los estándares de ingeniería modernos contra un arnés de prueba de codificaciones correctas preparadas.
  2. sobre estos se asignas pesos de pruebas o rutinas pirobalísticas para identificar candidatos que pudieran haber sido ingresados con errores de tipeo. Cálculo de Pesos Teniendo en cuenta los candidatos obtenidos en el punto anterior se utiliza el algoritmo Jaro-Winkler para medir el grado de similitud entre dos cadenas. La puntuación que devuelve el algoritmo se normaliza de forma que 0 equivale a ninguna similitud y 1 es una coincidencia exacta. 
  3. Uno de los problemas mas serios que enfrenta los sistemas de salud es la fragmentación de la información. Muchas veces no podemos acceder a todos los datos de los pacientes porque su información esta fragmentada asociada a historias clínicas distintas dentro de un maestro de pacientes lo que hace virtualmente imposible juntar toda la información de una misma persona para analizarla correctamente. Es por eso que mantener depurado y auditado un maestro de pacientes es una tarea fundamental. Hay distintas estrategias para minimizar este problema. La comparación de pacientes proporciona la capacidad de unir a un individuo único con un conjunto único de datos en una base de datos o conjunto de datos de atención médica. En los hospitales, esta base de datos se denomina MPI o Enterprise Master Patient Index (EMPI). En el ámbito de la atención médica, los MPI para grandes redes integradas de entrega, organizaciones de información de salud.