Arquitectura de datos empresariales resumen openrefine
1. UNIVERSIDAD CATÓLICA DE CUENCA
COMUNIDAD EDUCATIVA AL SERVICIO DEL PUEBLO
EXTENSION CAÑAR
CARRERA:
TECNOLOGIAS DE LA INFORMACIÓN
CÁTEDRA:
ARQUITECTURA DE DATOS EMPRESARIALES
TEMA:
RESUMEN OPENREFINE
CATEDRÁTICO:
ING. ANONIO CAJAMARCA
ESTUDIANTE:
CARLOS TENELEMA
CICLO:
SEXTO
CAÑAR – ECUADOR
2. Open Refine
Open Refine es una herramienta originalmente creada por Google para el manejo de bases
de datos. Nos permite limpiar bases de datos, exportarlas en diferentes formatos,
y arreglar y manejar las bases para un mejor uso. Actualmente el proyecto ya no es
financiado por Google y se encuentra como proyecto abierto
Instalación
Para su instalación, es decir, para descargarlo es muy sencillo; sólo basta con buscar la
página oficial: http://openrefine.org/download.html para posteriormente seguir las
instrucciones. Adjuntar que, funciona en todas las plataformas: Windows, Mac y Linux.
Hay que tomar en cuenta que la aplicación se ejecuta localmente y que sus datos no se
almacenan en línea. Para poder acceder a la aplicación es necesario tener el software
libre de java.
Open Refine se ejecuta localmente en el ordenador que se instala y no cuenta con una
interfaz de usuario, además, de que los datos que se utilizan no son subidos a la red ni
pueden ser vistos por terceros.
Importación de datos con OpenRefine
Es necesario importar los datos para comenzar a utilizar esta aplicación, es decir, subir
el archivo de datos.
Formatos que soporta:
▪ TSV, CSV, o valores separados por un separador personalizado que especifique.
▪ Excel (XLS, XLSX)
▪ XML, RDF como XML
▪ JSON
▪ Google Spreadsheets
▪ RDF N3 triplica
Cuando un archivo se importa con extensión .zip, .tar.gz, .tgz, tar.bz, .gz o .bz2,
OpenRefine detecta la extensión de archivo más común en ella y carga todos los
archivos con esa extensión en un solo proyecto. También puede señalar OpenRefine a
una URL de un archivo de datos o una hoja de cálculo de Google.
Operaciones Básicas
Conversión de mayúsculas/ minúsculas
Para esto se da clic en Edit Cells >Common Transforms >To title case, To upper case,
o To lowercase.
3. Eliminación espacios en blanco
Se da clic en Edit Cells >Commons transforms >Trim leading and trailing whitespace.
Facet
Es un filtro que muestran algunas inconsistencias, es decir, indica aquellas palabras que
se repiten o que estan mal escritas.
Se da clic en Facet >Text. Esta herramienta de OpenRefina se utiliza manualmente.
4. En la columna izquierda de OpenRefine muestran unas facetas o filtros con todos los
valores distintos de la columna, así como el número de repeticiones de cada valor. Los
valores también se pueden ordenar por número de repeticiones, se selecciona la opción
count.
Para corregir errores e inconsistencias generados cuando se capturan distintos datos,
existen dos formas. La primera es seleccionando Edit con el botón derecho. La segunda
es seleccionando Edit y solo pasar el cursor por encima del valor de la faceta del lado
izquierdo.
5. Con cualquiera de los dos métodos se puede corregir el error. Para guardar el cambio,
se selecciona el botón Apply. También es posible buscar y corregir aquellas palabras
repetidas o que contengan algún error y son diferentes de los demás. Sin embargo, si la
palabra se repitiera más de una vez, Refine dará la opción de aplicar el cambio en todos
los casos con la pestaña de Apply to all identical Cells.
Organización de columnas
Para realizarlo de forma más rápida y visualizar todas las columnas, se selecciona en
All y se da clic en Edit columns >Re-Order/Remove.
Es necesario seleccionar la pestaña de cada columna y arrastrarla de tala manera que el
usuario pueda reordenarlas fácilmente.
6. Eliminación de espacios consecutivos
Se selecciona en cualquiera de las columnas, Edit cells >Commun transforms
>Collapse consecutive whitespace.
Filtrado de valores en blanco
Se utiliza para observar si las celdas contienen registros en blanco. Este procedimiento
se realiza tomando una columna, posteriormente se selecciona Facet >Customized
facets >Facet by blank. Después aparecerá una nueva ventana, la cual mostrará
aquellas celdas que estén en blanco, así como el número de registros en blanco, esta
aparecerá en la parte inferior izquierda