2. ¿QUE ES BIG DATA?
El Big Data es en el sector de tecnologías de la información
y la comunicación una referencia a los sistemas que
manipulan grandes conjuntos de datos. Las dificultades
más habituales en estos casos se centran en la captura, el
almacenado, búsqueda, compartición, análisis, y
visualización.
3. HERRAMIENTAS DEL BIG DATA
Existen muchísimas herramientas para tratar con Big Data
algunas son:
Datos estructurados:
Datos que tienen bien definidos su longitud y su formato,
como las fechas, los números o las cadenas de caracteres.
Se almacenan en tablas. Un ejemplo son las bases
datos relacionales y las hojas de calculo
4. DATOS NO ESTRUCTURADOS
Datos en el formato tal y como fueron recolectados,
carecen de un formato específico. No se pueden almacenar
dentro de una tabla ya que no se puede desgranar su
información a tipos básicos de datos. Algunos ejemplos son
los PDF, documentos multimedia, e-mail o documentos de
texto.
5. DATOS SEMIESTRUCTURADOS
Datos que no se limitan a campos determinados, pero que
contiene marcadores para separar los diferentes elementos.
Es una información poco regular como para ser gestionada
de una forma estándar. que describen los objetos y las
relaciones entre ellos, y pueden acabar siendo aceptados
por convención. Un ejemplo es el HTML, el XML o el JSON.
6. ANÁLISIS DE DATOS
Teniendo los datos necesarios almacenados según
diferentes tecnologías y almacenamiento, nos daremos
cuenta que necesitaremos diferentes técnicas de analisis
datos como las siguientes:
Asociación:
7. MINERÍA DE DATOS:
Tiene como objetivo encontrar comportamientos
predictivos. Engloba el conjunto de técnicas que combina
métodos estadísticos almacenados en bases de datos. Está
estrechamente relacionada con los modelo utilizados para
descubrir patrones en grandes cantidades de datos.
8. AGRUPACIÓN
El análisis de clústeres es un tipo de mineria de datosque
divide grandes grupos de individuos en grupos más
pequeños de los cuales no conocíamos su parecido antes
del análisis.
9. ANÁLISIS DE TEXTO
Gran parte de los datos generados por las personas son
textos, Esta metodología permite extraer información de
estos datos y así modelar temas y asuntos o predecir
palabras.