SlideShare una empresa de Scribd logo
1 de 4
Big Data
D.V.E Escobar Borrayo
7622-15-168 Universidad Mariano Gálvez
7622-408Informática I
dilmaveronica0@gmail.com
Qué es Big Data?
1. Introducción
Pues bien, en términos generales podríamos referirnos como a la tendencia en el avance de la
tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de
decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no
estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a
un base de datos relacional para su análisis. De tal manera que, el concepto de Big Data aplica para
toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas
tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que es
usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos. Entonces
RESUMEN
Los que hace diferente al Big Data es, quizá, la característica de los datos. La capacidad de obtener y
procesar datos avanza día a día, lo que permite que los datos con los que la comunidad científica
puede “jugar” son, cada vez, más específicos, más detallados. Esto genera una gran cantidad de
datos muy variados en muy poco tiempo, una gran bola de nieve informatizada que no es más que la
evolución directa de los métodos de observación que la comunidad científica necesita para su
proceso de investigación. Una evolución que ha dado un salto tan grande en tan pocos años que
hemos tenido que marcar un punto de inflexión: El nacimiento del “Big Data”.
. ¿De dónde proviene toda esa información?
Los seres humanos estamos creando y almacenando información constantemente y cada vez más en
cantidades astronómicas. Se podría decir que si todos los bits y bytes de datos del último año fueran
guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso.
Esta contribución a la acumulación masiva de datos la podemos encontrar en diversas industrias, las
compañías mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de
sus clientes, proveedores, operaciones, etc., de la misma manera sucede con el sector público.
¿Qué tipos de datos debo explorar?
Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se debe
analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿qué problema es el que se
está tratando de resolver?.
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación
nos ayudaría a entender mejor su representación, aunque es muy probable que estas categorías
puedan extenderse con el avance tecnológico.
1.- Web and Social Media:
2.- Machine-to-Machine (M2M
3.- Big Transaction Data.
4.- Biometrics.
5.- Human Generated.
Componentes de una plataforma Big Data
Las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas montañas de
información han generado un costo potencial al no descubrir el gran valor asociado. Desde luego, el
ángulo correcto que actualmente tiene el liderazgo en términos de popularidad para analizar enormes
cantidades de información es la plataforma de código abierto Hadoop.
Hadoop Distributed File System(HDFS)
Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas
a través del clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas en pequeños
subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes
volúmenes.
La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS. Observe que
cada bloque es almacenado tres veces y al menos un bloque se almacena en un diferente rack para
lograr redundancia.
Hadoop MapReduce
MapReduce es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos procesos
separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo
convierte en otro conjunto, donde los elementos individuales son separados en tuplas (pares de
llave/valor). El proceso reduce obtiene la salida de map como datos de entrada y combina las tuplas
en un conjunto más pequeño de las mismas. Una fase intermedia es la denominada Shuffle la cual
obtiene las tuplas del proceso map y determina que nodo procesará estos datos dirigiendo la salida a
una tarea reduce en específico.
La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop enfocarse más en
analizar todos los conjuntos de datos y dedicar menos tiempo en construir los programas
MapReduce. Tal como su nombre lo indica al igual que cualquier cerdo que come cualquier cosa, el
lenguaje PigLatin fue diseñado para manejar cualquier tipo de dato y Pig es el ambiente de
ejecución donde estos programas son ejecutados, de manera muy similar a la relación entre la
máquina virtual de Java (JVM) y una aplicación Java.
ZooKeeper
ZooKeeper es otro proyecto de código abierto de Apache que provee de una infraestructura
centralizada y de servicios que pueden ser utilizados por aplicaciones para asegurarse de que los
procesos a través de un cluster sean serializados o sincronizados.
Internamente en ZooKeeper una aplicación puede crear un archivo que se persiste en memoria en los
servidores ZooKeeper llamado znode. Este archivo znode puede ser actualizado por cualquier nodo
en el cluster, y cualquier nodo puede registrar que sea informado de los cambios ocurridos en
ese znode; es decir, un servidor puede ser configurado para "vigilar" un znode en particular.
Observaciones y comentarios
Es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software
convencional para ser capturados, administrados y procesados en un tiempo razonable. El volumen
de los datos masivos crece constantemente
Bibliografía
1. López Revilla, Juan Carlos (14 de noviembre de 2013). «Las compañías de «WiFi tracking»
en tiendas quieren que sepas lo que está pasando». Mobile World Capital.
2. Volver arriba Tucker, Patric (16 de mayo de 2013). «¿Han hecho los grandes volúmenes de
datos que el anonimato sea imposible?». MIT Technology Review.
3. Volver arriba PersonicX Cluster Perspectives. 2010.
4. Volver arriba McManus, John (2013). «Street Wiser». American Demographics.
5. Volver arriba↑ Sevilla, Fernando (27 de enero de 2013). El Historial de Ubicaciones de
Android, ¿qué sabe Google de tu posición?.
6. Volver arriba↑ Zheng, Yu; Zhang, Lizhu; Zhengxin, Ma; Xie, Xing; Ma, Wei-Ying (5 de
febrero de 2011). «Recommending Friends and locations based on individual location
history.». ACM Transactions on the Web 5
.Conclusiones
. El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado
años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis,
es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y re
trabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de
llegar. Como se pudo notar en el presente artículo, implementar una solución alrededor de Big Data
implica de la integración de diversos componentes y proyectos que en conjunto forman el
ecosistema necesario para analizar grandes cantidades de datos.
Descuentoentareas por: Asc
AUTOR(estudiante):(de acuerdoa lista oficial) 1 2
El trabajono estáen TimesNewRoman12 y no en tamañocarta 0.3
Los márgenesnosonde 2 cm enlos4 lados 0.2
Tiene caratula 0.2
Tiene sangríao no estáa renglóncerrado 0.2
1. Título (noestá centrado) 0.2
Tiene másde 45 caracteres 0.2
No estáennegritas 0.2
Tiene acentosy/opuntos 0.2
Inicial yapellidosde autornoestánenitálica 0.3
No aparece carnet,curso e Institución 0.3
No estáel E-mail del autor 0.3
2. Resumen(estácentrado y no en negrita) 0.2
No tiene lainformaciónrelevante sobre el trabajo 0.4
No tiene losobjetivosdelestudianteparaescribirel artículo 0.4
No muestraresultados(delartículoescritoporel estudiante) 0.4
No tiene conclusiones(delartículoescritoporel estudiante) 0.4
Es mayor de 250 palabraso menorde 150 0.2
3. Palabras clave
Tiene menosde 3 o más de 5 palabras 0.2
"Palabrasclaves"noestáen negritaa laizquierda 0.2
Las palabrasno están justificadasalaizquierdayenuna línea 0.2
No identificanel trabajo(artículo) realizado 0.3
4. Desarrollo del tema
No muestraresultadosrelevantesdeltematratado 0.7
No tiene losobjetivosdeltematratado(nodel estudiante) 0.3
El desarrollotienemenosde paginaymediaomás de cuatro 0.4
No tiene actualizacionesdel tematratado 0.4
No describe lassiglasutilizadasenprimeraaparición 0.2
El lenguaje noesclaroo no esprofesional 0.2
Tiene faltasde ortografía(al menostiene una) 0.2
5. Observacionesycomentarios
No muestraresultadosrelevantesdeltematratado 0.2
No tiene sugerenciasrelacionadasconel tema 0.3
No tiene comentariosrelevantessobre el tema 0.3
6. Conclusiones
No estánrelacionadasconel tema 0.3
No se obtienende loescritoenel trabajo(artículo) 0.4
7. Bibliografía
Tiene menosde tresreferencias 0.4
No se identificancorrectamente 0.2
TOTAL descontadodel valor de la tarea (-)
NOTA DE LA TAREA SOBRE 10 0

Más contenido relacionado

La actualidad más candente

La actualidad más candente (19)

Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
1365
13651365
1365
 
Data
DataData
Data
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
BASE DE DATOS
BASE DE DATOSBASE DE DATOS
BASE DE DATOS
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Informe big data
Informe big dataInforme big data
Informe big data
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Empresa
EmpresaEmpresa
Empresa
 
Sistemasinformacion
SistemasinformacionSistemasinformacion
Sistemasinformacion
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
Explicaci[1]..
Explicaci[1]..Explicaci[1]..
Explicaci[1]..
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 

Destacado

Kelas 10 smk_simulasi_digital_1
Kelas 10 smk_simulasi_digital_1Kelas 10 smk_simulasi_digital_1
Kelas 10 smk_simulasi_digital_1fikri skadaku
 
Modelos de negocio tradicional y modelos de negocios económicos digital
Modelos de negocio tradicional y modelos de negocios económicos digitalModelos de negocio tradicional y modelos de negocios económicos digital
Modelos de negocio tradicional y modelos de negocios económicos digitalAlejandro Nava
 
Time Management - Using Technology Effectively
Time Management - Using Technology Effectively Time Management - Using Technology Effectively
Time Management - Using Technology Effectively Erick Solms
 
направления деятельности логопеда
направления деятельности логопеданаправления деятельности логопеда
направления деятельности логопедаbakirova
 
Cool and Cute Fashion Collection
Cool and Cute Fashion CollectionCool and Cute Fashion Collection
Cool and Cute Fashion CollectionEl Speak
 
Uudistu, uudistu, uudistu – johtaminen murroksessa
Uudistu, uudistu, uudistu – johtaminen murroksessaUudistu, uudistu, uudistu – johtaminen murroksessa
Uudistu, uudistu, uudistu – johtaminen murroksessaSenaatti-kiinteistöt
 
Online Payments and You
Online Payments and YouOnline Payments and You
Online Payments and YouYos Riady
 
Design Me Better: Introduction To Medical Packaging
Design Me Better: Introduction To Medical PackagingDesign Me Better: Introduction To Medical Packaging
Design Me Better: Introduction To Medical PackagingEleanor—Jayne Browne
 

Destacado (9)

Kelas 10 smk_simulasi_digital_1
Kelas 10 smk_simulasi_digital_1Kelas 10 smk_simulasi_digital_1
Kelas 10 smk_simulasi_digital_1
 
Linfoma de hodgkin
Linfoma de hodgkinLinfoma de hodgkin
Linfoma de hodgkin
 
Modelos de negocio tradicional y modelos de negocios económicos digital
Modelos de negocio tradicional y modelos de negocios económicos digitalModelos de negocio tradicional y modelos de negocios económicos digital
Modelos de negocio tradicional y modelos de negocios económicos digital
 
Time Management - Using Technology Effectively
Time Management - Using Technology Effectively Time Management - Using Technology Effectively
Time Management - Using Technology Effectively
 
направления деятельности логопеда
направления деятельности логопеданаправления деятельности логопеда
направления деятельности логопеда
 
Cool and Cute Fashion Collection
Cool and Cute Fashion CollectionCool and Cute Fashion Collection
Cool and Cute Fashion Collection
 
Uudistu, uudistu, uudistu – johtaminen murroksessa
Uudistu, uudistu, uudistu – johtaminen murroksessaUudistu, uudistu, uudistu – johtaminen murroksessa
Uudistu, uudistu, uudistu – johtaminen murroksessa
 
Online Payments and You
Online Payments and YouOnline Payments and You
Online Payments and You
 
Design Me Better: Introduction To Medical Packaging
Design Me Better: Introduction To Medical PackagingDesign Me Better: Introduction To Medical Packaging
Design Me Better: Introduction To Medical Packaging
 

Similar a Qué es big data

Similar a Qué es big data (20)

big data
big  databig  data
big data
 
Big data
Big dataBig data
Big data
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Laboratorio 3 big data
Laboratorio 3 big dataLaboratorio 3 big data
Laboratorio 3 big data
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Big data
Big dataBig data
Big data
 
Big data
Big dataBig data
Big data
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big Objects
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Trabajo de bigadata
Trabajo de bigadataTrabajo de bigadata
Trabajo de bigadata
 
Ensayo cientifico
Ensayo cientificoEnsayo cientifico
Ensayo cientifico
 
El big data
El big dataEl big data
El big data
 
Datos abiertos en el Ayuntamiento de Lorca
Datos abiertos en el Ayuntamiento de LorcaDatos abiertos en el Ayuntamiento de Lorca
Datos abiertos en el Ayuntamiento de Lorca
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
 

Último

CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 

Último (19)

CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 

Qué es big data

  • 1. Big Data D.V.E Escobar Borrayo 7622-15-168 Universidad Mariano Gálvez 7622-408Informática I dilmaveronica0@gmail.com Qué es Big Data? 1. Introducción Pues bien, en términos generales podríamos referirnos como a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis. De tal manera que, el concepto de Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos. Entonces RESUMEN Los que hace diferente al Big Data es, quizá, la característica de los datos. La capacidad de obtener y procesar datos avanza día a día, lo que permite que los datos con los que la comunidad científica puede “jugar” son, cada vez, más específicos, más detallados. Esto genera una gran cantidad de datos muy variados en muy poco tiempo, una gran bola de nieve informatizada que no es más que la evolución directa de los métodos de observación que la comunidad científica necesita para su proceso de investigación. Una evolución que ha dado un salto tan grande en tan pocos años que hemos tenido que marcar un punto de inflexión: El nacimiento del “Big Data”. . ¿De dónde proviene toda esa información? Los seres humanos estamos creando y almacenando información constantemente y cada vez más en cantidades astronómicas. Se podría decir que si todos los bits y bytes de datos del último año fueran guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso. Esta contribución a la acumulación masiva de datos la podemos encontrar en diversas industrias, las compañías mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de sus clientes, proveedores, operaciones, etc., de la misma manera sucede con el sector público. ¿Qué tipos de datos debo explorar? Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se debe analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿qué problema es el que se está tratando de resolver?.
  • 2. Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayudaría a entender mejor su representación, aunque es muy probable que estas categorías puedan extenderse con el avance tecnológico. 1.- Web and Social Media: 2.- Machine-to-Machine (M2M 3.- Big Transaction Data. 4.- Biometrics. 5.- Human Generated. Componentes de una plataforma Big Data Las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas montañas de información han generado un costo potencial al no descubrir el gran valor asociado. Desde luego, el ángulo correcto que actualmente tiene el liderazgo en términos de popularidad para analizar enormes cantidades de información es la plataforma de código abierto Hadoop. Hadoop Distributed File System(HDFS) Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes volúmenes. La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS. Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena en un diferente rack para lograr redundancia. Hadoop MapReduce MapReduce es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales son separados en tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map como datos de entrada y combina las tuplas en un conjunto más pequeño de las mismas. Una fase intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y determina que nodo procesará estos datos dirigiendo la salida a una tarea reduce en específico. La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce Pig Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop enfocarse más en analizar todos los conjuntos de datos y dedicar menos tiempo en construir los programas MapReduce. Tal como su nombre lo indica al igual que cualquier cerdo que come cualquier cosa, el
  • 3. lenguaje PigLatin fue diseñado para manejar cualquier tipo de dato y Pig es el ambiente de ejecución donde estos programas son ejecutados, de manera muy similar a la relación entre la máquina virtual de Java (JVM) y una aplicación Java. ZooKeeper ZooKeeper es otro proyecto de código abierto de Apache que provee de una infraestructura centralizada y de servicios que pueden ser utilizados por aplicaciones para asegurarse de que los procesos a través de un cluster sean serializados o sincronizados. Internamente en ZooKeeper una aplicación puede crear un archivo que se persiste en memoria en los servidores ZooKeeper llamado znode. Este archivo znode puede ser actualizado por cualquier nodo en el cluster, y cualquier nodo puede registrar que sea informado de los cambios ocurridos en ese znode; es decir, un servidor puede ser configurado para "vigilar" un znode en particular. Observaciones y comentarios Es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente Bibliografía 1. López Revilla, Juan Carlos (14 de noviembre de 2013). «Las compañías de «WiFi tracking» en tiendas quieren que sepas lo que está pasando». Mobile World Capital. 2. Volver arriba Tucker, Patric (16 de mayo de 2013). «¿Han hecho los grandes volúmenes de datos que el anonimato sea imposible?». MIT Technology Review. 3. Volver arriba PersonicX Cluster Perspectives. 2010. 4. Volver arriba McManus, John (2013). «Street Wiser». American Demographics. 5. Volver arriba↑ Sevilla, Fernando (27 de enero de 2013). El Historial de Ubicaciones de Android, ¿qué sabe Google de tu posición?. 6. Volver arriba↑ Zheng, Yu; Zhang, Lizhu; Zhengxin, Ma; Xie, Xing; Ma, Wei-Ying (5 de febrero de 2011). «Recommending Friends and locations based on individual location history.». ACM Transactions on the Web 5 .Conclusiones . El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y re trabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar. Como se pudo notar en el presente artículo, implementar una solución alrededor de Big Data implica de la integración de diversos componentes y proyectos que en conjunto forman el ecosistema necesario para analizar grandes cantidades de datos.
  • 4. Descuentoentareas por: Asc AUTOR(estudiante):(de acuerdoa lista oficial) 1 2 El trabajono estáen TimesNewRoman12 y no en tamañocarta 0.3 Los márgenesnosonde 2 cm enlos4 lados 0.2 Tiene caratula 0.2 Tiene sangríao no estáa renglóncerrado 0.2 1. Título (noestá centrado) 0.2 Tiene másde 45 caracteres 0.2 No estáennegritas 0.2 Tiene acentosy/opuntos 0.2 Inicial yapellidosde autornoestánenitálica 0.3 No aparece carnet,curso e Institución 0.3 No estáel E-mail del autor 0.3 2. Resumen(estácentrado y no en negrita) 0.2 No tiene lainformaciónrelevante sobre el trabajo 0.4 No tiene losobjetivosdelestudianteparaescribirel artículo 0.4 No muestraresultados(delartículoescritoporel estudiante) 0.4 No tiene conclusiones(delartículoescritoporel estudiante) 0.4 Es mayor de 250 palabraso menorde 150 0.2 3. Palabras clave Tiene menosde 3 o más de 5 palabras 0.2 "Palabrasclaves"noestáen negritaa laizquierda 0.2 Las palabrasno están justificadasalaizquierdayenuna línea 0.2 No identificanel trabajo(artículo) realizado 0.3 4. Desarrollo del tema No muestraresultadosrelevantesdeltematratado 0.7 No tiene losobjetivosdeltematratado(nodel estudiante) 0.3 El desarrollotienemenosde paginaymediaomás de cuatro 0.4 No tiene actualizacionesdel tematratado 0.4 No describe lassiglasutilizadasenprimeraaparición 0.2 El lenguaje noesclaroo no esprofesional 0.2 Tiene faltasde ortografía(al menostiene una) 0.2 5. Observacionesycomentarios No muestraresultadosrelevantesdeltematratado 0.2 No tiene sugerenciasrelacionadasconel tema 0.3 No tiene comentariosrelevantessobre el tema 0.3 6. Conclusiones No estánrelacionadasconel tema 0.3 No se obtienende loescritoenel trabajo(artículo) 0.4 7. Bibliografía Tiene menosde tresreferencias 0.4 No se identificancorrectamente 0.2 TOTAL descontadodel valor de la tarea (-) NOTA DE LA TAREA SOBRE 10 0