Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Que son el big data la ciencia de datos y el data mining
1. (*)(Por Marcelo Bosque, DsPC Harvard University)
¿QUE SON EL BIG DATA, LA CIENCIA DE DATOS Y EL DATA MINING? (*)
DATA SCIENCE es el nombre que se le da a la ciencia del tratamiento de datos,
especialmente en lo referente al manejo del BIG DATA y las técnicas de minería de
datos. Un científico de datos debe estar versado en estadísticas, machine learning,
minería de datos, BIG DATA, On Line Analitical Processing e Inteligencia
Artificial.
¿Qué es exactamente Ciencia de Datos?
Para entender qué es la Ciencia de Datos; es necesario remontarse un poco en la
historia; pues exploramos la ruta del nacimiento del término ciencia de datos,
veremos dos temas que se juntan.
BIG DATA
Primero hay que comprender que es Big Data. De acuerdo con la definición de Gartner
realizada en el 2001: Big data es un conjunto de datos de una gran variedad y
formatos; que se acumulan en grandes volúmenes y a una velocidad cada vez
mayor. A esto es lo que se conoce como las 3 V’s (dimensiones) de la Big Data.
Formalmente podemos decir que es la captura y almacenamiento de grandes
volúmenes de datos. Sin embargo, mucha gente usa esta definición refiriéndose
también al tratamiento y análisis de grandes volúmenes de datos usando las técnicas
antes detalladas en el punto "minería de datos". Incluye como almacenar los datos,
que tipos de bases de datos tener, que modelo usar y que técnicas es recomendable
usar para la minería de datos para los casos específicos que se presenten.
2. (*)(Por Marcelo Bosque, DsPC Harvard University)
En la foto, una nota sobre usos de la mineria de datos para diagnostico medico
Estableciendo esto en un contexto simple; el concepto de Big Data se refiere a datos
masivos y a menudo no estructurados, en los que las capacidades de procesamiento
3. (*)(Por Marcelo Bosque, DsPC Harvard University)
de las herramientas tradicionales de gestión de datos resultan ser inadecuadas. Big
Data puede ocupar terabytes y petabytes de espacio de almacenamiento en diversos
formatos, incluidos texto, video, sonido, imágenes y más.
Aunque el término Big Data es relativamente nuevo, la tendencia a agrupar y
almacenar grandes volúmenes de información para análisis a futuro es muy antigua.
La minería de datos se usa, (según el autor que se lea), como una especie de sinónimo
de “ciencia de datos” . Se podría pensar también que la ciencia de datos utiliza como
herramienta fundamental a la minería de datos.
Un dato es la representación simbólica de un atributo, que puede ser cualitativo o
cuantitativo, de la información de un objeto; persona; ser viviente; organización; etc.
Por ejemplo: para determinar la información de una persona, se podrían considerar
los siguientes atributos: edad; estatura; género; estado de ánimo; color de ojos; etc.
Esto nos arrojaría un conjunto de condiciones o situaciones que de por si solos no
aportan ninguna información relevante; pero al ser agrupados y analizados se podría
determinar cierto valor o hecho que fuera relevante.
En la foto: Nota sobre los desarrollos de Amazon en mineria de datos
4. (*)(Por Marcelo Bosque, DsPC Harvard University)
¿Qué es la minería de datos?
La minería de datos es el proceso de analizar un conjunto de datos para encontrar
información. Una vez que los datos se recopilan en el almacén de datos, el proceso de
extracción de datos comienza e involucra todo, desde limpiar los datos de registros
incompletos hasta crear visualizaciones de hallazgos. La minería de datos
generalmente se asocia con el análisis de los grandes conjuntos de datos presentes en
los campos de big data, aprendizaje automático e inteligencia artificial. El proceso
busca patrones, anomalías y asociaciones en los datos con el objetivo de extraer valor.
Por ejemplo, en el caso de los automóviles sin conductor, las asociaciones de datos
podrían ayudar a identificar las acciones de conducción que tienen más
probabilidades de provocar accidentes. Las seis etapas centrales del proceso de
minería de datos incluyen detección de anomalías, modelado de dependencias,
agrupamiento, clasificación, regresión y generación de informes.
En la foto, una nota sobre usos de data science / mineria de datos para el periodismo
Pueden ser:
1) Cuando no tengo una idea predeterminada de lo que busco: Orientadas al
descubrimiento
2) Cuando busco sobre la base de patrones encontrados anteriormente: Orientadas al
modelado predictivo
3)Cuando se aplican patrones para encontrar anomalías: Análisis forense