SlideShare una empresa de Scribd logo
1 de 5
Descargar para leer sin conexión
(*)(Por Marcelo Bosque, DsPC Harvard University)
¿CUÁLES SON LAS HERRAMIENTAS Y TÉCNICAS QUE USA LA CIENCIA DE
DATOS? (*)
DATA SCIENCE Es el nombre que se le da a la ciencia del tratamiento de datos,
especialmente en lo referente las técnicas de minería de datos
La minería de datos se usa, (según el autor que se lea), como una especie de sinónimo
de “ciencia de datos”. Se podría pensar también que la ciencia de datos utiliza como
herramienta fundamental a la minería de datos.
En la foto: Uso de mineria de datos para el periodismo
Las técnicas más utilizadas para la minería de datos son
1) análisis de correlación y análisis de regresión lineal: teniendo dos variables X e
Y, ambos con muchos valores, se trata de ver si están correlacionados, es decir si a
medida que uno crece, se incrementa el otro o viceversa. una correlación de 1
significa 100% correlación absoluta, una correlación de 0 significa independencia
(*)(Por Marcelo Bosque, DsPC Harvard University)
absoluta. Ej sea X=(1,2,3,4,5) sea Y=(4,5,6,7,8). La regresión lineal me dirá que Y=3x
hay correlación absoluta por lo cual sabiendo X puedo estimar Y.
2) arboles de decisión: una forma gráfica de establecer cadenas de reglas... Ej: SI el
alumno aprueba con buena nota el 1PT Y SI aprueba con buena nota el 2PT y SI
aprueba con buena nota el PP y SI tiene buenas notas de concepto Y SI tiene buenas
notas de TP ENTONCES aprueba Y SI aprueba con 7 o más entonces ->promociona
3) Redes Neuronales: modelos matemáticos para reconocer formas, como los rostros,
los lectores de huellas digitales, los lectores de iris etc. Se ven en los cuadraditos que
facebook pone en las caras de las fotos para hacer TAG... El programa
automáticamente ve una foto y "sabe" que eso es una cara.
4) Algoritmos genéticos GA: Una técnica de machine learning (aprendizaje de
máquina) donde la máquina se le da un objetivo (como producir un cálculo complejo)
y la máquina va haciendo pruebas hasta que encuentra sola como hacerlo. Es una
variante compleja del método de "prueba y error". Actualmente se encuentra en
“decadencia” ya que fue reemplazado por otros enfoques de “prueba y error” como los
enfoques estadísticos y métodos como el MONTECARLO (hacer muchas pruebas
cambiando alguna variable y tomar la mejor)
5) Lógica Difusa (Fuzzy logic): consiste en dar a los números valores ligados a los
sentimientos humanos, llamados valores "sentimentales" como "lindo", "feo", "me
gusta" , "no me gusta" y trabajar con estos "sentimientos" en vez de con números.
Ejemplo supongamos que la temperatura en grados Celsius es de 28 grados y la
escribimos como T=28 y por otro lado decimos que hace frio a menos de 15 grados,
templado entre 15 y 20 y cálido más de 20. Si asimilamos eso a una variable llamada
CLIMA, tendremos que CLIMA= Frio si (T<15 )
CLIMA= Templado si (T>15) Y (T<20)
CLIMA= hace calor si=(T>20)
Con esta metodología, una computadora que sepa que el clima es de 28 grados puede
contestar=" hace calor"
Método del vecino más cercano (analogía): Si para un problema hay una solución
de un problema similar, se usa este método para resolver el nuevo problema
MBA Análisis de la Canasta de Mercado (Market Basket Analisis): Una variante de
realizar una correlacion con los productos que se compran en el supermercado. Ej:
una persona que lleva cerveza podria llevar generalmente papas fritas y manies. De
esta forma la gente de marketing puede hacer un "combo" de cerveza y papas fritas a
mitad de precio.
(*)(Por Marcelo Bosque, DsPC Harvard University)
En la foto: Uso de mineria de datos para la industria gastronomica
(*)(Por Marcelo Bosque, DsPC Harvard University)
Sentiment Algorithms: El algoritmo sentiment (sentimental), es un ejemplo de
lógica difusa y sirve para ver cuántos comentarios son a favor o en contra en una lista
de respuestas. Se usa principalmente para saber de un comentario en Facebook, Twitter
o similares, cuantas respuestas son a favor y cuantas en contra, de aquellas que no
tengan un Emoji (carita o signo como :) ) que lo haga explicito. Para ello se usa lógica
difusa donde se ponen las palabras "a favor" en una lista ("me encanto", "así es", de
acuerdo", pienso lo mismo") y las en contra en otras ("... es un hijo de ", "la P###!" , "esto
es un montón de M..." ). después se buscan estas palabras en todos los tweets y cuando
se encuentran se clasifican en "Positivo" o "negativo" teniendo una idea de la aceptación
del comentario. Extremadamente útiles para las frases de políticos y celebridades que
tienen millones de seguidores y cada vez que dicen algo se quiere analizar si gusta o no
lo que dicen.
(*)(Por Marcelo Bosque, DsPC Harvard University)
En la foto: Uso de BIG DATA (en realidad sería más correcto decir “minería de datos”) para
la industria del turismo
(*)
(Por Marcelo Bosque, DsPC Harvard University)

Más contenido relacionado

Similar a Cuales son las herramientas y tecnicas que usa la ciencia de datos

Similar a Cuales son las herramientas y tecnicas que usa la ciencia de datos (20)

Estadistica y diseños experimentales
Estadistica y diseños experimentalesEstadistica y diseños experimentales
Estadistica y diseños experimentales
 
Responde :
Responde :Responde :
Responde :
 
mi amore
mi amoremi amore
mi amore
 
Estrategias de investigación en Ciencias Sociales
Estrategias de investigación en Ciencias SocialesEstrategias de investigación en Ciencias Sociales
Estrategias de investigación en Ciencias Sociales
 
Seminario de investigación social - Miguel Oliva
Seminario de investigación social - Miguel OlivaSeminario de investigación social - Miguel Oliva
Seminario de investigación social - Miguel Oliva
 
Unidad I.- Modelos Analíticos de Fenómenos Aleatorios Resumen
Unidad I.- Modelos Analíticos de Fenómenos Aleatorios ResumenUnidad I.- Modelos Analíticos de Fenómenos Aleatorios Resumen
Unidad I.- Modelos Analíticos de Fenómenos Aleatorios Resumen
 
Exposicion estadistica inferencial spss
Exposicion estadistica inferencial spssExposicion estadistica inferencial spss
Exposicion estadistica inferencial spss
 
Matemáticas hasta en la sopa
Matemáticas hasta en la sopaMatemáticas hasta en la sopa
Matemáticas hasta en la sopa
 
SesióN 1
SesióN 1SesióN 1
SesióN 1
 
Trabajo de sistemas alex
Trabajo de sistemas alexTrabajo de sistemas alex
Trabajo de sistemas alex
 
Trabajo de sistemas alex
Trabajo de sistemas alexTrabajo de sistemas alex
Trabajo de sistemas alex
 
Trabajo de sistemas alex
Trabajo de sistemas alexTrabajo de sistemas alex
Trabajo de sistemas alex
 
ley tributaria colombia
ley tributaria colombialey tributaria colombia
ley tributaria colombia
 
Indicadores
IndicadoresIndicadores
Indicadores
 
TRABAJO DE TECNOLOGÍA.pdf
TRABAJO DE TECNOLOGÍA.pdfTRABAJO DE TECNOLOGÍA.pdf
TRABAJO DE TECNOLOGÍA.pdf
 
ADNe y los RRHH
ADNe y los RRHHADNe y los RRHH
ADNe y los RRHH
 
Helena dominguezmelendez tarea2
Helena dominguezmelendez tarea2Helena dominguezmelendez tarea2
Helena dominguezmelendez tarea2
 
Inteligencia artificial
Inteligencia artificialInteligencia artificial
Inteligencia artificial
 
Taller
TallerTaller
Taller
 
11 arreglos....
11 arreglos....11 arreglos....
11 arreglos....
 

Último

Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdfJC Díaz Herrera
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúDiegoFranciscoLarrea
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.FeliGamarra1
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioAlexander VA
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfJC Díaz Herrera
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomascarmenachullahuamani1
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfJulioCesarRubianoArc1
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkJuanmanuelYapitamani
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...Daniela Márquez Sena
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahodalisnicoles
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfanaliticaydatos
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaAlexander VA
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEmisor Digital
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviHugoSSalinas
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdfJC Díaz Herrera
 

Último (15)

Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdf
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdf
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomas
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdf
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historia
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 

Cuales son las herramientas y tecnicas que usa la ciencia de datos

  • 1. (*)(Por Marcelo Bosque, DsPC Harvard University) ¿CUÁLES SON LAS HERRAMIENTAS Y TÉCNICAS QUE USA LA CIENCIA DE DATOS? (*) DATA SCIENCE Es el nombre que se le da a la ciencia del tratamiento de datos, especialmente en lo referente las técnicas de minería de datos La minería de datos se usa, (según el autor que se lea), como una especie de sinónimo de “ciencia de datos”. Se podría pensar también que la ciencia de datos utiliza como herramienta fundamental a la minería de datos. En la foto: Uso de mineria de datos para el periodismo Las técnicas más utilizadas para la minería de datos son 1) análisis de correlación y análisis de regresión lineal: teniendo dos variables X e Y, ambos con muchos valores, se trata de ver si están correlacionados, es decir si a medida que uno crece, se incrementa el otro o viceversa. una correlación de 1 significa 100% correlación absoluta, una correlación de 0 significa independencia
  • 2. (*)(Por Marcelo Bosque, DsPC Harvard University) absoluta. Ej sea X=(1,2,3,4,5) sea Y=(4,5,6,7,8). La regresión lineal me dirá que Y=3x hay correlación absoluta por lo cual sabiendo X puedo estimar Y. 2) arboles de decisión: una forma gráfica de establecer cadenas de reglas... Ej: SI el alumno aprueba con buena nota el 1PT Y SI aprueba con buena nota el 2PT y SI aprueba con buena nota el PP y SI tiene buenas notas de concepto Y SI tiene buenas notas de TP ENTONCES aprueba Y SI aprueba con 7 o más entonces ->promociona 3) Redes Neuronales: modelos matemáticos para reconocer formas, como los rostros, los lectores de huellas digitales, los lectores de iris etc. Se ven en los cuadraditos que facebook pone en las caras de las fotos para hacer TAG... El programa automáticamente ve una foto y "sabe" que eso es una cara. 4) Algoritmos genéticos GA: Una técnica de machine learning (aprendizaje de máquina) donde la máquina se le da un objetivo (como producir un cálculo complejo) y la máquina va haciendo pruebas hasta que encuentra sola como hacerlo. Es una variante compleja del método de "prueba y error". Actualmente se encuentra en “decadencia” ya que fue reemplazado por otros enfoques de “prueba y error” como los enfoques estadísticos y métodos como el MONTECARLO (hacer muchas pruebas cambiando alguna variable y tomar la mejor) 5) Lógica Difusa (Fuzzy logic): consiste en dar a los números valores ligados a los sentimientos humanos, llamados valores "sentimentales" como "lindo", "feo", "me gusta" , "no me gusta" y trabajar con estos "sentimientos" en vez de con números. Ejemplo supongamos que la temperatura en grados Celsius es de 28 grados y la escribimos como T=28 y por otro lado decimos que hace frio a menos de 15 grados, templado entre 15 y 20 y cálido más de 20. Si asimilamos eso a una variable llamada CLIMA, tendremos que CLIMA= Frio si (T<15 ) CLIMA= Templado si (T>15) Y (T<20) CLIMA= hace calor si=(T>20) Con esta metodología, una computadora que sepa que el clima es de 28 grados puede contestar=" hace calor" Método del vecino más cercano (analogía): Si para un problema hay una solución de un problema similar, se usa este método para resolver el nuevo problema MBA Análisis de la Canasta de Mercado (Market Basket Analisis): Una variante de realizar una correlacion con los productos que se compran en el supermercado. Ej: una persona que lleva cerveza podria llevar generalmente papas fritas y manies. De esta forma la gente de marketing puede hacer un "combo" de cerveza y papas fritas a mitad de precio.
  • 3. (*)(Por Marcelo Bosque, DsPC Harvard University) En la foto: Uso de mineria de datos para la industria gastronomica
  • 4. (*)(Por Marcelo Bosque, DsPC Harvard University) Sentiment Algorithms: El algoritmo sentiment (sentimental), es un ejemplo de lógica difusa y sirve para ver cuántos comentarios son a favor o en contra en una lista de respuestas. Se usa principalmente para saber de un comentario en Facebook, Twitter o similares, cuantas respuestas son a favor y cuantas en contra, de aquellas que no tengan un Emoji (carita o signo como :) ) que lo haga explicito. Para ello se usa lógica difusa donde se ponen las palabras "a favor" en una lista ("me encanto", "así es", de acuerdo", pienso lo mismo") y las en contra en otras ("... es un hijo de ", "la P###!" , "esto es un montón de M..." ). después se buscan estas palabras en todos los tweets y cuando se encuentran se clasifican en "Positivo" o "negativo" teniendo una idea de la aceptación del comentario. Extremadamente útiles para las frases de políticos y celebridades que tienen millones de seguidores y cada vez que dicen algo se quiere analizar si gusta o no lo que dicen.
  • 5. (*)(Por Marcelo Bosque, DsPC Harvard University) En la foto: Uso de BIG DATA (en realidad sería más correcto decir “minería de datos”) para la industria del turismo (*) (Por Marcelo Bosque, DsPC Harvard University)