Cuales son las herramientas y tecnicas que usa la ciencia de datos

(*)(Por Marcelo Bosque, DsPC Harvard University)
¿CUÁLES SON LAS HERRAMIENTAS Y TÉCNICAS QUE USA LA CIENCIA DE
DATOS? (*)
DATA SCIENCE Es el nombre que se le da a la ciencia del tratamiento de datos,
especialmente en lo referente las técnicas de minería de datos
La minería de datos se usa, (según el autor que se lea), como una especie de sinónimo
de “ciencia de datos”. Se podría pensar también que la ciencia de datos utiliza como
herramienta fundamental a la minería de datos.
En la foto: Uso de mineria de datos para el periodismo
Las técnicas más utilizadas para la minería de datos son
1) análisis de correlación y análisis de regresión lineal: teniendo dos variables X e
Y, ambos con muchos valores, se trata de ver si están correlacionados, es decir si a
medida que uno crece, se incrementa el otro o viceversa. una correlación de 1
significa 100% correlación absoluta, una correlación de 0 significa independencia

absoluta. Ej sea X=(1,2,3,4,5) sea Y=(4,5,6,7,8). La regresión lineal me dirá que Y=3x
hay correlación absoluta por lo cual sabiendo X puedo estimar Y.
2) arboles de decisión: una forma gráfica de establecer cadenas de reglas... Ej: SI el
alumno aprueba con buena nota el 1PT Y SI aprueba con buena nota el 2PT y SI
aprueba con buena nota el PP y SI tiene buenas notas de concepto Y SI tiene buenas
notas de TP ENTONCES aprueba Y SI aprueba con 7 o más entonces ->promociona
3) Redes Neuronales: modelos matemáticos para reconocer formas, como los rostros,
los lectores de huellas digitales, los lectores de iris etc. Se ven en los cuadraditos que
facebook pone en las caras de las fotos para hacer TAG... El programa
automáticamente ve una foto y "sabe" que eso es una cara.
4) Algoritmos genéticos GA: Una técnica de machine learning (aprendizaje de
máquina) donde la máquina se le da un objetivo (como producir un cálculo complejo)
y la máquina va haciendo pruebas hasta que encuentra sola como hacerlo. Es una
variante compleja del método de "prueba y error". Actualmente se encuentra en
“decadencia” ya que fue reemplazado por otros enfoques de “prueba y error” como los
enfoques estadísticos y métodos como el MONTECARLO (hacer muchas pruebas
cambiando alguna variable y tomar la mejor)
5) Lógica Difusa (Fuzzy logic): consiste en dar a los números valores ligados a los
sentimientos humanos, llamados valores "sentimentales" como "lindo", "feo", "me
gusta" , "no me gusta" y trabajar con estos "sentimientos" en vez de con números.
Ejemplo supongamos que la temperatura en grados Celsius es de 28 grados y la
escribimos como T=28 y por otro lado decimos que hace frio a menos de 15 grados,
templado entre 15 y 20 y cálido más de 20. Si asimilamos eso a una variable llamada
CLIMA, tendremos que CLIMA= Frio si (T<15 )
CLIMA= Templado si (T>15) Y (T<20)
CLIMA= hace calor si=(T>20)
Con esta metodología, una computadora que sepa que el clima es de 28 grados puede
contestar=" hace calor"
Método del vecino más cercano (analogía): Si para un problema hay una solución
de un problema similar, se usa este método para resolver el nuevo problema
MBA Análisis de la Canasta de Mercado (Market Basket Analisis): Una variante de
realizar una correlacion con los productos que se compran en el supermercado. Ej:
una persona que lleva cerveza podria llevar generalmente papas fritas y manies. De
esta forma la gente de marketing puede hacer un "combo" de cerveza y papas fritas a
mitad de precio.

En la foto: Uso de mineria de datos para la industria gastronomica

Sentiment Algorithms: El algoritmo sentiment (sentimental), es un ejemplo de
lógica difusa y sirve para ver cuántos comentarios son a favor o en contra en una lista
de respuestas. Se usa principalmente para saber de un comentario en Facebook, Twitter
o similares, cuantas respuestas son a favor y cuantas en contra, de aquellas que no
tengan un Emoji (carita o signo como :) ) que lo haga explicito. Para ello se usa lógica
difusa donde se ponen las palabras "a favor" en una lista ("me encanto", "así es", de
acuerdo", pienso lo mismo") y las en contra en otras ("... es un hijo de ", "la P###!" , "esto
es un montón de M..." ). después se buscan estas palabras en todos los tweets y cuando
se encuentran se clasifican en "Positivo" o "negativo" teniendo una idea de la aceptación
del comentario. Extremadamente útiles para las frases de políticos y celebridades que
tienen millones de seguidores y cada vez que dicen algo se quiere analizar si gusta o no
lo que dicen.

En la foto: Uso de BIG DATA (en realidad sería más correcto decir “minería de datos”) para
la industria del turismo
(*)
(Por Marcelo Bosque, DsPC Harvard University)

Cuales son las herramientas y tecnicas que usa la ciencia de datos

Recomendados

Recomendados

Más contenido relacionado

Similar a Cuales son las herramientas y tecnicas que usa la ciencia de datos

Similar a Cuales son las herramientas y tecnicas que usa la ciencia de datos (20)

Último

Último (15)

Cuales son las herramientas y tecnicas que usa la ciencia de datos