Este documento discute el problema de la maldición de la dimensionalidad en machine learning. Explica que a medida que aumenta el número de variables, se hace más difícil encontrar el modelo óptimo que minimice el error. Luego resume métodos para reducir la dimensionalidad como selección de características, extracción de características y casos de éxito al aplicar estas técnicas. Finalmente, ofrece recomendaciones sobre cuándo usar reducción de dimensionalidad y qué algoritmos seleccionar dependiendo del conocimiento del problema y su dimensionalidad.
Este documento presenta una introducción a la investigación operativa y la programación lineal. Explica que la investigación operativa se aplica a problemas que involucran la coordinación de actividades dentro de una empresa para tomar decisiones óptimas. Luego, define la programación lineal y sus componentes básicos como variables de decisión, funciones objetivo y restricciones lineales. Finalmente, presenta ejemplos numéricos para ilustrar cómo resolver problemas de programación lineal gráficamente y algebraicamente.
Este documento presenta 6 ejercicios de aplicación de programación lineal resueltos utilizando el método de Solver de Excel. Cada ejercicio describe un problema de optimización con variables, restricciones y función objetivo formulados como un modelo de programación lineal, el cual es resuelto digitalizando la formulación en Excel y utilizando la herramienta Solver para encontrar la solución óptima.
Este documento presenta un problema de programación lineal para una compañía minera. Se define el objetivo de minimizar los costos de producción sujeto a restricciones de producción y un contrato de suministro. Se formula matemáticamente definiendo las variables, restricciones y objetivo para representar el problema como un modelo de programación lineal.
Este documento describe un curso sobre la aplicación de modelos cuantitativos de Investigación de Operaciones para resolver problemas reales. El curso busca aplicar modelos como Programación Lineal y Problemas de Transporte. Los objetivos son aplicar modelos cuantitativos en la resolución de problemas administrativos y optimizar soluciones usando Investigación de Operaciones. La metodología incluye clases expositivas, videos, tareas, prácticas y exámenes. La evaluación considera asistencia, trabajos individuales y en grupo, y un examen o proyect
Este documento presenta información sobre modelos matemáticos, incluyendo modelos cuantitativos y cualitativos. Explica que un modelo matemático describe teóricamente un objeto fuera de las matemáticas y que su precisión depende de cómo se representan numéricamente los hechos y situaciones naturales. También proporciona ejemplos de modelos matemáticos como comprar en un supermercado o cocinar arroz. Finalmente, introduce conceptos de programación lineal como función objetivo, restricciones y condiciones técnicas
Este documento describe cómo usar la calculadora Voyage200 para resolver un sistema de ecuaciones matriciales con tres incógnitas. Presenta un ejemplo de resolver la venta de tres productos farmacéuticos empacados en cinco cajas para determinar la cantidad de cada producto vendido. Explica los pasos para ingresar los datos a la calculadora, resolver el problema y cambiar el formato de la solución.
El documento describe la programación lineal. Explica que es una técnica de optimización para gestionar recursos y encontrar la mejor solución. Los problemas de programación lineal constan de variables de decisión, restricciones lineales y una función objetivo lineal que se quiere optimizar. Se resuelven modelando matemáticamente el problema y encontrando la solución óptima.
Este documento describe un proyecto para crear un clasificador que predice las acciones de los jugadores en el juego de póker Texas Hold'em antes de la primera apuesta (preflop). Se obtuvieron datos de 10710 manos de póker de internet. Se procesaron los datos para extraer atributos relevantes como la posición del jugador y las cartas. Se exploraron diferentes clasificadores en Weka y se encontró que J48 y MLP obtuvieron los mejores resultados. También se utilizaron técnicas de selección de atributos como ranker, filtro y
Este documento presenta una introducción a la investigación operativa y la programación lineal. Explica que la investigación operativa se aplica a problemas que involucran la coordinación de actividades dentro de una empresa para tomar decisiones óptimas. Luego, define la programación lineal y sus componentes básicos como variables de decisión, funciones objetivo y restricciones lineales. Finalmente, presenta ejemplos numéricos para ilustrar cómo resolver problemas de programación lineal gráficamente y algebraicamente.
Este documento presenta 6 ejercicios de aplicación de programación lineal resueltos utilizando el método de Solver de Excel. Cada ejercicio describe un problema de optimización con variables, restricciones y función objetivo formulados como un modelo de programación lineal, el cual es resuelto digitalizando la formulación en Excel y utilizando la herramienta Solver para encontrar la solución óptima.
Este documento presenta un problema de programación lineal para una compañía minera. Se define el objetivo de minimizar los costos de producción sujeto a restricciones de producción y un contrato de suministro. Se formula matemáticamente definiendo las variables, restricciones y objetivo para representar el problema como un modelo de programación lineal.
Este documento describe un curso sobre la aplicación de modelos cuantitativos de Investigación de Operaciones para resolver problemas reales. El curso busca aplicar modelos como Programación Lineal y Problemas de Transporte. Los objetivos son aplicar modelos cuantitativos en la resolución de problemas administrativos y optimizar soluciones usando Investigación de Operaciones. La metodología incluye clases expositivas, videos, tareas, prácticas y exámenes. La evaluación considera asistencia, trabajos individuales y en grupo, y un examen o proyect
Este documento presenta información sobre modelos matemáticos, incluyendo modelos cuantitativos y cualitativos. Explica que un modelo matemático describe teóricamente un objeto fuera de las matemáticas y que su precisión depende de cómo se representan numéricamente los hechos y situaciones naturales. También proporciona ejemplos de modelos matemáticos como comprar en un supermercado o cocinar arroz. Finalmente, introduce conceptos de programación lineal como función objetivo, restricciones y condiciones técnicas
Este documento describe cómo usar la calculadora Voyage200 para resolver un sistema de ecuaciones matriciales con tres incógnitas. Presenta un ejemplo de resolver la venta de tres productos farmacéuticos empacados en cinco cajas para determinar la cantidad de cada producto vendido. Explica los pasos para ingresar los datos a la calculadora, resolver el problema y cambiar el formato de la solución.
El documento describe la programación lineal. Explica que es una técnica de optimización para gestionar recursos y encontrar la mejor solución. Los problemas de programación lineal constan de variables de decisión, restricciones lineales y una función objetivo lineal que se quiere optimizar. Se resuelven modelando matemáticamente el problema y encontrando la solución óptima.
Este documento describe un proyecto para crear un clasificador que predice las acciones de los jugadores en el juego de póker Texas Hold'em antes de la primera apuesta (preflop). Se obtuvieron datos de 10710 manos de póker de internet. Se procesaron los datos para extraer atributos relevantes como la posición del jugador y las cartas. Se exploraron diferentes clasificadores en Weka y se encontró que J48 y MLP obtuvieron los mejores resultados. También se utilizaron técnicas de selección de atributos como ranker, filtro y
Este documento describe las unidades didácticas y contenidos de una asignatura sobre herramientas para la toma de decisiones. La asignatura cubre teoría de decisiones, cadenas de Markov, líneas de espera, teoría de juegos y simulación. La primera unidad cubre teoría de decisiones y cadenas de Markov. Las sesiones incluyen conceptos básicos, árboles de decisión y matrices de decisión.
Este documento presenta una breve introducción al aprendizaje automático. Explica conceptos clave como aprendizaje supervisado, no supervisado y por refuerzo. Usa el conjunto de datos de iris como un ejemplo para ilustrar técnicas como visualización de datos y algoritmos de clustering como k-medias. También discute esquemas de la teoría de decisión y validación cruzada.
Este documento presenta un resumen de los pasos involucrados en el análisis y modelación de datos a través de minería de datos y algoritmos de regresión lineal múltiple. Estos pasos incluyen la definición de la variable de respuesta y la base de datos, la exclusión de datos potencialmente erróneos, la determinación de transformaciones a los datos, la inserción de relaciones entre variables, y la selección del modelo final usando criterios estadísticos como el análisis de varianza y la prueba de normalidad de Kolmogorov-
Iair Linker, nos presenta los resultados al participar y salir segunda en el desafío de selección para Spike. Utilizanod diferentes algoritmos y modelos de Machine Learning, logró cumplir el desafío en menos de 3 días.
Este documento describe un análisis de datos de imágenes utilizando Weka. Incluye 19 atributos de parches de 3x3 píxeles y su clase. Se pide eliminar 3 atributos, generar un árbol C4.5 para clasificar la clase, generar reglas con PRISM y PART, seleccionar los atributos más relevantes con un algoritmo genético y J48, y comparar los resultados de J48 usando sólo los atributos seleccionados.
This presentation is about the competition of Kaggle "Otto-group". It describes the techniques of data mining and preprocessing used by Jesus Fernandez Carlos Basso and Ismael Gonzalez Marin.
Web: http://mldgr.github.io/Kaggle_Otto_Group/
Este documento introduce los conceptos básicos de la simulación. Define la simulación como el proceso de diseñar un modelo computarizado de un sistema real y conducir experimentos con este modelo para entender el comportamiento del sistema. Explica las ventajas y desventajas de la simulación, así como los conceptos de sistemas, modelos, experimentos y generación de números aleatorios, que son fundamentales para la simulación.
El documento presenta información sobre programación lineal. Explica qué es un problema de investigación de operaciones y cómo se aplican las técnicas de administración a problemas determinísticos y estocásticos. También describe el método científico para resolver problemas complejos en administración e introduce conceptos clave de programación lineal como funciones objetivo, variables de decisión y restricciones.
El documento presenta información sobre programación lineal. Explica qué es un problema de investigación de operaciones, los tipos de sistemas (determinísticos y estocásticos), y el método científico para resolver problemas complejos. Luego, introduce conceptos clave de programación lineal como variables de decisión, función objetivo, restricciones, y cómo construir un modelo matemático de programación lineal. Finalmente, presenta ejemplos ilustrativos de cómo formular problemas de la vida real como modelos de programación lineal.
El documento introduce la Investigación de Operaciones como la aplicación del método científico a problemas relacionados con el control de organizaciones para producir soluciones óptimas. Surge con la Revolución Industrial para ayudar a tomar decisiones en organizaciones más grandes y complejas. Utiliza modelos matemáticos como la programación lineal para representar sistemas reales de manera abstracta y encontrar soluciones.
Este documento presenta información sobre cifras significativas y operaciones en notación científica. Explica cómo redondear cantidades a diferentes números de cifras significativas y cómo convertir entre notación decimal y científica. También muestra ejemplos de cómo realizar sumas, restas, multiplicaciones y divisiones con números en notación científica usando paréntesis para especificar el orden de las operaciones.
Este documento presenta una introducción a Seis Sigma, incluyendo sus antecedentes, fases, bases estadísticas e implementación. Seis Sigma es una estrategia de mejora de procesos que busca reducir la variación y defectos mediante el uso de herramientas estadísticas. Sus fases principales son Definición, Medición, Análisis, Mejora y Control. El documento también explica conceptos como sigma, capacidad del proceso y distribución normal.
El documento describe diferentes técnicas para definir el tamaño de las muestras, incluidos los principios de representatividad y aleatoriedad que deben seguirse. Explica métodos para variables y atributos, así como tipos de muestreo como aleatorio, sistemático, estratificado y por conglomerados. Además, proporciona ejemplos y tablas para aplicar estas técnicas.
Este documento presenta un resumen de los pasos para estimar la distribución de siniestros para el año 2016 utilizando datos históricos de 2010 a 2014. Primero, se analizan los datos históricos de frecuencia y severidad para determinar las distribuciones subyacentes. Luego, se prueban diferentes distribuciones como la binomial negativa para la frecuencia y la Pareto para la severidad extrema. Finalmente, se eligen parámetros específicos para estas distribuciones que mejor se ajustan a los datos, con el fin de generar simulaciones para estim
Este documento ofrece servicios de asesoría y resolución de ejercicios relacionados con ciencias a través del correo electrónico ciencias_help@hotmail.com o en el sitio web www.maestronline.com. Incluye actividades integradoras con preguntas sobre control estadístico de calidad y ejercicios relacionados con distribuciones de probabilidad, diagramas de control, pruebas de hipótesis y otros temas.
Esta presentación pretende realizar una breve descripción de las ramas y algoritmos más frecuentes en Machine Learning (ML), tales como ML supervisado, no supervisado, Deep Learning, así como del panorama tecnológico en el que se desenvuelven.
Los algoritmos genéticos son algoritmos de optimización basados en la selección natural y la genética que encuentran soluciones excelentes a problemas complejos. Funcionan generando una población aleatoria inicial que luego es sometida a operaciones como la selección, el cruce y la mutación para generar nuevas soluciones. Se han aplicado con éxito a problemas de optimización, aprendizaje automático y modelización en diversas áreas como la economía y la ecología.
Este documento presenta conceptos básicos de estadística como tipos de datos, medidas de tendencia central y dispersión para datos continuos y discretos, y cómo construir histogramas. Explica que los datos pueden ser continuos o discretos, y cómo calcular la media, mediana, moda, varianza y desviación estándar. También describe cómo construir un histograma dividiendo los datos en intervalos y representando la frecuencia en cada intervalo con barras.
El documento describe los conceptos básicos de la modelización numérica. Explica que los modelos numéricos simplifican la realidad mediante hipótesis como despreciar efectos pequeños o asumir parámetros constantes. Además, clasifica los modelos según su forma, datos y conocimiento del sistema. Por último, resume los pasos básicos para resolver problemas con diferencias finitas, que incluyen definir objetivos, crear un esquema conceptual, construir modelos simples y presentar resultados.
This document introduces genetic algorithms. It defines an algorithm and discusses time complexity analysis using Big O notation. It then provides examples of algorithms with different time complexities like O(n), O(n^2), O(log n), and O(n!). Genetic algorithms are introduced as a metaheuristic to solve NP-hard problems by mimicking biological evolution. The key concepts of genetic algorithms like encoding solutions, fitness functions, crossover and mutation operators are explained. An example of using genetic algorithms to solve the 8 queens problem is presented. Finally, advantages and disadvantages of genetic algorithms are summarized.
This document provides an introduction to data analysis techniques using Python. It discusses key Python libraries for data analysis like NumPy, Pandas, SciPy, Scikit-Learn and libraries for data visualization like matplotlib and Seaborn. It covers essential concepts in data analysis like Series, DataFrames and how to perform data cleaning, transformation, aggregation and visualization on data frames. It also discusses statistical analysis, machine learning techniques and how big data and data analytics can work together. The document is intended as an overview and hands-on guide to getting started with data analysis in Python.
Más contenido relacionado
Similar a Curse of dimensionality by MC Ivan Alejando Garcia
Este documento describe las unidades didácticas y contenidos de una asignatura sobre herramientas para la toma de decisiones. La asignatura cubre teoría de decisiones, cadenas de Markov, líneas de espera, teoría de juegos y simulación. La primera unidad cubre teoría de decisiones y cadenas de Markov. Las sesiones incluyen conceptos básicos, árboles de decisión y matrices de decisión.
Este documento presenta una breve introducción al aprendizaje automático. Explica conceptos clave como aprendizaje supervisado, no supervisado y por refuerzo. Usa el conjunto de datos de iris como un ejemplo para ilustrar técnicas como visualización de datos y algoritmos de clustering como k-medias. También discute esquemas de la teoría de decisión y validación cruzada.
Este documento presenta un resumen de los pasos involucrados en el análisis y modelación de datos a través de minería de datos y algoritmos de regresión lineal múltiple. Estos pasos incluyen la definición de la variable de respuesta y la base de datos, la exclusión de datos potencialmente erróneos, la determinación de transformaciones a los datos, la inserción de relaciones entre variables, y la selección del modelo final usando criterios estadísticos como el análisis de varianza y la prueba de normalidad de Kolmogorov-
Iair Linker, nos presenta los resultados al participar y salir segunda en el desafío de selección para Spike. Utilizanod diferentes algoritmos y modelos de Machine Learning, logró cumplir el desafío en menos de 3 días.
Este documento describe un análisis de datos de imágenes utilizando Weka. Incluye 19 atributos de parches de 3x3 píxeles y su clase. Se pide eliminar 3 atributos, generar un árbol C4.5 para clasificar la clase, generar reglas con PRISM y PART, seleccionar los atributos más relevantes con un algoritmo genético y J48, y comparar los resultados de J48 usando sólo los atributos seleccionados.
This presentation is about the competition of Kaggle "Otto-group". It describes the techniques of data mining and preprocessing used by Jesus Fernandez Carlos Basso and Ismael Gonzalez Marin.
Web: http://mldgr.github.io/Kaggle_Otto_Group/
Este documento introduce los conceptos básicos de la simulación. Define la simulación como el proceso de diseñar un modelo computarizado de un sistema real y conducir experimentos con este modelo para entender el comportamiento del sistema. Explica las ventajas y desventajas de la simulación, así como los conceptos de sistemas, modelos, experimentos y generación de números aleatorios, que son fundamentales para la simulación.
El documento presenta información sobre programación lineal. Explica qué es un problema de investigación de operaciones y cómo se aplican las técnicas de administración a problemas determinísticos y estocásticos. También describe el método científico para resolver problemas complejos en administración e introduce conceptos clave de programación lineal como funciones objetivo, variables de decisión y restricciones.
El documento presenta información sobre programación lineal. Explica qué es un problema de investigación de operaciones, los tipos de sistemas (determinísticos y estocásticos), y el método científico para resolver problemas complejos. Luego, introduce conceptos clave de programación lineal como variables de decisión, función objetivo, restricciones, y cómo construir un modelo matemático de programación lineal. Finalmente, presenta ejemplos ilustrativos de cómo formular problemas de la vida real como modelos de programación lineal.
El documento introduce la Investigación de Operaciones como la aplicación del método científico a problemas relacionados con el control de organizaciones para producir soluciones óptimas. Surge con la Revolución Industrial para ayudar a tomar decisiones en organizaciones más grandes y complejas. Utiliza modelos matemáticos como la programación lineal para representar sistemas reales de manera abstracta y encontrar soluciones.
Este documento presenta información sobre cifras significativas y operaciones en notación científica. Explica cómo redondear cantidades a diferentes números de cifras significativas y cómo convertir entre notación decimal y científica. También muestra ejemplos de cómo realizar sumas, restas, multiplicaciones y divisiones con números en notación científica usando paréntesis para especificar el orden de las operaciones.
Este documento presenta una introducción a Seis Sigma, incluyendo sus antecedentes, fases, bases estadísticas e implementación. Seis Sigma es una estrategia de mejora de procesos que busca reducir la variación y defectos mediante el uso de herramientas estadísticas. Sus fases principales son Definición, Medición, Análisis, Mejora y Control. El documento también explica conceptos como sigma, capacidad del proceso y distribución normal.
El documento describe diferentes técnicas para definir el tamaño de las muestras, incluidos los principios de representatividad y aleatoriedad que deben seguirse. Explica métodos para variables y atributos, así como tipos de muestreo como aleatorio, sistemático, estratificado y por conglomerados. Además, proporciona ejemplos y tablas para aplicar estas técnicas.
Este documento presenta un resumen de los pasos para estimar la distribución de siniestros para el año 2016 utilizando datos históricos de 2010 a 2014. Primero, se analizan los datos históricos de frecuencia y severidad para determinar las distribuciones subyacentes. Luego, se prueban diferentes distribuciones como la binomial negativa para la frecuencia y la Pareto para la severidad extrema. Finalmente, se eligen parámetros específicos para estas distribuciones que mejor se ajustan a los datos, con el fin de generar simulaciones para estim
Este documento ofrece servicios de asesoría y resolución de ejercicios relacionados con ciencias a través del correo electrónico ciencias_help@hotmail.com o en el sitio web www.maestronline.com. Incluye actividades integradoras con preguntas sobre control estadístico de calidad y ejercicios relacionados con distribuciones de probabilidad, diagramas de control, pruebas de hipótesis y otros temas.
Esta presentación pretende realizar una breve descripción de las ramas y algoritmos más frecuentes en Machine Learning (ML), tales como ML supervisado, no supervisado, Deep Learning, así como del panorama tecnológico en el que se desenvuelven.
Los algoritmos genéticos son algoritmos de optimización basados en la selección natural y la genética que encuentran soluciones excelentes a problemas complejos. Funcionan generando una población aleatoria inicial que luego es sometida a operaciones como la selección, el cruce y la mutación para generar nuevas soluciones. Se han aplicado con éxito a problemas de optimización, aprendizaje automático y modelización en diversas áreas como la economía y la ecología.
Este documento presenta conceptos básicos de estadística como tipos de datos, medidas de tendencia central y dispersión para datos continuos y discretos, y cómo construir histogramas. Explica que los datos pueden ser continuos o discretos, y cómo calcular la media, mediana, moda, varianza y desviación estándar. También describe cómo construir un histograma dividiendo los datos en intervalos y representando la frecuencia en cada intervalo con barras.
El documento describe los conceptos básicos de la modelización numérica. Explica que los modelos numéricos simplifican la realidad mediante hipótesis como despreciar efectos pequeños o asumir parámetros constantes. Además, clasifica los modelos según su forma, datos y conocimiento del sistema. Por último, resume los pasos básicos para resolver problemas con diferencias finitas, que incluyen definir objetivos, crear un esquema conceptual, construir modelos simples y presentar resultados.
Similar a Curse of dimensionality by MC Ivan Alejando Garcia (20)
This document introduces genetic algorithms. It defines an algorithm and discusses time complexity analysis using Big O notation. It then provides examples of algorithms with different time complexities like O(n), O(n^2), O(log n), and O(n!). Genetic algorithms are introduced as a metaheuristic to solve NP-hard problems by mimicking biological evolution. The key concepts of genetic algorithms like encoding solutions, fitness functions, crossover and mutation operators are explained. An example of using genetic algorithms to solve the 8 queens problem is presented. Finally, advantages and disadvantages of genetic algorithms are summarized.
This document provides an introduction to data analysis techniques using Python. It discusses key Python libraries for data analysis like NumPy, Pandas, SciPy, Scikit-Learn and libraries for data visualization like matplotlib and Seaborn. It covers essential concepts in data analysis like Series, DataFrames and how to perform data cleaning, transformation, aggregation and visualization on data frames. It also discusses statistical analysis, machine learning techniques and how big data and data analytics can work together. The document is intended as an overview and hands-on guide to getting started with data analysis in Python.
Apache Spark es un motor de cómputo unificado y conjunto de librerías para el procesamiento paralelo de datos de forma eficiente. Spark soporta múltiples lenguajes de programación y puede ejecutarse desde una laptop hasta en un gran cluster. La presentación introduce conceptos clave de Spark como transformaciones, acciones, RDDs, DataFrames y ejemplos básicos de su uso.
Metodos de kernel en machine learning by MC Luis Ricardo Peña LlamasDataLab Community
Este documento describe los métodos de kernel en machine learning. Explica cómo los kernels permiten clasificar datos no linealmente separables mapeando los datos a un espacio de características de dimensión más alta donde son linealmente separables. También resume brevemente la historia de los kernels y define formalmente qué es una función kernel válida de acuerdo con el teorema de Mercer.
Tensor models and other dreams by PhD Andres Mendez-VazquezDataLab Community
The document discusses tensors and their applications in data science. It describes how tensors can be used to efficiently represent large collections of documents by reducing their dimensionality through techniques like sparse matrix representation and singular value decomposition. This achieves significant data compression. The document also provides a brief history of tensors, noting they were first introduced in 1898 to study the properties of crystals, building on earlier work using tensors to study manifolds.
Nueva introducción de DataLab Community del 2017. Somos una comunidad abierta de Ciencia de Datos. Generamos colaboración entre profesionales y aprendices, compartiendo conocimientos, desarrollando habilidades y vinculando para impulsar la Ciencia de Datos.
El documento describe las diferentes profesiones relacionadas con la ciencia de datos, incluyendo analistas de datos, ingenieros de datos, visualizadores de datos, gerentes de datos y científicos de datos. Explica que los analistas de datos se enfocan en convertir los datos en información e información en conocimientos mediante modelos descriptivos y diagnósticos. Los ingenieros de datos se encargan de construir y mantener la infraestructura de datos. Los visualizadores de datos comunican los hallazgos de una manera comprensible. Los gerentes de datos impulsan
Presentación realizada en Campus Party 2016 sobre el Arte de la Ciencia de Datos. La presentación se divide en dos, por un lado está el tema de la comparativa con las artes liberales y por el otro lado está el arte de analizar datos.
DataLab Community genera colaboración entre profesionales y aprendices en Ciencia de Datos. Compartimos conocimiento y desarrollamos habilidades para impulsar la Ciencia de Datos en nuestra región.
Cómo fue que surgió lo que llamamos Big Data.
Varias perspectivas sobre qué es Data Science.
Qué estudia exactamente la Ciencia de Datos.
Introducción al Arte de la Ciencia de Datos.
Cardiopatias cianogenas con hipoflujo pulmonar.pptxELVISGLEN
Las cardiopatías congénitas acianóticas incluyen problemas cardíacos que se desarrollan antes o al momento de nacer pero que normalmente no interfieren en la cantidad de oxígeno o de sangre que llega a los tejidos corporales.
Una unidad de medida es una cantidad de una determinada magnitud física, definida y adoptada por convención o por ley. Cualquier valor de una cantidad física puede expresarse como un múltiplo de la unidad de medida. Para entender mejor las mismas, hay que saber como se pueden convertir en otras unidades de medida.
1891 - Primera discusión semicientífica sobre Una Nave Espacial Propulsada po...Champs Elysee Roldan
La primera discusión semicientífica sobre una nave espacial propulsada por cohetes la realizó el alemán Hans Ganswindt, quien abordó los problemas de la propulsión no mediante la fuerza reactiva de los gases expulsados sino mediante la eyección de cartuchos de acero que contenían dinamita. Supuso que la explosión de una carga transferiría energía cinética a la pared de la nave espacial y la impulsaría en la dirección deseada. Supuso que múltiples explosiones proporcionarían suficiente velocidad para alcanzar la órbita y la velocidad de escape.
El 27 de mayo de 1891, pronunció un discurso público en la Filarmónica de Berlín, en el que introdujo su concepto de un vehículo galáctico(Weltenfahrzeug).
Ganswindt también exploró el uso de una estación espacial giratoria para contrarrestar la ingravidez y crear gravedad artificial.
2. 2Contenido
• Introducción a Machine learning
• Cuando hacer uso de machine learning
• ARK, el bio-extraterrestre
• Proceso de aprendizaje
• Curse of dimensionality
• El problema de alta dimensionalidad
• Reducción de dimensionalidad
• Selección de características
• Extracción de características
• Casos de éxito de la reducción de dimensionalidad
• Conclusión
7. 7Introducción a machine learning
¿Qué es machine learning?
Es un campo del área de inteligencia artificial, cuyo objetivo es desarrollar técnicas que
permitan a las computadoras aprender.
8. 8Introducción a Machine Learning
¿Cuándo utilizar machine learning?
• Un patrón existe
• No podemos (sabemos) resolver el problema matemáticamente
• Tenemos información
14. 14
Las tomografías fueron obtenidas de: https://www.kaggle.com/c/data-science-bowl-2017
Predecir si un paciente iba desarrollar cáncer de pulmón
en un año.
28. 28
¿Qué método es más efectivo para dejar el cigarro?
Terapia y medicina
Simplemente querer
dejarlo
Ejemplo basado del curso: Regression Modeling in Practice Wesleyan University
29. 29
¿Qué método es más efectivo para dejar el cigarro?
Variables explicatoria Variable de respuesta
Método Predicción
Los estudios
muestran que
el método de
terapia más
medicina es
más efectivos
¿Podemos concluir que el método de terapia y medicina tiene mayor
éxito para dejar el cigarro?
48. 48
Problema
Computar: La cantidad de 0’s consecutivos que tiene un número factorial de lado derecho.
n! Computo de n! Resultado
6! 720 1
12! 479001600 2
20! 2432902008176640000 4
24! 620448401733239439360000 4
1000! 4.02872e+2567 ¿2567?
5000! Desbordamiento ¿nto?
53. 53
Curse of dimensionality
Entre más variables es más complejo alcanzar el optimo global, que minimice el error
entre el modelo y el fenómeno.
54. 54
Reducción de dimensionalidad
F
F‘
F
F‘
11 .
{ ,..., ,..., } { ,..., ,..., }j mi n i i if selection
f f f f f f
1 1 1 1 1.
{ ,..., ,..., } { ( ,..., ),..., ( ,..., ),..., ( ,..., )}i n n j n m nf extraction
f f f g f f g f f g f f
F
Generación de
características
Selección de
características
Extracción de
características
Ingeniería de
características
58. 58
Selección de características
• Métodos de filtrado: Los métodos de selección de la característica de filtro
aplican una medida estadística para asignar una puntuación a cada
característica y con esta puntación se decide cuales son eliminadas.
0.9
0.98
0.95
0.2
0.3
59. 59
Selección de características
• Métodos de filtrado: Los métodos de selección de la característica de filtro
aplican una medida estadística para asignar una puntuación a cada
característica y con esta puntación se decide cuales son eliminadas.
0.9
0.98
0.95
0.2
0.3
60. 60
Selección de características
• Métodos de filtrado: Los métodos de selección de la característica de filtro
aplican una medida estadística para asignar una puntuación a cada
característica y con esta puntación se decide cuales son eliminadas.
0.9
0.98
0.95
61. 61
Selección de características
• Métodos de envoltura: estos atacan la reducción de características como un
problema de búsqueda, en el que se preparan, evalúan y comparan
diferentes combinaciones con otras combinaciones.
62. 62
Selección de características
• Métodos de envoltura: estos atacan la reducción de características como un
problema de búsqueda, en el que se preparan, evalúan y comparan
diferentes combinaciones con otras combinaciones.
70%
63. 63
Selección de características
• Métodos de envoltura: estos atacan la reducción de características como un
problema de búsqueda, en el que se preparan, evalúan y comparan
diferentes combinaciones con otras combinaciones.
68%
64. 64
Selección de características
• Métodos de envoltura: estos atacan la reducción de características como un
problema de búsqueda, en el que se preparan, evalúan y comparan
diferentes combinaciones con otras combinaciones.
70%
65. 65
Selección de características
• Métodos de envoltura: estos atacan la reducción de características como un
problema de búsqueda, en el que se preparan, evalúan y comparan
diferentes combinaciones con otras combinaciones.
80%
66. 66
Selección de características
• Métodos de envoltura: estos atacan la reducción de características como un
problema de búsqueda, en el que se preparan, evalúan y comparan
diferentes combinaciones con otras combinaciones.
75%
67. 67
Selección de características
• Métodos de envoltura: estos atacan la reducción de características como un
problema de búsqueda, en el que se preparan, evalúan y comparan
diferentes combinaciones con otras combinaciones.
80%
68. 68
Selección de características
• Métodos de envoltura: estos atacan la reducción de características como un
problema de búsqueda, en el que se preparan, evalúan y comparan
diferentes combinaciones con otras combinaciones.
98%
78. 78
Extracción de características
Al igual que los algoritmos de clasificación, en extracción de características
Existen algoritmos supervisados y otros no supervisados
Supervisado
LDA PCA
No Supervisado
79. 79
LDA
El objetivo de LDA es realizar una reducción de dimensiones preservando lo
mejor posible la separación de clases en la información
Mala
proyección
Buena
proyección
92. 92
Recomendaciones
• Si conoces bien el problema y es de baja dimensionalidad: Busca un
clasificador con parámetros adecuados e intenta hacer una extracción
manual de características.
• Si conoces el problema y es de alta dimensionalidad: Busca reducir la
dimensionalidad (fs yo fe) y posterior identifica un buen clasificador
93. 93
Recomendaciones
• Si no conoces el problema (o no saber como atacarlo) y es de baja
dimensionalidad: Utiliza selector de características y busca un clasificador
con parámetros adecuados (graficar las variables puede ser de gran utilidad)
• Si no conoces el problema (o no saber como atacarlo) y es de alta
dimensionalidad: Utiliza selector de características y busca un clasificador
con parámetros adecuados