O documento apresenta uma introdução sobre machine learning, definindo o termo, trazendo breve histórico e aplicações. Explica os principais conceitos por trás da área, como dados, algoritmos, métodos de aprendizado e avaliação de resultados. Aponta desafios atuais como interpretabilidade dos modelos e ética no desenvolvimento de sistemas de IA.
Machine Learning: O que é, por onde começar e desafios
1. Machine Learning
O que é, por onde começar e desafios
Evento: Day Tech, 29/06/2019, 15h40
Elaine Cecília Gatto (Cissa)
www.professoracissagatto.com.br
2. O que é Machine Learning?
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
2
3. O que é Machine Learning?
• O que é Machine Learnig por Marcelo Tas:
https://youtu.be/Z1YHbl0lh88
• Início na década de 40 (aproximadamente)
• Técnica de Inteligência Artificial
• Arthur Samuel, Engenheiro do MIT, em 1959, cria o termo Machine
Learning
• Existem várias definições
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto-MachineLearning
3
4. O que é Machine Learning?
“Um campo de estudo que dá aos computadores a habilidade de
aprender sem terem sido programados para tal” (Arthur
Samuel)
“A capacidade de melhorar o desempenho na realização de
alguma tarefa por meio da experiência” (Tom Mitchell)
Reflita:
1. Como eu aprendo?
2. Como fazer uma máquina aprender, da
mesma forma que um humano aprende?
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
4
5. Breve Timeline
• Filosofia, Ciência e Matemática: Luger, George F. Inteligência Artificial.
6.ª ed. São Paulo: Pearson Prentice Hall, 2013. Capítulo 1.
• 40 – 60:
• Inicio formal da Inteligência Artificial
• Filme: O Jogo da Imitação, 2014
• 70 – 80: Primeiro inverno
• 80 – 90: Sistemas Especialistas
• 90 – 2000: Segundo inverno
• 2000 – 2019: Retomada da área. Torna-se predominante no mundo.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
5
8. A trindade do ML!
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
8
9. A trindade do ML
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
9
Matemática
Estatística
Programação
P.s.: Alguns chamam ML de bruxaria, magia negra e também alquimia!
Python
R
C/C++
Java
Scala
INGLÊS
13. Dados
• Flags Dataset
• Este conjunto de dados contém dados sobre as nações e suas
bandeiras nacionais. Uma tarefa de classificação pode ser
predizer as cores que aparecem nas bandeiras. Características:
• Instâncias: 194
• Atributos: 19 (9 nominais e 10 numéricos)
• Rótulos: 7 (red, green, blue, yellow, white, black, orange)
• Domínio: imagens
Fonte: http://archive.ics.uci.edu/ml/machine-learning-
databases/flags/
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
13
35. Dados
• Outros exemplos não perfeito de bases de dados:
• exprindiv_ara_FUN.train
• cellcycle_FUN.train
• cellcycle_GO.train
• https://www.kaggle.com
• https://www.openml.org
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
35
39. Uma forma de aprender
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
39
Conjunto de dados
de Treinamento
Algoritmo de
Machine Learning
(Aprendizado)
MODELO
(Aprendeu)
MODELO
Conjunto de dados
de Teste
Novos dados
Classificados,
Agrupados. etc.
Depende de 2.
ENTRADA DE
DADOS
PROCESSAMENTO SAÍDA
Fase 1
Fase 2
1 2 3
4 5 6
40. E os resultados?
• Os resultados são bons? Se sim, por que são bons?
• Meu algoritmo é melhor ou pior? Por que?
• Como avaliar?
• Comparar com outros algoritmos
• Consultar um especialista da área
• Inúmeras Medidas de Avaliação
• Diferem conforme a natureza do problema
• Ensembles e combinações de algoritmos diferentes
• Etc.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
40
43. Cursos Online e Iniciativas
• Amazon: https://www.aws.training/LearningLibrary
• Caltech: https://work.caltech.edu/telecourse.html
• Udacity:
• https://www.udacity.com/school-of-data-science
• https://classroom.udacity.com/courses/ud120
• OpenAI: https://openai.com/
• School of AI: https://www.theschool.ai/
• Não se esqueça dos livros e artigos científicos!
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
43
44. Cursos Presenciais
• Graduação em Ciência de Dados na UFSCar
• Especialização em Ciência de Dados na UFSCar
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
44
46. Desafios
• Interpretabilidade: como tomou essa decisão?
• Machine learning has become alchemy. Ali Rahimi (Google)
https://youtu.be/x7psGHgatGM
• https://universoracionalista.org/pesquisadores-de-i-a-alegam-que-machine-
learning-se-tornou-alquimia/
• Ética:
• Tay, da Microsoft, bot de mídia social que aprendeu a dizer coisas inadequadas
e ofensivas. Preconceito, homofobia, etc.
• http://agenciabrasil.ebc.com.br/internacional/noticia/2019-04/europa-lanca-
diretrizes-eticas-para-o-uso-da-inteligencia-artificial
• Empregabilidade: conflito de gerações! Resistência à evolução? Novas
Profissões: Engenheiro de Dados, Cientista de Dados, etc.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
46
47. Desafios
• Segurança: restrição e acesso aos dados
• Algoritmos e Técnicas: evolução do que já existe ou criação de novos.
• Mindset: empresas de todos os tipos terão de mudar sua cultura
organizacional
• Captura e qualidade de dados: os dados que alimentam os algoritmos de ML
precisam ser “melhores” de forma que resulte em boas previsões.
• Hardware + Armazenamento + Rede = Mas ainda não tá bom? Não!
• Inúmeros Problemas do mundo real
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
47
48. Desafios
• Diretrizes Europeias para IA Ética
• Intervenção e supervisão humana
• Robustez e segurança
• Privacidade e governança de dados
• Transparência
• Diversidade, equidade e não-discriminação
• Bem-estar social e ambiental
• Prestação de contas
• Etc.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
48
49. REFERÊNCIAS
• Machine Learning. Disponível em:
<https://en.wikipedia.org/wiki/Machine_learning>. Acessado em
20/06/2019, 20:00
• Aprendizado de Máquina. Disponível em:
<https://pt.wikipedia.org/wiki/Aprendizado_de_m%C3%A1quina>.
Acessado em 20/06/2019, 20:00
• 17 casos de uso de Machine Learning. Disponível em:
<http://datascienceacademy.com.br/blog/17-casos-de-uso-de-
machine-learning/>. Acessado em 21/06/2019, 10:00.
• Machine Learning Studio (Microsoft). Disponível em>
<https://azure.microsoft.com/pt-br/services/machine-learning-
studio/>. Acessado em 22/06/2019, 15:00.
• Google Machine Learning. Disponível em:
<https://cloud.google.com/products/ai/> Acessado em 22/06/2019,
17:00
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
49
50. REFERÊNCIAS
• Amazon Machine Learning. Disponível em:
<https://aws.amazon.com/pt/machine-learning/>. Acessado em
24/06/2019, 14:00.
• Inteligência Artificial: Questões Éticas a serem Enfrentadas. Disponível
em <http://abciber.org.br/anaiseletronicos/wp-
content/uploads/2016/trabalhos/inteligencia_artificial_questoes_eticas
_a_serem_enfrentadas_dora_kaufman.pdf>. Acessado em 24/06/2019,
14:44.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
50
Neste slide me apresentar, explicando cada um dos logotipos e contando um pouco da minha história
E o big data entra na história, já que, em sua essência, a tecnologia faz exatamente isso: armazena toneladas de dados obtidos por meio de redes sociais, mecanismos de buscas, e, até mesmo, por meio de microfones e câmeras de smartphones. Então, algoritmos cada vez mais inteligentes fazem uma verdadeira varredura dessa quantidade gigantesca de informações e, a partir do momento em que padrões são descobertos, os sistemas se tornam capazes de fazer previsões com base nesses padrões. CHAT BOTS!
IBM: Deep Blue verdadeiro gênio do xadrez capaz de derrotar o campeão mundial Garry Kasparov.WATSON: Watson, um computador que interpreta a voz humana, pensa como os humanos e responde mais rápido que nós. Foi testado durante um jogo de perguntas e respostas televisivo, conhecido como Jeopardy , e ganhou.
MACHINE LEARNING STUDIO MICROSOFT
TENSOR FLOW – GOOGLE
SERVIÇOS E PRODUTOS DA AMAZON – tipo alexa
AGRONOMIA = tratores e colheitadeiras autônomas, análise do solo, qual grão é melhor plantar neste solo em determinada época do ano, imagens de satélite, etc.
MEIO AMBIENTE: a engenharia ambiental e sanitária e áreas a fins. Pode-se aplicar ML para o estudo de plantas, prevenção de rompimento de barragens, Identificar pássaros a partir de gravações de áudio, melhorar o processo de reciclagem do lixo, etc.
INDÚSTRIA 4.0 E AUTOMAÇÃO EM GERAL: detecção de falhas e manutenção preventiva de máquinas elétricas; robôs, melhoria dos processos de qualidade, etc.
VAREJO E COMÉRCIO: aumentar as vendas, atendimento personalizado ao cliente (sistema de recomendação de vendas), e-commerce, fornecer insights sobre quais itens são mais rentáveis e em quais novos produtos é possível investir com maior certeza de retorno, fraudes, etc.
FARMÁCIA, MEDICINA, SAÚDE: ajuda a desenvolver novos medicamentos, ajuda a estudar os efeitos colaterais dos medicamentos, a partir do processamento de imagens e sinais, ajuda a diagnosticar câncer e outras doenças, etc. Até a psicologia já fez uso de ML para entender melhor o que leva uma pessoa a desenvolver depressão. Educação física, esportes, etc., tb podem usar o poder do ML para melhorar os resultados nas competições. Aplicativos de celular que ajudam as pessoas a sair do sedentarismo, como o samgung health. Dispositivos vestíveis para medir glicose, batimentos cardíacos, etc.
BIOLOGIA E ECOLOGIA: predição de funções de genes, desmatamento da Amazônia, espécies em extinção, etc.
MEIOS DE TRANSPORTE: rotas inteligentes, trens, carros e navios autônomos, VANTS, drones, etc.
ROBÓTICA: robôs inteligentes como a SOFHIA. Aplicações não somente na indústria, mas tb no cotidiano, como substituindo cuidadores de idosos, etc. BOSTON DYNAMICS. Robô criança japonês IBUKI
ENERGIA: Nos últimos anos, técnicas modernas de mineração de dados têm sido utilizadas para extrair conhecimento das bases de dados das distribuidoras, identificando possíveis padrões de consumo que possam estar relacionados a furtos ou fraudes de energia. A partir dos dados básicos de consumo dos smart grids, as empresas podem gerar informações mais detalhadas sobre o uso da energia. Nesse sentido, técnicas de aprendizado de máquina (ou machine learning) vêm sendo aplicadas para separar o consumo de cada equipamento de uma residência, permitindo os consumidores entender melhor seus hábitos e incentivando ações espontâneas de uso consciente de energia.
ASTRONOMIA: descoberta de novos planetas, exoplanetas, sinais misteriosos, etc.
AUDIO, VIDEO, TEXTO, IMAGEM: biometria, reconhecimento de faces, classificação de textos, identificação de sentimento em textos, classificação de músicas, filmes, vídeos de segurança, etc. VÍDEO GAMES, BLACKMIRROR, etc.
REDES DE COMPUTADORES: atividades de hackers, detecção de pontos de redes com problemas, e da infraestrutura em geral, gargalos de transmissão de dados, padrões no fluxo da rede, etc.
FINANÇAS E ECONOMIA: como conseguir lucrar mais, conhecer o cliente, otimizar processos organizacionais, etc.
Aqui falar do Weka, Meka, Mulan, CLUS, HDBScan, Microsoft, Scikit Learning, etc.
Exemplo multirrótulo: um artigo científico de aplicação de machine learning em psicologia, pode ser classificado como pertencente à área de ciência da computação ao mesmo tempo que psicologia e machine learning, entre outros recursos utilizados no estudo.
Exemplo Hierárquico: funções exercidas por uma proteína no meio celular. Relações de superclasses e subclasses. Hierarquia de Esportes: praia, neve, quadra, coletivo ou individual, inverno ou verão, com bola ou sem bola, etc.
VERMELHO, VERDE, AZUL, AMARELO, BRANCO, PRETO e/ou LARANJA: 1= tem a cor, 0 = não tem a cor
Dados incompletos ou faltantes, como preencher essas lacunas? Dados inconsistentes: onde está a conformidade? CPF e data de nascimentos cadastrados errados. Dados redundantes, isto é, repetidos. Dados com ruídos: Ruído pode ser definido como um exemplo em um conjunto de dados que aparentemente é inconsistente com o restante dos dados existentes, pois não segue o mesmo padrão dos demais.
REGRESSÃO: domínio de um conjunto infinito e ordenado de valores. CLASSIFICAÇÃO: domínio de um conjunto de valores nominais. SUMARIZAÇÃO: encontra uma descrição simples e compacta os dados. AGRUPAMENTO: identifica grupos de acordo com similaridades entre os objetos. ASSOCIAÇÃO: associações entre os atributos. APRENDIZADO POR REFORÇO: Um programa de computador interage com um ambiente dinâmico, em que o programa deve desempenhar determinado objetivo (por exemplo, dirigir um veículo). É fornecido, ao programa, feedback quanto a premiações e punições, na medida em que é navegado o espaço do problema. Outro exemplo de aprendizado por reforço é aprender a jogar um determinado jogo apenas jogando contra um oponente.
Aqui falar também sobre o CROSS VALIDATION.
Falar sobre as árvores e sobre as florestas randômicas. Falar sobre usar agrupamento como uma fase inicial e depois usar os grupos encontrados como entrada em outro algoritmo completamente diferente.
OPEN AI = beneficiar a humanidade
Falar que a I.A/M.L. já está presente em nosso cotidiano, em pequenas coisas.
O grupo é formado por 52 membros e tem como seu presidente Pekka Ala-Pietilä, empreendedor de tecnologia e ex-presidente da Nokia. A maioria dos membros do AI HLEG é da academia e do mundo corporativo (IBM, Google, SAP, Santander, Bayer, etc). Há também representantes da sociedade civil, e de alguns outros segmentos.