Más contenido relacionado Similar a Treinamento Causalidade (20) Más de TABLE PARTNERS (14) Treinamento Causalidade1. Knwledge Day-Off 3o o TA B L E P A R T N E R S ProbabilidadeCondicional e Causalidade 26/11/2010 2. AGENDA © 2010 TABLE PARTNERS. Reprodução proibida. 1 Condições deContorno O que em breve poderemos fazer 1 4 Porque temos que lidar com incerteza e probabilidade no nosso trabalho? Descoberta de causalidade a partir de correlação Tempo O quefazemos hoje O que já podemos fazer diferente 2 3 Como lidamos com incerteza e probabilidade na TablePartners atualmente? Probabilidades condicionais, inferências Bayesianas e redes 3. Tempo AGENDA © 2010 TABLE PARTNERS. Reprodução proibida. 2 Condições deContorno 1 Porque temos que lidar com incerteza e probabilidade no nosso trabalho? 6. A invalidez formal da indução impõe algumas condições de contorno ao nosso trabalho Sempre podemos estar errados; sempre há incertezas – nós precisamos saber disso e o cliente também Devemos sempre identificar as principais fontes de incertezas e as “aberturas por onde passarão os hunos” Sempre que possível, devemos modelar “monte-carlicamente” nossos números e/ou trabalhar com cenários, pontos de decisão/inflexão, milestones, etc. O tempo todo devemos nos perguntar “o que refutaria essa conclusão” (“o que o Diabo vai dizer, se estiver na sala”) – nosso esforço não é apenas de acumular evidências para “provar” o nosso ponto, mas também para desprová-lo Sempre devemos ser humildes (a verdade é que nós não sabemos... e, Table Partners, esta pode/deve ser a nossa força!) 4 © 2010 TABLE PARTNERS. Reprodução proibida. 7. Tempo AGENDA © 2010 TABLE PARTNERS. Reprodução proibida. 5 O quefazemos hoje 2 Como lidamos com incerteza e probabilidade na TablePartners atualmente? 8. Utilizamos árvores de decisão dinâmicas (usando Excelcius), para que o cliente participe da decisão © 2010 TABLE PARTNERS. Reprodução proibida. 6 faz X Cenário A Cenário B Cenário A Newco Cenário A Cenário B Cenário A Cliente 9. Quando o cliente é mais tecnificado, utilizamos simulação de Monte Carlo © 2010 TABLE PARTNERS. Reprodução proibida. 7 Fontes de Incerteza 10. Já dominamos a linguagem da incerteza, mas ainda podemos avançar A probabilidade, linguagem da incerteza, já está no nosso sangue Ou fazemos análises de cenários com “bestguesses” das variáveis incertas – tendo um resultado determinístico, mas com uma probabilidade implícita Ou realizamos simulações como no Monte Carlo e obtemos resultados puramente probabilísticos, dando ao cliente uma visão explícita das incertezas envolvidas Entretanto, ainda temos pouco conhecimento das ferramentas da probabilidade condicional, que serão introduzidas a seguir © 2010 TABLE PARTNERS. Reprodução proibida. 8 11. Tempo AGENDA © 2010 TABLE PARTNERS. Reprodução proibida. 9 O que já podemos fazer diferente 3 Probabilidades condicionais, inferências Bayesianas e redes 12. © 2010 TABLE PARTNERS. Reprodução proibida. 10 O problema do aniversário Numa sala com 70 pessoas, qual a probabilidade de que pelo menos duas tenham o mesmo aniversário? Quantas pessoas é preciso ter em uma sala, para que se tenha 50% de probabilidade de duas fazerem anos no mesmo dia? (a) 81 (b) 23 (c) 175 (a) 99,92% (b) 19,2% (c) 9,6% 13. © 2010 TABLE PARTNERS. Reprodução proibida. 11 O problema do aniversário Numa sala com 70 pessoas, qual a probabilidade de que pelo menos duas tenham o mesmo aniversário? (a) 99,92% Quantas pessoas é preciso ter em uma sala, para que se tenha 50% de probabilidade de duas fazerem anos no mesmo dia? (b) 23 O ser humano é naturalmente despreparado para cálculo probabilístico condicional – nosso mecanismo de estimativa falha sistematicamente 14. © 2010 TABLE PARTNERS. Reprodução proibida. 12 O problema do aniversário Num grupo de n indivíduos, qual a probabilidade de que pelo menos dois tenham o mesmo aniversário? A “simples” combinatória, na verdade, é um conjunto de probabilidades condicionais 15. O problema do teste imperfeito © 2010 TABLE PARTNERS. Reprodução proibida. 13 Carta do Laboratório Caro Fulano, Recentemente, você foi ao nosso laboratório fazer um teste para a doença XPTO, que atinge uma pessoa a cada dez mil. Lamentamos informar que nosso exame, que tem uma eficiência simétrica de 99% – isto é, tem 1% de falso positivo e 1% de falso negativo – apontou um resultado positivo. Qual a probabilidade de você estar realmente doente? (a) 1% (b) 48% (c) 97% 16. O Teorema de Bayes baseia-se nas leis da probabilidade condicional © 2010 TABLE PARTNERS. Reprodução proibida. 14 Relembrando: Probabilidades Condicionais Teorema de Bayes (Thomas Bayes, 1763) Teorema de Bayes: Ferramenta para calcular a probabilidade de que alguma hipótese A seja verdadeira, a partir da observação ou evidência B 19. P(¬E|D) = 99% P(¬E|¬D) = 1%Queremos descobrir P(D|E): O problema do teste imperfeito © 2010 TABLE PARTNERS. Reprodução proibida. 15 0,98% 20. O problema do teste imperfeito © 2010 TABLE PARTNERS. Reprodução proibida. 16 Carta do Laboratório Caro Fulano, Recentemente, você foi ao nosso laboratório fazer um teste para a doença XPTO, que atinge uma pessoa a cada dez mil. Lamentamos informar que nosso exame, que tem uma eficiência simétrica de 99% – isto é, tem 1% de falso positivo e 1% de falso negativo – apontou um resultado positivo. Qual a probabilidade de você estar realmente doente? (a) 1% (b) 48% (c) 97% 21. Porta dos Desesperados: qual estratégia maximiza a chance de ganhar os brinquedos? © 2010 TABLE PARTNERS. Reprodução proibida. 17 22. Porta dos Desesperados: qual estratégia maximiza a chance de ganhar os brinquedos? © 2010 TABLE PARTNERS. Reprodução proibida. 18 O Problema da Porta dos Desesperados (Monty Hall Problem) No quadro do programa do Sérgio Mallandro, há três portas. Atrás de uma delas, brinquedos. Atrás das duas outras, um monstro. Após a criança escolher uma porta, Sérgio Mallandro abre uma das outras duas, revelando um monstro, e pergunta: “Você quer trocar de porta?!” Qual a melhor estratégia? Trocar ou manter a porta? Vai trocar a porta? Rá!! 25. Na porta 3, P(S2|C1,P3) = 1Importante: sem ter evidências da porta escolhida pela criança e de onde estão os brinquedos, o Mallandro abre qualquer uma das duas portas: P(S2) = ½ 32. Na porta 3, P(S2|C1,P3) = 1Trocar de porta é a melhor estratégia ! 33. Como diria o JN: Legal, Guri...mas e no contexto da TP, você tem algum exemplo?! © 2010 TABLE PARTNERS. Reprodução proibida. 21 Estimativa de MarketShare Suponha que um analista esteja interessado em estimar o marketshare (S) de sua empresa. Ele resolveu entrevistar 10 experts do mercado, chegando numa estimativa inicial de 34% a partir da média dos resultados. Estimativas dos Experts (A Priori) 34. Como diria o JN: Legal, Guri...mas e no contexto da TP, você tem algum exemplo?! © 2010 TABLE PARTNERS. Reprodução proibida. 22 Estimativa de MarketShare Suponha que o analista faça um levantamento rápido com um grupo randômico de 20 pessoas, e 4 delas usem o produto da sua empresa. Ou seja, considerando uma distribuição binomial, temos x=4 sucessos em n=20 tentativas. Podemos utilizar essas informações (evidências) para atualizar nosso grau de crença no marketshare. 35. Como diria o JN: Legal, Guri...mas e no contexto da TP, você tem algum exemplo?! © 2010 TABLE PARTNERS. Reprodução proibida. 23 Estimativa de MarketShare Suponha que o analista faça um levantamento rápido com um grupo randômico de 20 pessoas, e 4 delas usem o produto da sua empresa. Ou seja, considerando uma distribuição binomial, temos x=4 sucessos em n=20 tentativas. Podemos utilizar essas informações (evidências) para atualizar nosso grau de crença no marketshare. Probabilidades A Priori e Posteriori A probabilidade do MarketShare estar entre 20 e 30% é de 76% 36. A grande vantagem é poder atualizar nossas estimativas à medida que temos novos dados © 2010 TABLE PARTNERS. Reprodução proibida. 24 Estimativa de MarketShare Suponha que o analista faça um novo levantamento com um grupo randômico de 16 pessoas, e 3 delas usem o produto da sua empresa. Ou seja, considerando uma distribuição binomial, temos x=3 sucessos em n=16 tentativas. Podemos utilizar essas informações (evidências) para atualizar nosso grau de crença na distribuição do marketshare. Probabilidades A Priori e Posteriori A nova probabilidade do MarketShare estar entre 20 e 30% é de 86% 37. O Paradoxo de Simpson é um alerta ao uso naif de estatística, sem reflexão sobre causa e efeito © 2010 TABLE PARTNERS. Reprodução proibida. 25 Resultados da Admissão para Berkeley (1973, por sexo) Berkley discrimina mulheres no processo de admissão? Mulheres são menos preparadas? 38. O Paradoxo de Simpson é um alerta sobre os riscos da inferência estatística simplista © 2010 TABLE PARTNERS. Reprodução proibida. 26 Resultados da Admissão para Berkeley (1973, por sexo) Resultados da Admissão de Berkeley (1973, por sexo e departamento) 39. Ele torna-se ainda mais relevante quando há relações causais envolvidas © 2010 TABLE PARTNERS. Reprodução proibida. 27 Resultados de Tratamento com Droga (Masculino) Placebo > Droga (Feminino) Placebo > Droga 40. Ele torna-se ainda mais relevante quando há relações causais envolvidas © 2010 TABLE PARTNERS. Reprodução proibida. 28 Resultados de Tratamento com Droga (Masculino) Placebo > Droga (Feminino) Placebo > Droga (Total) Droga > Placebo! ! ! 41. A estrutura causal do problema tem implicação direta na forma como devemos analisar os dados © 2010 TABLE PARTNERS. Reprodução proibida. 29 Estrutura causal do problema Sexo Como S é uma causa comum de T e R, precisamos analisar separadamente os resultados de homens e mulheres para blindar o efeito de S sobre R S T R Tratamento Recuperação E se mudarmos um pouco a estrutura? Pressão P Devemos analisar os resultados agregados, pois se condicionarmos em P, bloquearemos a influência causal de T em R via P T R Tratamento Recuperação 42. Vejamos um exemplo real de cliente © 2010 TABLE PARTNERS. Reprodução proibida. 30 Análise do benefício de uma ação “A” BU 2 BU 1 Impacto de “A” na margem oper. + US$ 1,34 / un. (20% increase) + US$ 1,12 / un. (15% increase) Tipos de transação A vista A vista Financiada Financiada Inadimplência por tipo de transação 0% A vista A vista Financiada Financiada 0% Retenção 43. A diferença entre as margens é um típico exemplo de Paradoxo de Simpson © 2010 TABLE PARTNERS. Reprodução proibida. 31 Margens e Volumes por tipos de transação e prazo 44. A estrutura causal pode ter minado a qualidade do nosso trabalho © 2010 TABLE PARTNERS. Reprodução proibida. 32 Se esta for a estrutura causal, estamos bem Transação Devemos analisar a última coluna, pois se analisarmos separadamente por P, bloquearemos a influência de T sobre M via P T P M Prazo Margens Se for esta...houston, we´vegot a problem... Transação Devemos analisar as colunas de P separadamente para blindar seu efeito em M, visto que é o efeito de T em M que queremos avaliar T P M Prazo Margens 48. AGENDA © 2010 TABLE PARTNERS. Reprodução proibida. 35 O que em breve poderemos fazer 4 Descoberta de causalidade a partir de correlação Tempo 49. As redes são uma ferramenta poderosa para fazer inferências com muitas variáveis © 2010 TABLE PARTNERS. Reprodução proibida. 36 Exemplo de Rede Definições Básicas Representação compacta da distribuição conjunta de probabilidade, feita a mão ou por data mining + algoritmos de aprendizado ou uma combinação dos dois As redes são grafos direcionados acíclicos Vértices representam variáveis de interesse Arcos representam dependências causais ou correlacionais entre as variáveis As variáveis são discretas ou contínuas As relações entre variáveis podem ser Bayesianas: puramente probabilísticas Estruturais/Funcionais: funções determinísticas X1 X3 X2 X4 X5 X6 53. 100MW na primavera e outonoO prefeito quer uma indisponibilidade de apenas 2%. E agora, qual a melhor maneira de resolver o problema?