Este documento discute mineração de dados (data mining) e como ela pode ser usada para descobrir padrões e relacionamentos nos dados de forma automática para prever resultados de negócios futuros. O documento explica que a mineração de dados passa por quatro fases: preparação de dados, análise e classificação de dados, aquisição de conhecimento e prognóstico. Ferramentas de mineração de dados usam algoritmos como redes neurais e árvores de decisão para modelar os dados e fazer previsões.
2. JEFFERSON ROCHA DO NASCIMENTO
BANCO DE DADOS – MINERAÇÃO DE DADOS
(DATA MINING)
INTELIGÊNCIA ARTIFICIAL
Trabalho apresentado ao Curso de Sistemas de
informação da Faculdade ENIAC para a disciplina
de Inteligência Artificial
Professor: Prof. Dr. Chau S. Shia
Guarulhos
2013
3. MINERAÇAO DE DADOS (DATA MINING)
A finalidade da análise de dados é descobrir previamente características,
relacionamentos, dependências ou tendências desconhecidas dos dados.
Essas descobertas, então, tornam-se parte do modelo de informações a partir
do qual as decisões são construídas. Uma típica ferramenta de análise de
dados depende de os usuários finais definirem o problema, selecionarem os
dados e iniciarem. As análises adequadas, de modo a gerar informações que
auxiliem na modelagem e resolução dos problemas descobertos por esses
usuários. Em outras palavras, os usuários finais reagem a um estímulo externo
- a descoberta do próprio problema. Se esses usuários não detectarem o
problema, nenhuma medida será tomada. Em razão dessa limitação, alguns
ambientes atuais de BI dão suporte a diferentes tipos de alertas automatizados.
Esses alertas são agentes de software que monitoram constantemente certos
parâmetros, como indicadores de vendas ou níveis de estoque e, assim,
executam ações especificadas (enviar e-mail ou mensagens de alerta, executar
programas etc.) quando tais parâmetros atingem níveis predefinidos.
Ao contrário das ferramentas tradicionais de BI (reativas), a mineração de
dados é proativa. Em vez de o usuário de dados definirem o problema e
selecionar os dados e os meios de análise, as ferramentas de mineração de
dados buscam automaticamente anomalias e possíveis relacionamentos de
dados, identificando, assim, problemas ainda não identificados pelo usuário
final. Em outras palavras, a mineração de dados refere-se às atividades que
analisam os dados, descobrem problemas e oportunidades ocultos em seus
relacionamentos, formam modelos computacionais com base nessas
descobertas e, então, utilizam esses modelos para prever o comportamento do
negócio - exigindo a mínima intervenção do usuário final. Portanto, esse
usuário pode utilizar as descobertas do sistema para obter conhecimentos
capazes de produzir vantagens competitivas. A mineração de dados
corresponde a uma nova espécie de ferramentas especializadas de suporte a
decisões que automatizam a análise de dados. Em resumo, essas ferramentas
iniciam as análises para criar conhecimento. Tal conhecimento pode ser
4. utilizado para tratar de um número ilimitado de problemas de negócios. Por
exemplo, empresas bancárias e de cartões de crédito utilizam a análise
baseada em conhecimento para detectar fraudes, reduzindo, assim, as
transações fraudulentas. Para colocar a mineração de dados em perspectiva,
veja a pirâmide logo abaixo, que representa como o conhecimento é extraído
dos dados. Os dados formam a base da pirâmide e representam o que a
maioria das organizações coleta em seus bancos operacionais. O segundo
nível contém informações que representam dados purificados e processados.
As informações formam a base da tomada de decisão e da compreensão dos
negócios. O conhecimento está no ápice da pirâmide e representa informações
altamente especializadas.
BUSINESS INTELLIGENCE E DATA WAREHOUSES
5. FIGURA Extração de conhecimento dos dados
É difícil fornecer uma lista precisa das características das ferramentas de
mineração de dados. Para um único aspecto, a geração atual dessas
ferramentas contém diversas variações de projeto e aplicação, de modo a
atender às necessidades de mineração de dados. Além disso, há muitas
variações, pois não existem padrões estabelecidos que orientem a criação de
ferramentas de mineração de dados. Cada uma delas parece ser determinada
por uma abordagem e um foco diferentes, gerando, assim, famílias de
ferramentas que se concentram em nichos de mercado, como marketing,
varejo, finanças, saúde, investimentos, seguros e bancos. Em determinado
nicho, essas ferramentas podem utilizar certos algoritmos, que podem ser
implementados de diversos modos e/ou aplicados a dados diferentes.
Apesar da falta de padrões precisos, a mineração de dados está sujeita a
quatro fases gerais:
1. Preparação de dados.
6. 2. Análise e classificação de dados.
3. Aquisição de conhecimento.
4. Prognóstico.
SISTEMAS DE BANCO DE DADOS 582
Na fase de preparação de dados, os principais conjuntos de dados a serem
utilizadas pela operação de mineração de dados são identificados e quaisquer
impurezas são eliminadas. Como os dados de data warehouses já estão
integrados e filtrados costumam ser o conjunto-alvo das operações de
mineração de dados.
A fase de classificação e análise de dados estuda os dados para identificar
características e padrões comuns. Durante essa fase, a ferramenta de
mineração de dados utiliza algoritmos específicos para encontrar.
• Agrupamentos, classificações, grupos ou sequências de dados.
• Dependências, vínculos ou relacionamentos de dados.
• Padrões, tendências e desvios de dados.
A fase de aquisição do conhecimento utiliza os resultados da fase de análise e
classificação.
Durante essa fase, a ferramenta de mineração de dados (com possível
intervenção do usuário final) seleciona os algoritmos adequados de modelagem
e aquisição de conhecimento. Os algoritmos mais comuns baseiam-se em
redes neurais, arvores de decisões, indução de regras, classificação ou
regressão, algoritmos genéticos, raciocínio com base em memória e
visualização de dados, e vizinho mais próximo. A ferramenta de mineração
de dados pode utilizar vários desses algoritmos, em qualquer combinação, para
gerar um modelo de computador que reflita o comportamento do conjunto-alvo
de dados. Embora várias dessas ferramentas parem na fase de aquisição de
conhecimento, outras continuam até a fase de prognóstico. Nessa fase, as
descobertas da mineração de dados são utilizadas para prever o
7. comportamento futuro e projetar resultados de negócios. Alguns exemplos
dessas descobertas poderiam ser:
65% dos clientes que não utilizaram o cartão de crédito nos últimos seis meses
têm 88% de probabilidade de cancelar a conta.
82% dos clientes que compraram TVs de 27 polegadas ou maiores têm até
90% de probabilidade de adquirir um home theater nos próximos quatro meses.
Se a idade < 30, a renda <= 25.000, classificação de crédito < 3 e o limite de
crédito > 25.000, o prazo mínimo de empréstimo é de 10 anos.
O conjunto completo de descobertas pode ser representado em uma árvore de
decisão, em uma rede neural, em um modelo de projeção ou em uma interface
de apresentação visual utilizada para projetar eventos ou resultados futuros.
Por exemplo, a fase de prognóstico pode projetar o resultado.
8. Conclusão
Diante do apresentado, a extração de dados é muito útil e eficiente para buscas
rápidas sem a necessidade do usuário inseri muitas informações como, por
exemplo, cartão de crédito onde o usuário só precisa digitar a senha e com
esta mineração de dados é possível aprovar a compra do cliente se caso as
informações forem corretas ou o saldo da conta for suficiente para a
continuação da transação.