Knowledge discovery thru data mining

Knowledge Discovery through Data Mining C. Devakumar Indian Council of Agricultural Research New Delhi-110 012 [email_address]

Introduction ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Why Data Mining? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Evolution of Database Technology ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What is Data Mining? ,[object Object],[object Object],[object Object]

What is not Data Mining? ,[object Object],[object Object]

Origins of Data Mining ,[object Object],[object Object],[object Object],[object Object],[object Object],Machine Learning/ Pattern Recognition Statistics/ AI Data Mining Database systems

+ = Data Interestingness criteria Hidden patterns

+ = Data Interestingness criteria Hidden patterns Type of Patterns

+ = Data Interestingness criteria Hidden patterns Type of data Type of Interestingness criteria

Type of Data ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Type of Interestingness ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Statistics: Conceptual Model (Hypothesis) Statistical Reasoning “ Proof” (Validation of Hypothesis)

Data mining: Mining Algorithm Based on Interestingness Data Pattern (model, rule, hypothesis) discovery

Explores Your Data Finds Patterns Performs Predictions

Presentation Exploration Discovery Passive Interactive Proactive Role of Software Business Insight Predictive Analysis Canned reporting Ad-hoc reporting OLAP Data mining

Data Mining Tasks ,[object Object],[object Object],[object Object],[object Object]

Data Mining Tasks... ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Challenges of Data Mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Mining and Business Intelligence Increasing potential to support business decisions End User Business Analyst Data Analyst DBA Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems

Data Mining: Confluence of Multiple Disciplines Data Mining Database Technology Statistics Machine Learning Pattern Recognition Algorithm Other Disciplines Visualization

Architecture: Typical Data Mining System data cleaning, integration, and selection Database or Data Warehouse Server Data Mining Engine Pattern Evaluation Graphical User Interface Knowledge-Base Database Data Warehouse World-Wide Web Other Info Repositories

Multi-Dimensional View of Data Mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Mining: Classification Schemes ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Mining Functionalities ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Mining Functionalities (2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Major Issues in Data Mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Bioinformatics, Computational Biology, Data Mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],Problems in Bioinformatics Domain

Tokenization , which splits a text document into a stream of words by removing all punctuation marks and by replacing tabs and other non-text characters with single white spaces Filtering methods remove words like articles, conjunctions, prepositions, etc. Lemmatization methods try to map verb forms to the infinite tense and nouns to their singular form. Stemming methods attempt to build the basic forms of words, for example, by stripping the plural 's' from nouns, the 'ing' from verbs, or other affixes. Additional linguistic preprocessing N-grams individualization, which is n-word generic sequences that do not necessarily correspond to an idiomatic use; Anaphora resolution, which can identify relationships among a linguistic expression (anaphora) and its preceding phrase, thus, determining the corresponding reference; Part-of-speech tagging (POS) determines the part of speech tag, noun, verb, adjective, etc. for each term; Text chunking aims at grouping adjacent words in a sentence; Word Sense Disambiguation (WSD) tries to resolve the ambiguity in the meaning of single words or phrases; Parsing produces a full parse tree of a sentence (subject, object, etc.).

Castellano, M. et al. A bioinformatics knowledge discovery in text application for grid Computing BMC Bioinformatics 2009, 10(Suppl 6):S23

BIOINFORMATICS ARCHITECTURE The Layer Architecture consisting of GATE 4.0 Toolkit for Text Mining, a Middleware solution written by Java API, the grid infrastructure middleware, and a physical layer that consists of a Gnu/Linux Operating System. The integrated development environment, GATE was used for the text mining process. GATE operated on a collection of scientific publications in full text available on MedLine/Pubmed (in pdf format) using the process of Text Mining

What is New in SQL Server 2008? Data Mining Enhancements ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Microsoft DM Competitors ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Knowledge discovery thru data mining

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (19)

Similar a Knowledge discovery thru data mining

Similar a Knowledge discovery thru data mining (20)

Más de Devakumar Jain

Más de Devakumar Jain (12)

Último

Último (20)

Knowledge discovery thru data mining