SlideShare una empresa de Scribd logo
1 de 54
Descargar para leer sin conexión
AN INTRODUCTION TO DATA
MINING WITH WEKA (รุ่นที่ 14)
BY OPEN MINER
WWW.OPEN-MINER.COM

Part 0 About Us
Instructors
2



อ.สิร ิว รรณ แต้ว ิจ ิต ร
 อยู่ระหว่างศึกษาต่อระดับปริญญาเอก ที่สถาบัน
เทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัย
ธรรมศาสตร์ และ Japan Advance Institute
of Science and Technology
 ปริญญาโท สาขาวิชา Computer
Engineering มหาวิทยาลัยเกษตรศาสตร์
 ปริญญาตรี สาขาวิชา Computer
Engineering มหาวิทยาลัยเกษตรศาสตร์
 Email: siriwont@gmail.com,
openminer@gmail.com

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Course Outline
3



1st day
 Introduction to data mining
 Introduction to Weka
OPEN MINER
 Preprocess
www.open-miner.com
 Regression & Classification
Techniques
www.facebook.com/openmin
 Linear Regression
er
 Decision tree

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Course Outline (cont’)
4



2nd day


Regression & Classification Techniques
 K-Nearest neighbors
 Neural Networks
 Support Vector Machines (SVM)

OPEN MINER
 Clustering
www.open-miner.com
 Association rule discovery

 JAVA + WEKA
www.facebook.com/openmin
 PHP + WEKA
 Knowledge Flow er

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part IIntroduction to Data Mining
What is data mining?
6



“The exploration and analysis of large
quantities of data in order to discover
meaningful patterns and rules” – Data

OPEN MINER
www.open-miner.com

Mining Techniques (2nd Edition)
 เป็นการวิเคราะห์ข้อมูลเพือหารูปแบบ (patterns) หรือ
่
ความสัมพันธ์ (relation) ระหว่างข้อมูลในฐานข้อมูล
ขนาดใหญ่

www.facebook.com/openmin
“Extraction of interesting (non-trivial,
er
previously, unknown and potential


useful) information from data in large
databases” – Data Mining Concepts

Open Miner Intelligence : http://www.open-miner.com
nd
WEKA รุ่นที่ 14

&Techniques (2 Edition) AN INTRODUCTION TO DATA MINING WITH
Loyalty Cards
7

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Loyalty Cards (2)
8

Tesco
Lotus

BigC

Carrefou
r

TOPS

ชื่อบัตร

Club card

BigCard

I wish

SPOT

เริ่มต้น
โปรโมชัน

08/2552

09/2552 07/2550
~2548
OPEN MINER
สิทธิ
สะสมแต้ม รับเงินคืน 5 สะสมแต้ม รับส่ว
www.open-miner.comาหรันลด
ประโยชน์ ทุก 2 บาท บาท เมื่อซื้อ
สำ
บ

ได้ 1 แต้ม สินค้าครบ
สมาชิก
www.facebook.com/openminและ
500 บาท
personal
shopping
นิตยสาร positioning ฉบับer
เดือนพฤศจิกายน 2552

Reference :

list

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Summary
9



ในปัจจุบนข้อมูลมีจำานวนเพิ่มมากขึ้นเรื่อยๆ แต่ไม่ได้นำามาใช้
ั
ประโยชน์



OPEN MINER
www.open-miner.comนข้อมูลที่
Data mining เป็นการหาความสัมพันธ์ต่างๆ ที่ปรากฏอยู่ใ










การซื้อสินค้าในห้างสรรพสินค้าต่างๆ
ข้อมูลการลงทะเบียนเรียนของนิสิต
Social network : facebook, twitter
ข้อมูลชีวสารสนเทศ เช่น protein sequence, gene
ฐานข้อมูลลูกค้าภายในบริษัท

มีขนาดใหญ่
www.facebook.com/openmin
วิเคราะห์พฤติกรรมการซื้อสินค้าของลูกค้าแต่ละคน เพื่อนำาเสนอ
er
โปรโมชันให้ตรงกับความต้องการ

วิเคราะห์ข้อมูลประวัติการศึกษาเพื่อแนะนำาให้นิสิตประสบความสำาเร็จ
ในอาชีพ
AN
วิเคราห์ข้อมูลโปรตีนระดับปฐมภูมิ เพื่อใช้ใINTRODUCTION TO DATA MININGง
นการทำานายโครงสร้า WITH

Open Miner Intelligence : http://www.open-miner.com

WEKA รุ่นที่ 14
AN INTRODUCTION TO DATA
MINING WITH WEKA รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part

Cross Reference Industry Standard Process
II for Data Mining
CRISP-DM
11



CRoss-Industry Standard Process for Data
Mining (CRISP-DM)
 พัฒนาขึ้นโดย
 บริษัท DaimlerChrysler
 บริษัท SPSS
 บริษัท NCR
 Workflow มาตรฐานสำาหรับการทำา data mining
www.facebook.com/openmin
 ประกอบด้วย 6 ขั้นตอน
er

OPEN MINER
www.open-miner.com

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Data Mining Workflow
12

บทความเพิมเติม : http://open่
miner.com/2009/11/03/introduction-datamining/

Business
Understanding
+ Data
Understanding
+
Data
www.facebook.com/openmin
Preparation
ใช้เวลาถึง 80%
er
ของทั้งหมด


OPEN MINER
www.open-miner.com

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
CRISP Example
13

การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษาคณะ
วิศวกรรมศาสตร์
( http://www.nectec.or.th/NTJ/No11/No11.php )






OPEN MINER
ธนาวินท์ รักธรรมานนท์
www.open-miner.com
รศ. ดร. กฤษณะ ไวยมัย
ชิดชนก ส่งสิริ

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
CRISP Example (5)
14

ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต

Stu_co Sex
de



Addr GPA
ess

Data Understanding


ข้อมูลการลงทะเบียนของ
นิสิต
ตั้งแต่ปี 2535-2542

OPEN MINERานวน 10,000 กว่า
นิสิตจำ
คน
37058 Male Song 3.2
ข้อมูล 476,085
167 มูล การลงทะเบีย นตัว นิส ิต
kla
ข้อ www.open-miner.com แถว
37058
063

Male

Bang
kok

2.3





ข้อมูลแบ่งเป็น 2 ส่วน

… Grad
www.facebook.com/openmin
ข้อมูลประวัติส่วนตัวของ
e
นิสิต เช่น ชื่อ ที่อยู่
ภูมิลำาเนา อายุ เป็นต้น
37058 คอมพิวเต …
C+er
….

…

Stu_co Sub_cod
de
e
063

…

…

อร์

37058 คณิตศาส …
D
063
ตร์
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14







ข้อมูลการลงทะเบียนของ
นิสิตชั้นปีที่ 1 จำานวน 9
รายวิชา

AN INTRODUCTION TO DATA MINING WITH
CRISP Example (6)
15

ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต (Old)

Stu_co Sex
de

Addr GPA
ess

ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต (New)

Stu_co Sex
de

Addr GPA
ess

OPEN MINER
37058 Male Song 3.2
37058 Male Song GOO
www.open-miner.comว นิส ิต (New)
kla
167
kla
D
ข้167การลงทะเบีย นตัว นิส ิต (Old)
อ มูล
ข้อ มูล การลงทะเบีย นตั
37058
063

Male

Bang
kok

2.3

37058
063

Male

Bang
kok

BAD

www.facebook.com/openmin
37058 คอมพิวเ …
C+ er 37058 คอมพิวเต … Medi
….

…

Stu_co Sub_co
de
de
063

…

…

…

Grad
e

ตอร์

37058 คณิตศา
…
D
063
สตร์
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

….

…

Stu_co Sub_co
de
de
063

อร์

…

…

…

Grad
e
um

37058 คณิตศาส …
Low
063 INTRODUCTION TO DATA MINING WITH
ตร์
AN
16

Data Mining Concepts and
Techniques
Supervised
learning


Classification





Unsupervised
learning


Clustering

OPEN MINER
www.open-miner.com

เป็นการจำาแนกข้อมูลออก
เป็นประเภทต่างๆ
อาศัยการเรียนรู้จากข้อมูล
เก่า




แบ่งข้อมูลเป็นหลายๆ กลุ่ม
อาศัยความคล้ายคลึงกันของ
ข้อมูล

Associate
www.facebook.com/openmin
Regression
อาศัยความสัมพันธ์ของ
การประมาณค่าจำานวนหรือ
er ข้อมูลที่เกิดร่วมกัน
ปริมาณที่เป็นตัวเลข







อาศัยการเรียนรู้จากข้อมูล
เก่า

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14



สร้างเป็นกฎความสัมพันธ์

AN INTRODUCTION TO DATA MINING WITH
Data Mining Software
17



Commercial
Software




SAS® Enterprise
Miner



Open source software
or Freeware


Weka

OPEN MINER
DB2 Intelligent
www.open-miner.com
RapidMiner
Miner


www.facebook.com/openmin
Microsoft SQL Server
er
2008




Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

KNIME (Konstanz
Information Miner)

AN INTRODUCTION TO DATA MINING WITH
Data Mining Software (2)
18



Weka

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
AN INTRODUCTION TO DATA
MINING WITH WEKA รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part IIIIntroduction to Weka
What is Weka ?
20



Weka
 Waikato Environment for Knowledge Analysis
 เป็นซอฟต์แวร์ open source สำาหรับการวิเคราะห์
ข้อมูลด้วยเทคนิค Data Mining
 สามารถดาวน์โหลดมาใช้ได้ ฟรี !!!
 พัฒนาด้วยภาษา Java และสามารถทำางานได้บน
 Windows
 Linux
 MAC OS
 ดาวน์โหลด Weka ได้จาก
 http://www.cs.waikato.ac.nz/ml/weka/

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Download Weka
21



http://www.cs.waikato.ac.nz/ml/weka/

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
เวอร์ชันนี้จะไม่มี

เวอร์ชันนี้จะมี
โปรแกรมJava รวมมา
ให้ด้วย

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

โปรแกรมJava รวมมา
ให้ ต้อ งมี Java ใน
AN INTRODUCTION TO DATA MINING WITH
เครื่อ งแล้ว !!
Weka Explorer
22

Tab สำาหรับเรียกใช้
งานฟังก์ชันต่างๆ ของ
data mining

OPEN MINER
Workspace: เป็น
ส่วนสำาคัญของ Weka
www.open-miner.comจะใช้ในการ
Explorer

www.facebook.com/openmin
er

ปรับเปลี่ยน พารามิเตอร์
ต่างๆ และแสดงผลการ
ทำางาน

Status: บอกว่า Wekaกำาลัง

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

จะเต้นเมื่อกำาลังทำางาน
อยู่
Log: เก็บรายละเอียดของการ
AN INTRODUCTION
ทำางานต่างๆ TO DATA MINING WITH
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part IV Preprocess
Agenda
24



ข้อมูล





โหลดข้อมูลเข้าไปใช้ในโปรแกรม Weka






อินสแตนซ์ (instance)
แอตทรบิวต์ (attribute)

OPEN MINER
www.open-miner.com

ไฟล์ CSV
ไฟล์ ARFF
ฐานข้อมูล

www.facebook.com/openmin
แปลงข้อมูลจากตัวเลขให้เป็นช่วง
เพิมข้อมูลที่ขาดหาย
่
er
ค้นหาข้อมูล Outlier
Preprocess Data ด้วย Weka




Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Load data into Weka (2)
25



ข้อมูลที่ใช้เป็น input สำาหรับ Weka

OPEN MINER
www.open-miner.com

ไฟล์
(File)

อิน เตอร์เ น็
ต
(Internet)

ฐานข้อ มูล
(Databas
e)

ข้อ มูล
จำา ลอง
(Generate
Data)

CSV
CSV
www.facebook.com/openmin
ARF
ARF
er
F
F

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Lab 4-1: Generate CSV file
26



วัต ถุป ระสงค์: เพือสร้างไฟล์ CSV ด้วยโปรแกรม Excel และโหลด
่
ไฟล์เข้าใช้งานใน Weka
ตารางที่ 1: สมาชิก

OPEN MINER
www.open-miner.com



www.facebook.com/openmin
Note : In sex attribute, value 0 = Female, 1 = Male, 2 = Others
er
บันทึกไฟล์ในชื่อ customers.csv

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Weka & MySQL (4)
27



jdbc:mysql://localhost:3306/weka_cour
se



URL : ชื่อ URL ของ
database server
Click ปุ่ม User

OPEN MINER
www.open-miner.com

Server
URL &
port

Database
name

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
28

Replace missing values in
Weka


กดปุ่ม Choose
เลือก
เลือก
เลือก
เลือก

filters
unsupervised
attribute
ReplaceMissingValues

OPEN MINER
www.open-miner.com





กดปุ่ม Apply
www.facebook.com/openmin
er


Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part V Regression & Classification
Agenda
30



การประมาณค่าจำานวน (Regression) และ การจำาแนก
ประเภทข้อมูล (Data classification)


OPEN MINER
เทคนิคต่างๆ ในการประมาณค่าจำานวน และ จำาแนก
www.open-miner.com
ประเภทข้อมูล





ความหมายและการประยุกต์ใช้
ข้อมูล training, testing
การทดสอบประสิทธิภาพ และการแปลความ

www.facebook.com/openmin
er






Linear Regression
Decision tree
K-nearest neighbors
Neural Network
Support Vector Machines (SVM)

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
What is classification?
31

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
คำา ถาม :: มีร ูป ภาพอะไร
คำา ถาม มีร ูป ภาพอะไร
er
ปรากฏอยู่บ ้า ง ?
ปรากฏอยู่บ ้า ง ?

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Example: Classification (3)
32



Model






สร้างได้จากการเรียนรู้ด้วย training data
ใช้สำาหรับจำาแนกข้อมูลใหม่ที่ยังไม่รู้ class
Decision tree model
≥ 100

OPEN MINER
www.open-miner.com

< 100

www.facebook.com/openmin
โมเดลในรูปแบบ Tree
er
Evaluate Model

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Example: Classification (4)
33



Unseen data


ข้อมูลใหม่จะไม่มีคำาตอบ (class) อยู่ด้วย แต่เมื่อผ่านการ
ประมวลผลจากโมเดล ถึงจะทราบคำาตอบ

OPENขีย ว สีน ำ้า เงิน
สีเ MINER
134.86
96.01
158.83
www.open-miner.com
สีแ ดง

แอตทริบิวต์

www.facebook.com/openmin
er

?
?

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

?
?

AN INTRODUCTION TO DATA MINING WITH
Classification Steps (3)
34
34

ข้อ มูล เรีย น

ขันตอนการสร้าง
้
รู้
โมเดล
(Training
(classification
data)
model
building)


ขันตอนการวัด
้
ประสิทธิภาพ
(evaluation)

OPEN MINER
www.open-miner.com
ข้อ มูล
ทดสอบ
(Evaluate
data)

www.facebook.com/openmin
เปรียบเทียบผลทีได้
่
er
จากโมเดลและคำา

3

Unseen data

ตอบจริง

การใช้งานจริง
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Classification in Weka (cont’)
35



คลิกที่ tab Classify


OPEN MINER
www.open-miner.com





www.facebook.com/openmin

er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
1: Classifier
36



เทคนิคในการทำา classification
แบบต่างๆ

OPEN MINER
www.open-miner.com




Bayes
 สร้างโมเดลโดยอาศัยการคำานวณ
ความน่าจะเป็น (probability) ของ
ข้อมูลต่างๆ
Functions
 สร้างโมเดลโดยอาศัยการคำานวณทาง
คณิตศาสตร์
 โมเดลเป็นรูปแบบของสมการ
Lazy
 ต่างจากเทคนิค classification แบ
บอื่นๆ
 ไม่มีการสร้างโมเดลไว้ก่อน
AN INTRODUCTION TO DATA MINING WITH

www.facebook.com/openmin
er


Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14


Lab 5-2: German Credit Card
37



Business Understanding






การอนุมติบัตรเครดิตของธนาคารต่างๆ จำาเป็นจะต้องพิจารณา
ั
ปัจจัยหลายๆ ด้านของลูกค้าผูขออนุมัติ ทั้งนี้เพราะความเสี่ยงที่
้
อาจจะเกิดขึ้นจากการใช้บตรเครดิตของลูกค้าอาจจะทำาให้
ั
ธนาคารสูญเสียเงินเป็นจำานวนมาก
การสร้างระบบช่วยการตัดสินใจ (decision support system)
ในการอนุมติบตรเครดิตแบบอัตโนมัติจะช่วยให้ธนาคารสามารถ
ั ั
ทำางานได้เร็วขึ้น

OPEN MINER
www.open-miner.com

www.facebook.com/openmin า
ธนาคารได้เก็บรวบรวมข้อมูลการขออนุมติบตรเครดิตจากลูกค้
ั ั
เก่าจำานวน 600 คน
er
โดยธนาคารจะเก็บคุณลักษณะของลูกค้าแต่ละคนไว้ เช่น จำานวน
Data Understanding



เงินในบัญชี เป็นต้น
 รวบรวมเก็บไว้ในไฟล์ GermanCreditBalance.arff ซึ่งอยู่ใน
แผ่น : http://www.open-miner.com
Open Miner Intelligence CD โฟลเดอร์
AN INTRODUCTION TO DATA MINING WITH
WEKA รุ่นที่ 14
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part VI Clustering
Segmentation
39






แบ่งลูกค้าออกเป็นกลุ่มๆ ย่อย
เพื่อจะได้พิจารณาลักษณะของแต่ละกลุ่มได้ง่ายขึน
้
สมาชิกในแต่ละกลุ่ม
 ควรจะมีลักษณะที่คล้ายๆ กัน
 และควรจะมีลักษณะที่ต่างกันกับกลุ่มอื่น ๆ
ตัวอย่างแอตทริบิวต์ที่ใช้ในการแบ่งกลุ่ม
 ข้อมูลเชิงพื้นที่ (geographic)
 จังหวัด
 ภูมิภาค
 ข้อมูลเชิงประชากร (demographic)
 อายุ
 จำานวนสมาชิกในครอบครัว
 เพศ
 การศึกษา
 รายได้
 อาชีพ
 พฤติกรรมการบริโภค (behavior)
 สินค้าที่เคยซื้อ
 จำานวนครั้งที่กลับมาซื้อ

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Data clustering
40





การแบ่งกลุ่มหรือคลัสเตอริ่ง (clustering) เป็นเทคนิคหนึงที่
่
นิยมใช้กันในการวิเคราะห์ข้อมูล
หน้าที่ของคลัสเตอริ่ง





OPEN MINER
www.open-miner.com

การแบ่งข้อมูลออกเป็นกลุ่มย่อยๆ โดยต้องการให้ขอมูลในกลุ่ม
้
เดียวกันมีความเหมือนกันมากๆ และข้อมูลที่อยู่ต่างกลุ่มกันมีความต่าง
กันมากๆ
เราจะเรียกแต่ละกลุ่มย่อยว่าคลัสเตอร์ (cluster)

www.facebook.com/openmin
คลัส เตอ
คลัส เตอ
er
ร์ 2
ร์ 2
คลัสเตอริ่งเป็นวิธสามารถทำาได้โดยไม่ต้องอาศัยการเรียนรู้
คลัส เตอร์ ี
คลัส เตอร์
1
1
(unsupervised learning)
คลัส เตอ
คลัส เตอ
ร์ 3
ร์ 3

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Clustering in Weka (cont’)
41



คลิกที่ tab Cluster


OPEN MINER
www.open-miner.com


www.facebook.com/openmin

er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
42

Example1 : Clustering bank
data


ข้อมูลรายละเอียดลูกค้าของธนาคาร (bank)

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part VII Association Rules
Market Basket Analysis
44





ริเริ่มจากการสังเกตุการซื้อสินค้าใน supermarket
ข้อมูลการซื้อสินค้าของลูกค้าแต่ละคน
วิเคราะห์พฤติกรรมของผู้บริโภค


OPEN MINER
www.open-miner.com

ชอบซื้อสินค้าชนิดไหนพร้อมกันบ้าง ?

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Data from point-of-sale (4)
45

POS database

Transaction- time

Product

01-13-2009 20:04

Apple

01-13-2009 20:04

Beer

TID

Product

OPEN MINER
www.open-miner.com

01-13-2009 20:04
01-13-2009 20:04

Cereal

Diapers

1

Apple, Beer, Cereal, Diapers

2

Apple, Beer, Diapers, Eggs

3

Beer, Eggs

Transaction database

www.facebook.com/openmin
Beer
01-14-2009 11:30
Diapers
er
01-14-2009 11:30

Apple

01-14-2009 11:30
01-14-2009 11:30

Eggs

01-15-2009 14:15

Beer

01-15-2009 14:15
Eggs
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
46

Association Rules in Weka
(cont’)


คลิกที่ tab Associate


OPEN MINER
www.open-miner.com




www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Lab 7-1: Market Basket
47



Business Understanding




ซุเปอร์มาร์เก็ตแห่งหนึ่งต้องการทำาระบบ CRM กับลูกค้าที่เข้า
มาซื้อสินค้าโดยต้องการหาว่ามีสินค้าชนิดใดบ้างที่ลกค้ามักจะ
ู
ซื้อพร้อมกันบ่อยๆ เพือนำาไปจัดโปรโมชัน
่

OPEN MINER
Data Understanding
ซุปเปอร์มาร์เก็ตแห่งนี้ได้ทำาการเก็บประวัติการซื้อสินค้าของ
www.open-miner.com
ลูกค้าจำานวน 1,000 คน


โดยข้อมูลของลูกค้าแต่ละรายจะแบ่งเป็น 2 ส่วนใหญ่ๆ คือ
www.facebook.com/openmin
ข้อมูลรายละเอียดเกี่ยวกับลูกค้าแต่ละราย มีจำานวน ……
er
แอตทริบวต์
ิ






ข้อมูลสินค้าที่ลูกค้าซื้อแต่ละครั้ง มีจำานวน …… แอตทริบวต์
ิ

ข้อมูลเหล่านี้ได้ถูกรวบรวมเก็บไว้ในไฟล์
Open Miner Intelligence : http://www.open-miner.com
AN INTRODUCTION TO DATA MINING
supermarket_basket_transactions_2005.arff WITH


WEKA รุ่นที่ 14
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part VIII Command line & Integrate System
Weka in command line
49




การเรียกใช้งาน Weka ด้วยการพิมพ์คำาสังผ่านทาง DOS
่
เลือก Run > พิมพ์ cmd จะปรากฏหน้า DOS (หน้าจอดำาๆ)



OPEN MINER
www.open-miner.com


www.facebook.com/openmin
er

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
50

Lab8-2: Weka in Java Program
(2)


พารามิเตอร์ของเทคนิคต่างๆ ดูได้จาก Weka Explorer



OPEN MINER
ขั้นตอนการ compile โปรแกรม
www.open-miner.com
javac -classpath “C:Program FilesWeka-3-



www.facebook.com/openmin
er
6weka.jar” testClassifier.java
ขั้นตอนการ run โปรแกรม
java -classpath “C:Program FilesWeka-36weka.jar;.” testClassifier

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
AN INTRODUCTION TO
DATA MINING WITH WEKA
รุ่นที่ 14
BY OPEN MINER
WWW.OPEN-MINER.COM

Part IX Knowledge Flow
Weka KnowledgeFlow
52



สามารถเลือก component ต่างๆ ของ Weka มาเรียงต่อกัน เพื่อให้
ทำางานเป็นแบบ workflow

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Example: Knowledge flow (7)
53




เลือก component TextViewer จากแท็บ Visualization
วางไว้ในส่วน Layout และคลิกขวาที่
ClassifierPerformanceEvaluator เลือกเมนู text
แล้วลากลูกศรมายัง TextViewer

OPEN MINER
www.open-miner.com

www.facebook.com/openmin
er
Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH
Contact Us
54



อ.สิริวรรณ แต้วิจิตร


E-mail
 siriwont@gmail.com



Website




http://www.open-miner.com

Google Buzz
 http://www.google.com/profiles/openminer

Open Miner Intelligence : http://www.open-miner.com
WEKA รุ่นที่ 14

AN INTRODUCTION TO DATA MINING WITH

Más contenido relacionado

Similar a Introduction to data mining with WEKA by OPEN MINER

ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์KaRn Tik Tok
 
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์Soldic Kalayanee
 
ใบงาน2 8
ใบงาน2 8ใบงาน2 8
ใบงาน2 8Aimie 'owo
 
ใบงาน2 8
ใบงาน2 8ใบงาน2 8
ใบงาน2 8Aimie 'owo
 
แนวโน้มของเทคโนโลยี และ Cloud Computing
แนวโน้มของเทคโนโลยี และ Cloud Computingแนวโน้มของเทคโนโลยี และ Cloud Computing
แนวโน้มของเทคโนโลยี และ Cloud ComputingIMC Institute
 
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งานใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งานMintra Pudprom
 
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งานใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งานSoldic Kalayanee
 
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งานใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งานKaRn Tik Tok
 

Similar a Introduction to data mining with WEKA by OPEN MINER (11)

ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
 
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
ใบงานที่ 8 โครงงานประเภท การพัฒนาโปรแกรมประยุกต์
 
ใบงาน2 8
ใบงาน2 8ใบงาน2 8
ใบงาน2 8
 
ใบงาน2 8
ใบงาน2 8ใบงาน2 8
ใบงาน2 8
 
K13
K13K13
K13
 
แนวโน้มของเทคโนโลยี และ Cloud Computing
แนวโน้มของเทคโนโลยี และ Cloud Computingแนวโน้มของเทคโนโลยี และ Cloud Computing
แนวโน้มของเทคโนโลยี และ Cloud Computing
 
Text Mining - Data Mining
Text Mining - Data MiningText Mining - Data Mining
Text Mining - Data Mining
 
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งานใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
 
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งานใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
 
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งานใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
ใบงานที่ 7 เรื่อง โครงงานประเภทการประยุกต์ใช้งาน
 
650 1
650 1650 1
650 1
 

Introduction to data mining with WEKA by OPEN MINER

  • 1. AN INTRODUCTION TO DATA MINING WITH WEKA (รุ่นที่ 14) BY OPEN MINER WWW.OPEN-MINER.COM Part 0 About Us
  • 2. Instructors 2  อ.สิร ิว รรณ แต้ว ิจ ิต ร  อยู่ระหว่างศึกษาต่อระดับปริญญาเอก ที่สถาบัน เทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัย ธรรมศาสตร์ และ Japan Advance Institute of Science and Technology  ปริญญาโท สาขาวิชา Computer Engineering มหาวิทยาลัยเกษตรศาสตร์  ปริญญาตรี สาขาวิชา Computer Engineering มหาวิทยาลัยเกษตรศาสตร์  Email: siriwont@gmail.com, openminer@gmail.com Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 3. Course Outline 3  1st day  Introduction to data mining  Introduction to Weka OPEN MINER  Preprocess www.open-miner.com  Regression & Classification Techniques www.facebook.com/openmin  Linear Regression er  Decision tree Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 4. Course Outline (cont’) 4  2nd day  Regression & Classification Techniques  K-Nearest neighbors  Neural Networks  Support Vector Machines (SVM) OPEN MINER  Clustering www.open-miner.com  Association rule discovery  JAVA + WEKA www.facebook.com/openmin  PHP + WEKA  Knowledge Flow er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 5. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part IIntroduction to Data Mining
  • 6. What is data mining? 6  “The exploration and analysis of large quantities of data in order to discover meaningful patterns and rules” – Data OPEN MINER www.open-miner.com Mining Techniques (2nd Edition)  เป็นการวิเคราะห์ข้อมูลเพือหารูปแบบ (patterns) หรือ ่ ความสัมพันธ์ (relation) ระหว่างข้อมูลในฐานข้อมูล ขนาดใหญ่ www.facebook.com/openmin “Extraction of interesting (non-trivial, er previously, unknown and potential  useful) information from data in large databases” – Data Mining Concepts Open Miner Intelligence : http://www.open-miner.com nd WEKA รุ่นที่ 14 &Techniques (2 Edition) AN INTRODUCTION TO DATA MINING WITH
  • 7. Loyalty Cards 7 OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 8. Loyalty Cards (2) 8 Tesco Lotus BigC Carrefou r TOPS ชื่อบัตร Club card BigCard I wish SPOT เริ่มต้น โปรโมชัน 08/2552 09/2552 07/2550 ~2548 OPEN MINER สิทธิ สะสมแต้ม รับเงินคืน 5 สะสมแต้ม รับส่ว www.open-miner.comาหรันลด ประโยชน์ ทุก 2 บาท บาท เมื่อซื้อ สำ บ ได้ 1 แต้ม สินค้าครบ สมาชิก www.facebook.com/openminและ 500 บาท personal shopping นิตยสาร positioning ฉบับer เดือนพฤศจิกายน 2552 Reference : list Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 9. Summary 9  ในปัจจุบนข้อมูลมีจำานวนเพิ่มมากขึ้นเรื่อยๆ แต่ไม่ได้นำามาใช้ ั ประโยชน์   OPEN MINER www.open-miner.comนข้อมูลที่ Data mining เป็นการหาความสัมพันธ์ต่างๆ ที่ปรากฏอยู่ใ       การซื้อสินค้าในห้างสรรพสินค้าต่างๆ ข้อมูลการลงทะเบียนเรียนของนิสิต Social network : facebook, twitter ข้อมูลชีวสารสนเทศ เช่น protein sequence, gene ฐานข้อมูลลูกค้าภายในบริษัท มีขนาดใหญ่ www.facebook.com/openmin วิเคราะห์พฤติกรรมการซื้อสินค้าของลูกค้าแต่ละคน เพื่อนำาเสนอ er โปรโมชันให้ตรงกับความต้องการ วิเคราะห์ข้อมูลประวัติการศึกษาเพื่อแนะนำาให้นิสิตประสบความสำาเร็จ ในอาชีพ AN วิเคราห์ข้อมูลโปรตีนระดับปฐมภูมิ เพื่อใช้ใINTRODUCTION TO DATA MININGง นการทำานายโครงสร้า WITH Open Miner Intelligence : http://www.open-miner.com  WEKA รุ่นที่ 14
  • 10. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part Cross Reference Industry Standard Process II for Data Mining
  • 11. CRISP-DM 11  CRoss-Industry Standard Process for Data Mining (CRISP-DM)  พัฒนาขึ้นโดย  บริษัท DaimlerChrysler  บริษัท SPSS  บริษัท NCR  Workflow มาตรฐานสำาหรับการทำา data mining www.facebook.com/openmin  ประกอบด้วย 6 ขั้นตอน er OPEN MINER www.open-miner.com Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 12. Data Mining Workflow 12 บทความเพิมเติม : http://open่ miner.com/2009/11/03/introduction-datamining/ Business Understanding + Data Understanding + Data www.facebook.com/openmin Preparation ใช้เวลาถึง 80% er ของทั้งหมด  OPEN MINER www.open-miner.com Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 13. CRISP Example 13 การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษาคณะ วิศวกรรมศาสตร์ ( http://www.nectec.or.th/NTJ/No11/No11.php )     OPEN MINER ธนาวินท์ รักธรรมานนท์ www.open-miner.com รศ. ดร. กฤษณะ ไวยมัย ชิดชนก ส่งสิริ www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 14. CRISP Example (5) 14 ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต Stu_co Sex de  Addr GPA ess Data Understanding  ข้อมูลการลงทะเบียนของ นิสิต ตั้งแต่ปี 2535-2542 OPEN MINERานวน 10,000 กว่า นิสิตจำ คน 37058 Male Song 3.2 ข้อมูล 476,085 167 มูล การลงทะเบีย นตัว นิส ิต kla ข้อ www.open-miner.com แถว 37058 063 Male Bang kok 2.3   ข้อมูลแบ่งเป็น 2 ส่วน … Grad www.facebook.com/openmin ข้อมูลประวัติส่วนตัวของ e นิสิต เช่น ชื่อ ที่อยู่ ภูมิลำาเนา อายุ เป็นต้น 37058 คอมพิวเต … C+er …. … Stu_co Sub_cod de e 063 … … อร์ 37058 คณิตศาส … D 063 ตร์ Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14    ข้อมูลการลงทะเบียนของ นิสิตชั้นปีที่ 1 จำานวน 9 รายวิชา AN INTRODUCTION TO DATA MINING WITH
  • 15. CRISP Example (6) 15 ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต (Old) Stu_co Sex de Addr GPA ess ข้อ มูล ประวัต ิส ่ว นตัว นิส ิต (New) Stu_co Sex de Addr GPA ess OPEN MINER 37058 Male Song 3.2 37058 Male Song GOO www.open-miner.comว นิส ิต (New) kla 167 kla D ข้167การลงทะเบีย นตัว นิส ิต (Old) อ มูล ข้อ มูล การลงทะเบีย นตั 37058 063 Male Bang kok 2.3 37058 063 Male Bang kok BAD www.facebook.com/openmin 37058 คอมพิวเ … C+ er 37058 คอมพิวเต … Medi …. … Stu_co Sub_co de de 063 … … … Grad e ตอร์ 37058 คณิตศา … D 063 สตร์ Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 …. … Stu_co Sub_co de de 063 อร์ … … … Grad e um 37058 คณิตศาส … Low 063 INTRODUCTION TO DATA MINING WITH ตร์ AN
  • 16. 16 Data Mining Concepts and Techniques Supervised learning  Classification    Unsupervised learning  Clustering OPEN MINER www.open-miner.com เป็นการจำาแนกข้อมูลออก เป็นประเภทต่างๆ อาศัยการเรียนรู้จากข้อมูล เก่า   แบ่งข้อมูลเป็นหลายๆ กลุ่ม อาศัยความคล้ายคลึงกันของ ข้อมูล Associate www.facebook.com/openmin Regression อาศัยความสัมพันธ์ของ การประมาณค่าจำานวนหรือ er ข้อมูลที่เกิดร่วมกัน ปริมาณที่เป็นตัวเลข     อาศัยการเรียนรู้จากข้อมูล เก่า Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14  สร้างเป็นกฎความสัมพันธ์ AN INTRODUCTION TO DATA MINING WITH
  • 17. Data Mining Software 17  Commercial Software   SAS® Enterprise Miner  Open source software or Freeware  Weka OPEN MINER DB2 Intelligent www.open-miner.com RapidMiner Miner  www.facebook.com/openmin Microsoft SQL Server er 2008   Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 KNIME (Konstanz Information Miner) AN INTRODUCTION TO DATA MINING WITH
  • 18. Data Mining Software (2) 18  Weka OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 19. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part IIIIntroduction to Weka
  • 20. What is Weka ? 20  Weka  Waikato Environment for Knowledge Analysis  เป็นซอฟต์แวร์ open source สำาหรับการวิเคราะห์ ข้อมูลด้วยเทคนิค Data Mining  สามารถดาวน์โหลดมาใช้ได้ ฟรี !!!  พัฒนาด้วยภาษา Java และสามารถทำางานได้บน  Windows  Linux  MAC OS  ดาวน์โหลด Weka ได้จาก  http://www.cs.waikato.ac.nz/ml/weka/ OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 21. Download Weka 21  http://www.cs.waikato.ac.nz/ml/weka/ OPEN MINER www.open-miner.com www.facebook.com/openmin er เวอร์ชันนี้จะไม่มี เวอร์ชันนี้จะมี โปรแกรมJava รวมมา ให้ด้วย Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 โปรแกรมJava รวมมา ให้ ต้อ งมี Java ใน AN INTRODUCTION TO DATA MINING WITH เครื่อ งแล้ว !!
  • 22. Weka Explorer 22 Tab สำาหรับเรียกใช้ งานฟังก์ชันต่างๆ ของ data mining OPEN MINER Workspace: เป็น ส่วนสำาคัญของ Weka www.open-miner.comจะใช้ในการ Explorer www.facebook.com/openmin er ปรับเปลี่ยน พารามิเตอร์ ต่างๆ และแสดงผลการ ทำางาน Status: บอกว่า Wekaกำาลัง Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 จะเต้นเมื่อกำาลังทำางาน อยู่ Log: เก็บรายละเอียดของการ AN INTRODUCTION ทำางานต่างๆ TO DATA MINING WITH
  • 23. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part IV Preprocess
  • 24. Agenda 24  ข้อมูล    โหลดข้อมูลเข้าไปใช้ในโปรแกรม Weka     อินสแตนซ์ (instance) แอตทรบิวต์ (attribute) OPEN MINER www.open-miner.com ไฟล์ CSV ไฟล์ ARFF ฐานข้อมูล www.facebook.com/openmin แปลงข้อมูลจากตัวเลขให้เป็นช่วง เพิมข้อมูลที่ขาดหาย ่ er ค้นหาข้อมูล Outlier Preprocess Data ด้วย Weka    Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 25. Load data into Weka (2) 25  ข้อมูลที่ใช้เป็น input สำาหรับ Weka OPEN MINER www.open-miner.com ไฟล์ (File) อิน เตอร์เ น็ ต (Internet) ฐานข้อ มูล (Databas e) ข้อ มูล จำา ลอง (Generate Data) CSV CSV www.facebook.com/openmin ARF ARF er F F Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 26. Lab 4-1: Generate CSV file 26  วัต ถุป ระสงค์: เพือสร้างไฟล์ CSV ด้วยโปรแกรม Excel และโหลด ่ ไฟล์เข้าใช้งานใน Weka ตารางที่ 1: สมาชิก OPEN MINER www.open-miner.com  www.facebook.com/openmin Note : In sex attribute, value 0 = Female, 1 = Male, 2 = Others er บันทึกไฟล์ในชื่อ customers.csv Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 27. Weka & MySQL (4) 27  jdbc:mysql://localhost:3306/weka_cour se  URL : ชื่อ URL ของ database server Click ปุ่ม User OPEN MINER www.open-miner.com Server URL & port Database name www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 28. 28 Replace missing values in Weka  กดปุ่ม Choose เลือก เลือก เลือก เลือก filters unsupervised attribute ReplaceMissingValues OPEN MINER www.open-miner.com     กดปุ่ม Apply www.facebook.com/openmin er  Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 29. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part V Regression & Classification
  • 30. Agenda 30  การประมาณค่าจำานวน (Regression) และ การจำาแนก ประเภทข้อมูล (Data classification)  OPEN MINER เทคนิคต่างๆ ในการประมาณค่าจำานวน และ จำาแนก www.open-miner.com ประเภทข้อมูล    ความหมายและการประยุกต์ใช้ ข้อมูล training, testing การทดสอบประสิทธิภาพ และการแปลความ www.facebook.com/openmin er      Linear Regression Decision tree K-nearest neighbors Neural Network Support Vector Machines (SVM) Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 31. What is classification? 31 OPEN MINER www.open-miner.com www.facebook.com/openmin คำา ถาม :: มีร ูป ภาพอะไร คำา ถาม มีร ูป ภาพอะไร er ปรากฏอยู่บ ้า ง ? ปรากฏอยู่บ ้า ง ? Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 32. Example: Classification (3) 32  Model     สร้างได้จากการเรียนรู้ด้วย training data ใช้สำาหรับจำาแนกข้อมูลใหม่ที่ยังไม่รู้ class Decision tree model ≥ 100 OPEN MINER www.open-miner.com < 100 www.facebook.com/openmin โมเดลในรูปแบบ Tree er Evaluate Model Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 33. Example: Classification (4) 33  Unseen data  ข้อมูลใหม่จะไม่มีคำาตอบ (class) อยู่ด้วย แต่เมื่อผ่านการ ประมวลผลจากโมเดล ถึงจะทราบคำาตอบ OPENขีย ว สีน ำ้า เงิน สีเ MINER 134.86 96.01 158.83 www.open-miner.com สีแ ดง แอตทริบิวต์ www.facebook.com/openmin er ? ? Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 ? ? AN INTRODUCTION TO DATA MINING WITH
  • 34. Classification Steps (3) 34 34 ข้อ มูล เรีย น  ขันตอนการสร้าง ้ รู้ โมเดล (Training (classification data) model building)  ขันตอนการวัด ้ ประสิทธิภาพ (evaluation) OPEN MINER www.open-miner.com ข้อ มูล ทดสอบ (Evaluate data) www.facebook.com/openmin เปรียบเทียบผลทีได้ ่ er จากโมเดลและคำา 3 Unseen data ตอบจริง การใช้งานจริง Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 35. Classification in Weka (cont’) 35  คลิกที่ tab Classify  OPEN MINER www.open-miner.com   www.facebook.com/openmin  er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 36. 1: Classifier 36  เทคนิคในการทำา classification แบบต่างๆ OPEN MINER www.open-miner.com   Bayes  สร้างโมเดลโดยอาศัยการคำานวณ ความน่าจะเป็น (probability) ของ ข้อมูลต่างๆ Functions  สร้างโมเดลโดยอาศัยการคำานวณทาง คณิตศาสตร์  โมเดลเป็นรูปแบบของสมการ Lazy  ต่างจากเทคนิค classification แบ บอื่นๆ  ไม่มีการสร้างโมเดลไว้ก่อน AN INTRODUCTION TO DATA MINING WITH www.facebook.com/openmin er  Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 
  • 37. Lab 5-2: German Credit Card 37  Business Understanding    การอนุมติบัตรเครดิตของธนาคารต่างๆ จำาเป็นจะต้องพิจารณา ั ปัจจัยหลายๆ ด้านของลูกค้าผูขออนุมัติ ทั้งนี้เพราะความเสี่ยงที่ ้ อาจจะเกิดขึ้นจากการใช้บตรเครดิตของลูกค้าอาจจะทำาให้ ั ธนาคารสูญเสียเงินเป็นจำานวนมาก การสร้างระบบช่วยการตัดสินใจ (decision support system) ในการอนุมติบตรเครดิตแบบอัตโนมัติจะช่วยให้ธนาคารสามารถ ั ั ทำางานได้เร็วขึ้น OPEN MINER www.open-miner.com www.facebook.com/openmin า ธนาคารได้เก็บรวบรวมข้อมูลการขออนุมติบตรเครดิตจากลูกค้ ั ั เก่าจำานวน 600 คน er โดยธนาคารจะเก็บคุณลักษณะของลูกค้าแต่ละคนไว้ เช่น จำานวน Data Understanding   เงินในบัญชี เป็นต้น  รวบรวมเก็บไว้ในไฟล์ GermanCreditBalance.arff ซึ่งอยู่ใน แผ่น : http://www.open-miner.com Open Miner Intelligence CD โฟลเดอร์ AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14
  • 38. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part VI Clustering
  • 39. Segmentation 39     แบ่งลูกค้าออกเป็นกลุ่มๆ ย่อย เพื่อจะได้พิจารณาลักษณะของแต่ละกลุ่มได้ง่ายขึน ้ สมาชิกในแต่ละกลุ่ม  ควรจะมีลักษณะที่คล้ายๆ กัน  และควรจะมีลักษณะที่ต่างกันกับกลุ่มอื่น ๆ ตัวอย่างแอตทริบิวต์ที่ใช้ในการแบ่งกลุ่ม  ข้อมูลเชิงพื้นที่ (geographic)  จังหวัด  ภูมิภาค  ข้อมูลเชิงประชากร (demographic)  อายุ  จำานวนสมาชิกในครอบครัว  เพศ  การศึกษา  รายได้  อาชีพ  พฤติกรรมการบริโภค (behavior)  สินค้าที่เคยซื้อ  จำานวนครั้งที่กลับมาซื้อ OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 40. Data clustering 40   การแบ่งกลุ่มหรือคลัสเตอริ่ง (clustering) เป็นเทคนิคหนึงที่ ่ นิยมใช้กันในการวิเคราะห์ข้อมูล หน้าที่ของคลัสเตอริ่ง    OPEN MINER www.open-miner.com การแบ่งข้อมูลออกเป็นกลุ่มย่อยๆ โดยต้องการให้ขอมูลในกลุ่ม ้ เดียวกันมีความเหมือนกันมากๆ และข้อมูลที่อยู่ต่างกลุ่มกันมีความต่าง กันมากๆ เราจะเรียกแต่ละกลุ่มย่อยว่าคลัสเตอร์ (cluster) www.facebook.com/openmin คลัส เตอ คลัส เตอ er ร์ 2 ร์ 2 คลัสเตอริ่งเป็นวิธสามารถทำาได้โดยไม่ต้องอาศัยการเรียนรู้ คลัส เตอร์ ี คลัส เตอร์ 1 1 (unsupervised learning) คลัส เตอ คลัส เตอ ร์ 3 ร์ 3 Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 41. Clustering in Weka (cont’) 41  คลิกที่ tab Cluster  OPEN MINER www.open-miner.com  www.facebook.com/openmin  er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 42. 42 Example1 : Clustering bank data  ข้อมูลรายละเอียดลูกค้าของธนาคาร (bank) OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 43. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part VII Association Rules
  • 44. Market Basket Analysis 44    ริเริ่มจากการสังเกตุการซื้อสินค้าใน supermarket ข้อมูลการซื้อสินค้าของลูกค้าแต่ละคน วิเคราะห์พฤติกรรมของผู้บริโภค  OPEN MINER www.open-miner.com ชอบซื้อสินค้าชนิดไหนพร้อมกันบ้าง ? www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 45. Data from point-of-sale (4) 45 POS database Transaction- time Product 01-13-2009 20:04 Apple 01-13-2009 20:04 Beer TID Product OPEN MINER www.open-miner.com 01-13-2009 20:04 01-13-2009 20:04 Cereal Diapers 1 Apple, Beer, Cereal, Diapers 2 Apple, Beer, Diapers, Eggs 3 Beer, Eggs Transaction database www.facebook.com/openmin Beer 01-14-2009 11:30 Diapers er 01-14-2009 11:30 Apple 01-14-2009 11:30 01-14-2009 11:30 Eggs 01-15-2009 14:15 Beer 01-15-2009 14:15 Eggs Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 46. 46 Association Rules in Weka (cont’)  คลิกที่ tab Associate  OPEN MINER www.open-miner.com   www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 47. Lab 7-1: Market Basket 47  Business Understanding   ซุเปอร์มาร์เก็ตแห่งหนึ่งต้องการทำาระบบ CRM กับลูกค้าที่เข้า มาซื้อสินค้าโดยต้องการหาว่ามีสินค้าชนิดใดบ้างที่ลกค้ามักจะ ู ซื้อพร้อมกันบ่อยๆ เพือนำาไปจัดโปรโมชัน ่ OPEN MINER Data Understanding ซุปเปอร์มาร์เก็ตแห่งนี้ได้ทำาการเก็บประวัติการซื้อสินค้าของ www.open-miner.com ลูกค้าจำานวน 1,000 คน  โดยข้อมูลของลูกค้าแต่ละรายจะแบ่งเป็น 2 ส่วนใหญ่ๆ คือ www.facebook.com/openmin ข้อมูลรายละเอียดเกี่ยวกับลูกค้าแต่ละราย มีจำานวน …… er แอตทริบวต์ ิ    ข้อมูลสินค้าที่ลูกค้าซื้อแต่ละครั้ง มีจำานวน …… แอตทริบวต์ ิ ข้อมูลเหล่านี้ได้ถูกรวบรวมเก็บไว้ในไฟล์ Open Miner Intelligence : http://www.open-miner.com AN INTRODUCTION TO DATA MINING supermarket_basket_transactions_2005.arff WITH  WEKA รุ่นที่ 14
  • 48. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part VIII Command line & Integrate System
  • 49. Weka in command line 49   การเรียกใช้งาน Weka ด้วยการพิมพ์คำาสังผ่านทาง DOS ่ เลือก Run > พิมพ์ cmd จะปรากฏหน้า DOS (หน้าจอดำาๆ)  OPEN MINER www.open-miner.com  www.facebook.com/openmin er  Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 50. 50 Lab8-2: Weka in Java Program (2)  พารามิเตอร์ของเทคนิคต่างๆ ดูได้จาก Weka Explorer  OPEN MINER ขั้นตอนการ compile โปรแกรม www.open-miner.com javac -classpath “C:Program FilesWeka-3-  www.facebook.com/openmin er 6weka.jar” testClassifier.java ขั้นตอนการ run โปรแกรม java -classpath “C:Program FilesWeka-36weka.jar;.” testClassifier Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 51. AN INTRODUCTION TO DATA MINING WITH WEKA รุ่นที่ 14 BY OPEN MINER WWW.OPEN-MINER.COM Part IX Knowledge Flow
  • 52. Weka KnowledgeFlow 52  สามารถเลือก component ต่างๆ ของ Weka มาเรียงต่อกัน เพื่อให้ ทำางานเป็นแบบ workflow OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 53. Example: Knowledge flow (7) 53   เลือก component TextViewer จากแท็บ Visualization วางไว้ในส่วน Layout และคลิกขวาที่ ClassifierPerformanceEvaluator เลือกเมนู text แล้วลากลูกศรมายัง TextViewer OPEN MINER www.open-miner.com www.facebook.com/openmin er Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH
  • 54. Contact Us 54  อ.สิริวรรณ แต้วิจิตร  E-mail  siriwont@gmail.com  Website   http://www.open-miner.com Google Buzz  http://www.google.com/profiles/openminer Open Miner Intelligence : http://www.open-miner.com WEKA รุ่นที่ 14 AN INTRODUCTION TO DATA MINING WITH