SlideShare una empresa de Scribd logo
1 de 22
Ⅰ

Яагаад өгөгдлийн олборлолт хэрэгтэй вэ?

Ⅱ

Өгөгдлийн олборлолт

Ⅲ

Өгөгдлийн олборлолтын зорилт

Ⅳ

Өгөгдлийн ангилал

Ⅴ

Өгөгдлийн багц
Ⅰ

Яагаад өгөгдлийн олборлолт хэрэгтэй вэ?
Өгөгдлийн олборлолт
Арилжааны талбар

Өгөгдлийн ихэнхи нь
бөөгнөрсөн (Warehoused)
•Web data
•E-commerce
•Дэлгүүрийн худалдаахүнсний дэлгүүр
•Банк- кредит карт
арилжаа
Өгөгдлийн олборлолт
Шинжлэх ухааны талбар

Өгөгдлийн олборлолт нь шинжлэх ухаанд
тусладаг.
•Өгөгдлийн хуваах болон ангилах
•Форматыг таамаглах

бббөбө
Ⅱ

Өгөгдлийн олборлолт
Өгөгдлийн олборлолт
Тодорхойлолт
•Мэдээллээс ашиглаж болохуйц өгөгдлийг
олборлох
•Утга төгөлдөр загвар маягийг
нээхийн тулд их хэмжээний
өгөгдлийг автомат болон хагас
автомат аргаар судлах болон
анализ хийх
Өгөгдлийн олборлолт
Өгөгдлийн
олборлолт биш


–Утасны
жагсаалтаас
утасны дугаар
харах
– Amazon”тухай
мэдээллийг хайх
асууллага
бичих(web)



Өгөгдлийн олборлолт

– Тодорхой тэмдэглэл нь
тодорхой байрлалд түгээмэл
байх(O’Brien, O’Rurke,
O’Reilly… in Boston area)

– Бүлэг мэдээллээс илэрсэн
ижил баримт нь тэдгээрийн
агууллагаас хамааран
хайлтын технологиор гарч
ирэх(e.g. Amazon rainforest,

Amazon.com,)
Өгөгдлийн олборлолт

•Machine learning-ээс санаа
авсан /AI, pattern
recognition, statistics, and
database systems
•Уламжлалт технологи нь
тохиромжгүй болсон:
•Их хэмжээний өгөгдөл
•Өндөр хэмжээний өгөгдөл
•Өөр төрлийн өгөгдөл

Statistics/
AI

Machine
Learning/
Pattern
Recognition

Data Mining

Database
systems
Ⅲ Өгөгдлийн олборлолтын зорилт
Өгөгдлийн олборлолтын зорилт
•Таамаглах арга
•Бусад хувьсагчийн үл мэдэгдэх болон гарч ирэх
утгуудийг таамаглахын тулд зарим нэг
хувьсагчийг ашиглах
•Тодорхойлох арга
•Өгөгдлийг тодорхойлох хүн төрөлхтөн
тайлбарлаж болохуйц загвар маягийг хайх
Өгөгдлийн олборлолтын зорилт
•Ангилал
•Багцлах
•Хамтын үйл ажиллагааны дүрмийг
илрүүлэх
•Дэс дараалсан загварыг илрүүлэх
•Ухралт
•Хазайлт илрүүлэх
Ⅳ Өгөгдлийн ангилал
Ангилал
•Бичлэгийн цуглууллаг өгөгдсөн
•Бичлэг бүр нь атрибутын цогцыг агуулсан ба
нэг атрибут нь нэг класс.

•Бусад атрибутын утгын зориулалтаар
класс атрибутын загварыг гаргах
•Зорилго: Өмнө нь үл мэдэгдэх бичлэгийг
байж болохуйц мөн зөв классд
тодорхойлох
•Test set нь загварын нарийн тодорхойлохын
тулд ашигладаг бөгөөд сүүлийн үед өгөгдсөн
өгөгдлийн цуглууллагыг training set болон test
set гэж хуваадаг болсон.Training set нь
загварыг босгон байгуулахад хэрэглэдэг бол
test set нь түүнийг батлахад хэрэглэдэг.
Ангилал

Tid Refund Marital
Status

Taxable
Income Cheat

Refund Marital
Status

Taxable
Income Cheat

1

Yes

Single

125K

No

No

Single

75K

?

2

No

Married

100K

No

Yes

Married

50K

?

3

No

Single

70K

No

No

Married

150K

?

4

Yes

Married

120K

No

Yes

Divorced 90K

?

5

No

Divorced 95K

Yes

No

Single

40K

?

6

No

Married

No

No

Married

80K

?

60K

10

7

Yes

Divorced 220K

No

8

No

Single

85K

Yes

9

No

Married

75K

No

10
10

No

Single

90K

Yes

Training
Set

Learn
Classifier

Test
Set
Model
Ангилал- Application1
•Маркетинг
•Зорилго: Шинэ гар утас авах сонирхолтой
хэрэглэгчидийг тодорхойлон барьцааны үнийг
багасгах

•Арга барил
•Өмнө нь танилцуулж байсан бүтээгдэхүүний
өгөгдлийг хэрэглэх
•Бид ямар хэрэглэгч нь авахаар шийдвэрлэсэн
ямар нь өөр шийдвэр гаргасныг мэднэ.Худалдаж
авна эсвэл худалдаж авахгүй гэсэн шийвэрээр
класс үүсгэх
•Бүх хэрэглэгчийнхаа тухай холбоотой олон
төрлийн мэдээллийг цуглууллах(Хүн ат зүй,
амьдралын төрөл, компани)
Ⅴ Өгөгдлийн багц
Багц
•Өгөгдлийн цуглуулага өгөгдсөн үед
тэдгээрийн өөр хоорондын ижил төстэй
байдлыг тодорхойлон багцийг хайх
•Нэг багцийн өгөгдөл нь өөр нэгтэй ижил байдаг
•Ялгаатай багцийн өгөгдөл нь өөр нэгнээс
ялгаатай.(өөр нэг багцаас хасна)
Багц

Intracluster хоорондын
зай хамгийн бага

Intercluster хоорондын
зай хамгийн их
Багц
Баримт бичгийг багцлах
Зорилго: Бичиг баримтанд гарч ирсэн чухал үг
хэллэг дээр суурилан бичиг баримтын бүлгийг
хайх.
Дөхөлт: Баримт болгон дээр гарч байгааг үг
хэллэгийн давхцалыг тодорхойлох.Ялгаатай
давхцал дээр суурилан жижил төсөөтэй байдлыг
үнэлэх бөгөөд үүнийг багцлахад хэрэглэнэ.
Багц



Ангилал: Los Angeles Times сонины 3204 нийтлэл.
Ангилах төрөл: эдгээр бичиг баримтанд гарч байгаа
үгнүүд хэр олон удаа давтагдаж байна?
Category

Total
Articles

Correctly
Placed

555

364

Foreign

341

260

National

273

36

Metro

943

746

Sports

738

573

Entertainment

354

278

Financial
Лекц 1

Más contenido relacionado

La actualidad más candente

Lecture 1. Хэрэглэгчийн төсвийн хязгаарлалт
Lecture 1. Хэрэглэгчийн төсвийн хязгаарлалт Lecture 1. Хэрэглэгчийн төсвийн хязгаарлалт
Lecture 1. Хэрэглэгчийн төсвийн хязгаарлалт
hicheel2020
 
лекц5
лекц5лекц5
лекц5
Pmunkh
 
Лекц 5
Лекц 5Лекц 5
Лекц 5
Etugen
 
Innovation&tech.
Innovation&tech.Innovation&tech.
Innovation&tech.
noonii
 

La actualidad más candente (20)

Lecture 3
Lecture 3Lecture 3
Lecture 3
 
Lecture 1. Хэрэглэгчийн төсвийн хязгаарлалт
Lecture 1. Хэрэглэгчийн төсвийн хязгаарлалт Lecture 1. Хэрэглэгчийн төсвийн хязгаарлалт
Lecture 1. Хэрэглэгчийн төсвийн хязгаарлалт
 
Байршил ба байршилтын сонголт-Үйл ажиллагааны менежмент /Хураангуй/
Байршил ба байршилтын сонголт-Үйл ажиллагааны менежмент /Хураангуй/Байршил ба байршилтын сонголт-Үйл ажиллагааны менежмент /Хураангуй/
Байршил ба байршилтын сонголт-Үйл ажиллагааны менежмент /Хураангуй/
 
Lecture 4
Lecture 4Lecture 4
Lecture 4
 
It101 4
It101 4It101 4
It101 4
 
It101 1
It101 1It101 1
It101 1
 
Data analysis in excel
Data analysis in excelData analysis in excel
Data analysis in excel
 
U.cs101 алгоритм программчлал-3
U.cs101   алгоритм программчлал-3U.cs101   алгоритм программчлал-3
U.cs101 алгоритм программчлал-3
 
лекц5
лекц5лекц5
лекц5
 
шийдвэрийн модны шинжилгээ
шийдвэрийн модны шинжилгээшийдвэрийн модны шинжилгээ
шийдвэрийн модны шинжилгээ
 
u.cs101 "Алгоритм ба програмчлал" Лекц №2
u.cs101 "Алгоритм ба програмчлал" Лекц №2u.cs101 "Алгоритм ба програмчлал" Лекц №2
u.cs101 "Алгоритм ба програмчлал" Лекц №2
 
Lecture 2.2019 2020
Lecture 2.2019 2020Lecture 2.2019 2020
Lecture 2.2019 2020
 
Дотоод нэгж хэсэг, тоног төхөөрөмжийн байршил-Үйл ажиллагааны менежмент /Хура...
Дотоод нэгж хэсэг, тоног төхөөрөмжийн байршил-Үйл ажиллагааны менежмент /Хура...Дотоод нэгж хэсэг, тоног төхөөрөмжийн байршил-Үйл ажиллагааны менежмент /Хура...
Дотоод нэгж хэсэг, тоног төхөөрөмжийн байршил-Үйл ажиллагааны менежмент /Хура...
 
Lecture №3
Lecture №3Lecture №3
Lecture №3
 
Лекц 5
Лекц 5Лекц 5
Лекц 5
 
Lecture 9
Lecture 9Lecture 9
Lecture 9
 
Rdbms bie daalt
Rdbms bie daaltRdbms bie daalt
Rdbms bie daalt
 
Spss
SpssSpss
Spss
 
Innovation&tech.
Innovation&tech.Innovation&tech.
Innovation&tech.
 
Sw203 Lecture6 Inheritance
Sw203 Lecture6 InheritanceSw203 Lecture6 Inheritance
Sw203 Lecture6 Inheritance
 

Similar a Лекц 1

Similar a Лекц 1 (12)

Брэндэд үнэнч байх зан төлвийг хэмжих нь (Measuring Brand Loyalty)
Брэндэд үнэнч байх зан төлвийг хэмжих нь (Measuring Brand Loyalty)Брэндэд үнэнч байх зан төлвийг хэмжих нь (Measuring Brand Loyalty)
Брэндэд үнэнч байх зан төлвийг хэмжих нь (Measuring Brand Loyalty)
 
Business statistics processing
Business statistics processingBusiness statistics processing
Business statistics processing
 
MMCG CATI center_mn
MMCG CATI center_mnMMCG CATI center_mn
MMCG CATI center_mn
 
Pp Lect13 1
Pp Lect13 1Pp Lect13 1
Pp Lect13 1
 
Ois lessons3
Ois lessons3Ois lessons3
Ois lessons3
 
Бизнес төлөвлөгөө боловсруулах зах зээлийн судалгаа
Бизнес төлөвлөгөө боловсруулах зах зээлийн судалгааБизнес төлөвлөгөө боловсруулах зах зээлийн судалгаа
Бизнес төлөвлөгөө боловсруулах зах зээлийн судалгаа
 
Pp Lect12 13
Pp Lect12 13Pp Lect12 13
Pp Lect12 13
 
5
55
5
 
өгөгдлийн сангийн удирдлага
өгөгдлийн сангийн удирдлагаөгөгдлийн сангийн удирдлага
өгөгдлийн сангийн удирдлага
 
Маркетингийн үндсүүд
Маркетингийн үндсүүдМаркетингийн үндсүүд
Маркетингийн үндсүүд
 
Лекц 3
Лекц 3Лекц 3
Лекц 3
 
Бямбатогтохын Ууганцэцэг-Өгөгдлийн тандалтын зарим аргыг судлах нь
Бямбатогтохын Ууганцэцэг-Өгөгдлийн тандалтын зарим аргыг судлах ньБямбатогтохын Ууганцэцэг-Өгөгдлийн тандалтын зарим аргыг судлах нь
Бямбатогтохын Ууганцэцэг-Өгөгдлийн тандалтын зарим аргыг судлах нь
 

Más de Chinzorig Undarmaa

Más de Chinzorig Undarmaa (20)

Лабораторийн ажил 12
Лабораторийн ажил 12Лабораторийн ажил 12
Лабораторийн ажил 12
 
Лекц 8
Лекц 8Лекц 8
Лекц 8
 
Лекц 8
Лекц 8Лекц 8
Лекц 8
 
Лекц 8
Лекц 8Лекц 8
Лекц 8
 
Лекц 8
Лекц 8Лекц 8
Лекц 8
 
Хичээлийн тодорхойлолт
Хичээлийн тодорхойлолтХичээлийн тодорхойлолт
Хичээлийн тодорхойлолт
 
Бие даалтын удирдамж
Бие даалтын удирдамжБие даалтын удирдамж
Бие даалтын удирдамж
 
Лекц 2
Лекц 2Лекц 2
Лекц 2
 
Лабораторийн ажил 3 - 4
Лабораторийн ажил 3 - 4Лабораторийн ажил 3 - 4
Лабораторийн ажил 3 - 4
 
Лекц 4
Лекц 4Лекц 4
Лекц 4
 
Лабораторийн ажил 5 - 6
Лабораторийн ажил 5 - 6Лабораторийн ажил 5 - 6
Лабораторийн ажил 5 - 6
 
Лекц 5 - 6
Лекц 5 - 6Лекц 5 - 6
Лекц 5 - 6
 
Лабораторийн ажил 7
Лабораторийн ажил 7Лабораторийн ажил 7
Лабораторийн ажил 7
 
Лекц 7
Лекц 7Лекц 7
Лекц 7
 
Хичээлийн тодорхойлолт
Хичээлийн тодорхойлолтХичээлийн тодорхойлолт
Хичээлийн тодорхойлолт
 
Хичээлийн тодорхойлолт
Хичээлийн тодорхойлолтХичээлийн тодорхойлолт
Хичээлийн тодорхойлолт
 
Бие даалтын удирдамж
Бие даалтын удирдамжБие даалтын удирдамж
Бие даалтын удирдамж
 
Лабораторийн ажил 7
Лабораторийн ажил 7Лабораторийн ажил 7
Лабораторийн ажил 7
 
Лабораторийн ажил 6
Лабораторийн ажил 6Лабораторийн ажил 6
Лабораторийн ажил 6
 
Лабораторийн ажил 6
Лабораторийн ажил 6Лабораторийн ажил 6
Лабораторийн ажил 6
 

Лекц 1

  • 1.
  • 2. Ⅰ Яагаад өгөгдлийн олборлолт хэрэгтэй вэ? Ⅱ Өгөгдлийн олборлолт Ⅲ Өгөгдлийн олборлолтын зорилт Ⅳ Өгөгдлийн ангилал Ⅴ Өгөгдлийн багц
  • 4. Өгөгдлийн олборлолт Арилжааны талбар Өгөгдлийн ихэнхи нь бөөгнөрсөн (Warehoused) •Web data •E-commerce •Дэлгүүрийн худалдаахүнсний дэлгүүр •Банк- кредит карт арилжаа
  • 5. Өгөгдлийн олборлолт Шинжлэх ухааны талбар Өгөгдлийн олборлолт нь шинжлэх ухаанд тусладаг. •Өгөгдлийн хуваах болон ангилах •Форматыг таамаглах бббөбө
  • 7. Өгөгдлийн олборлолт Тодорхойлолт •Мэдээллээс ашиглаж болохуйц өгөгдлийг олборлох •Утга төгөлдөр загвар маягийг нээхийн тулд их хэмжээний өгөгдлийг автомат болон хагас автомат аргаар судлах болон анализ хийх
  • 8. Өгөгдлийн олборлолт Өгөгдлийн олборлолт биш  –Утасны жагсаалтаас утасны дугаар харах – Amazon”тухай мэдээллийг хайх асууллага бичих(web)  Өгөгдлийн олборлолт – Тодорхой тэмдэглэл нь тодорхой байрлалд түгээмэл байх(O’Brien, O’Rurke, O’Reilly… in Boston area) – Бүлэг мэдээллээс илэрсэн ижил баримт нь тэдгээрийн агууллагаас хамааран хайлтын технологиор гарч ирэх(e.g. Amazon rainforest, Amazon.com,)
  • 9. Өгөгдлийн олборлолт •Machine learning-ээс санаа авсан /AI, pattern recognition, statistics, and database systems •Уламжлалт технологи нь тохиромжгүй болсон: •Их хэмжээний өгөгдөл •Өндөр хэмжээний өгөгдөл •Өөр төрлийн өгөгдөл Statistics/ AI Machine Learning/ Pattern Recognition Data Mining Database systems
  • 11. Өгөгдлийн олборлолтын зорилт •Таамаглах арга •Бусад хувьсагчийн үл мэдэгдэх болон гарч ирэх утгуудийг таамаглахын тулд зарим нэг хувьсагчийг ашиглах •Тодорхойлох арга •Өгөгдлийг тодорхойлох хүн төрөлхтөн тайлбарлаж болохуйц загвар маягийг хайх
  • 12. Өгөгдлийн олборлолтын зорилт •Ангилал •Багцлах •Хамтын үйл ажиллагааны дүрмийг илрүүлэх •Дэс дараалсан загварыг илрүүлэх •Ухралт •Хазайлт илрүүлэх
  • 14. Ангилал •Бичлэгийн цуглууллаг өгөгдсөн •Бичлэг бүр нь атрибутын цогцыг агуулсан ба нэг атрибут нь нэг класс. •Бусад атрибутын утгын зориулалтаар класс атрибутын загварыг гаргах •Зорилго: Өмнө нь үл мэдэгдэх бичлэгийг байж болохуйц мөн зөв классд тодорхойлох •Test set нь загварын нарийн тодорхойлохын тулд ашигладаг бөгөөд сүүлийн үед өгөгдсөн өгөгдлийн цуглууллагыг training set болон test set гэж хуваадаг болсон.Training set нь загварыг босгон байгуулахад хэрэглэдэг бол test set нь түүнийг батлахад хэрэглэдэг.
  • 15. Ангилал Tid Refund Marital Status Taxable Income Cheat Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No No Single 75K ? 2 No Married 100K No Yes Married 50K ? 3 No Single 70K No No Married 150K ? 4 Yes Married 120K No Yes Divorced 90K ? 5 No Divorced 95K Yes No Single 40K ? 6 No Married No No Married 80K ? 60K 10 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 10 No Single 90K Yes Training Set Learn Classifier Test Set Model
  • 16. Ангилал- Application1 •Маркетинг •Зорилго: Шинэ гар утас авах сонирхолтой хэрэглэгчидийг тодорхойлон барьцааны үнийг багасгах •Арга барил •Өмнө нь танилцуулж байсан бүтээгдэхүүний өгөгдлийг хэрэглэх •Бид ямар хэрэглэгч нь авахаар шийдвэрлэсэн ямар нь өөр шийдвэр гаргасныг мэднэ.Худалдаж авна эсвэл худалдаж авахгүй гэсэн шийвэрээр класс үүсгэх •Бүх хэрэглэгчийнхаа тухай холбоотой олон төрлийн мэдээллийг цуглууллах(Хүн ат зүй, амьдралын төрөл, компани)
  • 18. Багц •Өгөгдлийн цуглуулага өгөгдсөн үед тэдгээрийн өөр хоорондын ижил төстэй байдлыг тодорхойлон багцийг хайх •Нэг багцийн өгөгдөл нь өөр нэгтэй ижил байдаг •Ялгаатай багцийн өгөгдөл нь өөр нэгнээс ялгаатай.(өөр нэг багцаас хасна)
  • 19. Багц Intracluster хоорондын зай хамгийн бага Intercluster хоорондын зай хамгийн их
  • 20. Багц Баримт бичгийг багцлах Зорилго: Бичиг баримтанд гарч ирсэн чухал үг хэллэг дээр суурилан бичиг баримтын бүлгийг хайх. Дөхөлт: Баримт болгон дээр гарч байгааг үг хэллэгийн давхцалыг тодорхойлох.Ялгаатай давхцал дээр суурилан жижил төсөөтэй байдлыг үнэлэх бөгөөд үүнийг багцлахад хэрэглэнэ.
  • 21. Багц   Ангилал: Los Angeles Times сонины 3204 нийтлэл. Ангилах төрөл: эдгээр бичиг баримтанд гарч байгаа үгнүүд хэр олон удаа давтагдаж байна? Category Total Articles Correctly Placed 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278 Financial