SlideShare una empresa de Scribd logo
1 de 25
Descargar para leer sin conexión
Hoang Anh Tuan 
Deputy Director of AdTech Division 
tuanhoanganh@vccorp.vn 
1
Nộidung 
Giớithiệuchung 
Hệthốngxửlýdữliệulớn–Big Data ở VCCORP 
Nhữngbàitoánđãxửlý 
Cácbàitoánmở 
2
GiớithiệuVCCORP 
Thànhlậpnăm2006 
Sốnhânviên: 1500 người 
Trụsởchínhở Hà Nội, chi nhánhở cácthànhphốlớntạiViệt Nam 
LàcôngtydẫnđầuvềInternet tạiViệt Nam. 
Nhàđầutư: IDG VV, Intel Capital 
Chiathànhcáckhối: quảngcáo, nộidung, thươngmạiđiệntử, game, VCCloud. 
3
CộtmốccủaVCCORP 
Ad Network LEADER 
Online news & media LEADER 
2013 
Ad network 
E-marketplace 
Break even 
Series B 
Series A 
INCORPORATED 
Online forum 
Online news 
2011 
2000 
2006 
2007 
2008 
2009 
2010 
4
GiớithiệuAdmicro 
Thànhlậpnăm2008. 
MạngquảngcáolớnnhấtViệt Nam, chiếm40% thịphần. 
Độphủ31 triệungườidùngInternet, chiếm90% ngườidùngInternet Việt Nam. 
30 báođộcquyền, mạnglướiWebsite cótrên300 sites. 
5
Big Data ở VCCORP 
Bắtđầusớmtừ2007 vớidựánBaamboosearch. 
Từnăm2008, bắtđầuthửnghiệmxâydựnghệthốngBig Data phụcvụhệthốngquảngcáo. 
Hiệnnay đượcnghiêncứupháttriểnxâydựngcácsảnphẩmphụcvụchocáchệthốngquảngcáo, nộidung, thươngmạiđiệntử… 
6
Big Data ở VCCORP –Qui môdữliệu 
7
Big Data ở VCCORP –Kiếntrúc 
8
Nhữngbàitoánxửlý 
Tínhtoándữliệulớn 
Ip2Location 
Nhậndiệnhànhvi ngườidùng 
Demographic 
Behavioral 
Finger Printing 
Cross devices 
Tốiưuhóaquảngcáo 
9
Tínhtoándữliệulớn 
Tổngdữliệumớimỗingày: 1 tỷbảnghi. 
Dữliệuđầuvào: raw log, lưuthôngtin vềlượngclick, impressions củangườidùng. 
Cácsốliệucầntínhtoán: 
Báocáotheolượngclick, view, pageview, tiềntheocácdomain: user, website, location, type... 
TínhtoánlượngUnique Visitor (UV) 
Tínhthờigiantime on site củangườidùng 
10
Tínhtoándữliệulớn 
Hệthốngngănchặninvalid, frauding: 
Invalid: ngườidùngclick/view nhầm 
Frauding: cốtìnhtạoraclick/view đểgâyảnhhưởng 
Giảipháp: xâydựngtậpluậtđểngănchặn. 
Thựctế: 
KháchhàngA nhận10,000 fraud click trong30 phút 
Website B tạora500,000 fraud click trongvòng1h 
11
Tínhtoándữliệulớn–Môhình 
Sửdụnghainềntảngmãmở: 
Hadoopeco-system: Hadoop, Hbase, Pig, Hive, Storm, Spark. 
Cassandra 
Cluster: 80 nodes, cấuhình: 
24 CPUs 
32 GB RAM 
8 TB HDD 
12
Ip2Location 
Input: dữliệuraw log củangườidùngvớithôngtin IP 
Output: thôngtin vềvùngmiền, tỉnhthànhcủangườidùng(mởrộngquậnhuyện). 
Tổnglượngdữliệu: 100 tỷbảnghi(10TB) 
Giảipháp: xâydựngthuậttoánlặpdựatrênquanhệ: User -IP 
13
Ip2Location 
Kếtquả: 
Nhậndiệnđược15 triệuIP Việt Nam trêntổngsố15.5 triệuIP đãcấpphát, chiếm96.7% 
Tỉlệnhậndiệnchínhxáctheovùngmiền: 90% 
Tỉlệnhậndiệnchínhxáctheotỉnhthành: 75% 
Đangtriểnkhaitheoquận–huyện. 
14
Nhậndiệnhànhvi ngườidùngInternet 
Input: dữliệuraw log 
Output: cácthôngtin vềngườidùngInternet 
Demographic: giớitính, nhómtuổi 
Behavioral: sởthích, thóiquen 
Finger Printing: nhậndiệncùnglà1 ngườitrên1 thiếtbị(device) 
Cross devices: nhậndiệncùng1 ngườidùngtrênnhiềuthiếtbị 
15
Demographic -Behavioral 
Nhậndiệntheogiớitính: nam/nữ. 
Nhậndiệntheonhómtuổi: dưới18, từ18 –24, từ25 – 34, từ35 –49, trên50. 
Nhậndiệntheosởthích: tập12 sởthíchcơbản. 
Kếtquả: 
Độchínhxácnhậndiệngiớitính: 82.5% 
Độchínhxácnhậndiệnnhómtuổi: 67.5% 
16
Demographic -Behavioral 
17
Finger Printing 
Mụctiêu: nhậndiệncùng1 ngườidùngtrên1 device. 
Khókhăn: ngườidùngcóthểdùngnhiềubrowser hoặcbịxóacookie. 
Giảipháp: xâydựngthuậttoánmãhóangườidùngdựatrêncácthôngtin: IP, Fonts, Screen Resolution, Location, Languages, Websites… 
Kếtquả: đangtriểnkhai 
18
Cross devices 
Mụctiêu: nhậndiệnngườidùngsửdụnglaptop, desktop, mobile… cùnglàmộtngười. 
Khókhăn: thôngtin sửdụngtrênPC, Laptop, Mobile làrờirạc, khôngcóđộkếtdính. 
Giảipháp: xâydựngthuậttoánđoánnhậnngườidùngdựatrêncácthóiquenvề: 
IP 
Website 
Sởthích, thóiquen 
Kếtquả: đangthựchiện 
19
Tốiưuhóaquảngcáo 
Đâylàbàitoánđã, đangvàsẽtiếptụcthựchiện. 
Cáckỹthuậtápdụng: 
Personalization 
Audience Targeting 
Real Time Bidding 
Retargeting 
Hàmlượnggiá: ướclượnggiátheotừngngườidùng. 
20
Cácbàitoánmở 
Xửlýngônngữtựnhiên-NLP 
Recommendation Engine -RE 
Sentiment Analysis 
Data Management Platform -DMP 
21
Cácbàitoánmở 
NLP: xâydựngcácbàitoán: 
TáchtừtheophươngphápN-grams 
Phânloại, tríchrútvănbản 
Độtươngđồngcủatừngữ 
Recommendation Engine: 
Xâydựngbộrecommendation engine service chohệthốngWebsite TMĐT. 
XâydựngRE chohệthốngquảngcáo 
22
Cácbàitoánmở 
Sentiment analysis: 
Tìmkiếmcácnộidung liênquanđếntừkhóa, chủđề. 
Phânloạinộidung thu thậpđượctheohướngtíchcựchoặctiêucực 
DMP: 
Nềntảngthu thậpdữliệulớntheocảfirst party vàthird party data. 
Phânloạidữliệu, tríchrútthôngtin đểgiúpraquyếtđịnh. 
23
Cơhộihợptác 
24
Q&A25

Más contenido relacionado

Destacado

MapReduce for Idiots
MapReduce for IdiotsMapReduce for Idiots
MapReduce for Idiotspetewarden
 
Quản Trị Rủi Ro Trong Vấn Đề Thâu Tóm và Sát Nhập Doanh Nghiệp M&A
Quản Trị Rủi Ro Trong Vấn Đề Thâu Tóm và Sát Nhập Doanh Nghiệp M&AQuản Trị Rủi Ro Trong Vấn Đề Thâu Tóm và Sát Nhập Doanh Nghiệp M&A
Quản Trị Rủi Ro Trong Vấn Đề Thâu Tóm và Sát Nhập Doanh Nghiệp M&AVisla Team
 
Thuyết Trình Lý Thuyết Danh Mục Hiệu Quả - Markowitz
Thuyết Trình Lý Thuyết Danh Mục Hiệu Quả - Markowitz Thuyết Trình Lý Thuyết Danh Mục Hiệu Quả - Markowitz
Thuyết Trình Lý Thuyết Danh Mục Hiệu Quả - Markowitz hoangnhuthinh
 
10 Million in 10 Weeks (Stanford Facebook Class, Fall 2007)
10 Million in 10 Weeks (Stanford Facebook Class, Fall 2007)10 Million in 10 Weeks (Stanford Facebook Class, Fall 2007)
10 Million in 10 Weeks (Stanford Facebook Class, Fall 2007)Dave McClure
 
Introduction to MapReduce Data Transformations
Introduction to MapReduce Data TransformationsIntroduction to MapReduce Data Transformations
Introduction to MapReduce Data Transformationsswooledge
 
Create and develop Business model
Create and develop Business model Create and develop Business model
Create and develop Business model doczenith1
 
Bài tập môn phân tích và đầu tư chứng khoán
Bài tập môn phân tích và đầu tư chứng khoánBài tập môn phân tích và đầu tư chứng khoán
Bài tập môn phân tích và đầu tư chứng khoánLinh Tran
 
Business model canvas (v.2015-2016)
Business model canvas (v.2015-2016)Business model canvas (v.2015-2016)
Business model canvas (v.2015-2016)Frieda Brioschi
 
Facebook's Business Model Strip FOR LEAN MARKETERS & CUSTOMER GROWTH ENGINEERS
Facebook's Business Model Strip FOR LEAN MARKETERS & CUSTOMER GROWTH ENGINEERSFacebook's Business Model Strip FOR LEAN MARKETERS & CUSTOMER GROWTH ENGINEERS
Facebook's Business Model Strip FOR LEAN MARKETERS & CUSTOMER GROWTH ENGINEERSRod King, Ph.D.
 
Quản trị rủi ro nguồn nhân lực
Quản trị rủi ro nguồn nhân lựcQuản trị rủi ro nguồn nhân lực
Quản trị rủi ro nguồn nhân lựcSương Tuyết
 
Facebook business model canvas
Facebook business model  canvasFacebook business model  canvas
Facebook business model canvasSusheel Racherla
 
Big data 5Vs 2014 - View from World to Vietnam by Dinh Le Dat
Big data 5Vs 2014 - View from World to Vietnam by Dinh Le DatBig data 5Vs 2014 - View from World to Vietnam by Dinh Le Dat
Big data 5Vs 2014 - View from World to Vietnam by Dinh Le DatDinh Le Dat (Kevin D.)
 
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)Trieu Nguyen
 

Destacado (16)

XSS
XSSXSS
XSS
 
MapReduce for Idiots
MapReduce for IdiotsMapReduce for Idiots
MapReduce for Idiots
 
Quản Trị Rủi Ro Trong Vấn Đề Thâu Tóm và Sát Nhập Doanh Nghiệp M&A
Quản Trị Rủi Ro Trong Vấn Đề Thâu Tóm và Sát Nhập Doanh Nghiệp M&AQuản Trị Rủi Ro Trong Vấn Đề Thâu Tóm và Sát Nhập Doanh Nghiệp M&A
Quản Trị Rủi Ro Trong Vấn Đề Thâu Tóm và Sát Nhập Doanh Nghiệp M&A
 
Thuyết Trình Lý Thuyết Danh Mục Hiệu Quả - Markowitz
Thuyết Trình Lý Thuyết Danh Mục Hiệu Quả - Markowitz Thuyết Trình Lý Thuyết Danh Mục Hiệu Quả - Markowitz
Thuyết Trình Lý Thuyết Danh Mục Hiệu Quả - Markowitz
 
10 Million in 10 Weeks (Stanford Facebook Class, Fall 2007)
10 Million in 10 Weeks (Stanford Facebook Class, Fall 2007)10 Million in 10 Weeks (Stanford Facebook Class, Fall 2007)
10 Million in 10 Weeks (Stanford Facebook Class, Fall 2007)
 
Introduction to MapReduce Data Transformations
Introduction to MapReduce Data TransformationsIntroduction to MapReduce Data Transformations
Introduction to MapReduce Data Transformations
 
Create and develop Business model
Create and develop Business model Create and develop Business model
Create and develop Business model
 
Bài tập môn phân tích và đầu tư chứng khoán
Bài tập môn phân tích và đầu tư chứng khoánBài tập môn phân tích và đầu tư chứng khoán
Bài tập môn phân tích và đầu tư chứng khoán
 
Business model canvas (v.2015-2016)
Business model canvas (v.2015-2016)Business model canvas (v.2015-2016)
Business model canvas (v.2015-2016)
 
Facebook's Business Model Strip FOR LEAN MARKETERS & CUSTOMER GROWTH ENGINEERS
Facebook's Business Model Strip FOR LEAN MARKETERS & CUSTOMER GROWTH ENGINEERSFacebook's Business Model Strip FOR LEAN MARKETERS & CUSTOMER GROWTH ENGINEERS
Facebook's Business Model Strip FOR LEAN MARKETERS & CUSTOMER GROWTH ENGINEERS
 
SQL Injection
SQL Injection SQL Injection
SQL Injection
 
Business model
Business modelBusiness model
Business model
 
Quản trị rủi ro nguồn nhân lực
Quản trị rủi ro nguồn nhân lựcQuản trị rủi ro nguồn nhân lực
Quản trị rủi ro nguồn nhân lực
 
Facebook business model canvas
Facebook business model  canvasFacebook business model  canvas
Facebook business model canvas
 
Big data 5Vs 2014 - View from World to Vietnam by Dinh Le Dat
Big data 5Vs 2014 - View from World to Vietnam by Dinh Le DatBig data 5Vs 2014 - View from World to Vietnam by Dinh Le Dat
Big data 5Vs 2014 - View from World to Vietnam by Dinh Le Dat
 
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
 

Similar a Big data vccorp

Dinh huong phat trien ha tang vien thong VNPT
Dinh huong phat trien ha tang vien thong VNPTDinh huong phat trien ha tang vien thong VNPT
Dinh huong phat trien ha tang vien thong VNPTCat Van Khoi
 
Mobile Monday 04/2013: Minh Châu Corp - Success is a continious journey
Mobile Monday 04/2013: Minh Châu Corp - Success is a continious journeyMobile Monday 04/2013: Minh Châu Corp - Success is a continious journey
Mobile Monday 04/2013: Minh Châu Corp - Success is a continious journeyGameLandVN
 
2. minh chau momo t4
2. minh chau momo t42. minh chau momo t4
2. minh chau momo t4Quang Anh Le
 
Thuyet trinh giai phap thu vien emiclib
Thuyet trinh giai phap thu vien emiclibThuyet trinh giai phap thu vien emiclib
Thuyet trinh giai phap thu vien emiclibsaomaingocgiau
 
iNET Call Center - Tổng đài chăm sóc khách hàng
iNET Call Center - Tổng đài chăm sóc khách hàngiNET Call Center - Tổng đài chăm sóc khách hàng
iNET Call Center - Tổng đài chăm sóc khách hàngNguyễn Trọng Thơ
 
FPT Strategy
FPT StrategyFPT Strategy
FPT Strategythachlan
 
Fpt Strategy
Fpt StrategyFpt Strategy
Fpt Strategylaohacqn
 
Bao cao tai nguyen Internet VN 2013
Bao cao tai nguyen Internet VN 2013Bao cao tai nguyen Internet VN 2013
Bao cao tai nguyen Internet VN 2013action.vn
 
Bao cao tai nguyen Internet VN 2013
Bao cao tai nguyen Internet VN 2013Bao cao tai nguyen Internet VN 2013
Bao cao tai nguyen Internet VN 2013we20
 
Bao cao tai nguyen internet 2013 - VNNIC
Bao cao tai nguyen internet 2013 - VNNICBao cao tai nguyen internet 2013 - VNNIC
Bao cao tai nguyen internet 2013 - VNNICNguyễn Trọng Thơ
 
Bao Cao Tai Nguyen Internet Viet Nam 2013
Bao Cao Tai Nguyen Internet Viet Nam 2013Bao Cao Tai Nguyen Internet Viet Nam 2013
Bao Cao Tai Nguyen Internet Viet Nam 2013Dung Tri
 
Báo cáo tài nguyên Internet Việt Nam 2013 - VNNIC
Báo cáo tài nguyên Internet Việt Nam 2013 - VNNICBáo cáo tài nguyên Internet Việt Nam 2013 - VNNIC
Báo cáo tài nguyên Internet Việt Nam 2013 - VNNICANTS
 
Slide báo hiệu điều khiển và kết nối
Slide báo hiệu điều khiển và kết nối Slide báo hiệu điều khiển và kết nối
Slide báo hiệu điều khiển và kết nối Tran An
 
Sự dịch chuyển của nhà mạng trong nền kinh tế số
Sự dịch chuyển của nhà mạng trong nền kinh tế số Sự dịch chuyển của nhà mạng trong nền kinh tế số
Sự dịch chuyển của nhà mạng trong nền kinh tế số VNG Corporation
 
Vietnam Mobile game market 2012
Vietnam Mobile game market 2012Vietnam Mobile game market 2012
Vietnam Mobile game market 2012Son NGUYEN (Vio)
 
Bao cao tai nguyen internet VN 2013
Bao cao tai nguyen internet VN 2013Bao cao tai nguyen internet VN 2013
Bao cao tai nguyen internet VN 2013we20
 
VAI TRÒ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN CÔNG NGHIỆP CNTT ĐẾN 2020
VAI TRÒ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN CÔNG NGHIỆP CNTT ĐẾN 2020VAI TRÒ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN CÔNG NGHIỆP CNTT ĐẾN 2020
VAI TRÒ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN CÔNG NGHIỆP CNTT ĐẾN 2020Cat Van Khoi
 
Tailieu.vncty.com lap trinh-c_cho_vi_dieu_khien
Tailieu.vncty.com   lap trinh-c_cho_vi_dieu_khienTailieu.vncty.com   lap trinh-c_cho_vi_dieu_khien
Tailieu.vncty.com lap trinh-c_cho_vi_dieu_khienTrần Đức Anh
 

Similar a Big data vccorp (18)

Dinh huong phat trien ha tang vien thong VNPT
Dinh huong phat trien ha tang vien thong VNPTDinh huong phat trien ha tang vien thong VNPT
Dinh huong phat trien ha tang vien thong VNPT
 
Mobile Monday 04/2013: Minh Châu Corp - Success is a continious journey
Mobile Monday 04/2013: Minh Châu Corp - Success is a continious journeyMobile Monday 04/2013: Minh Châu Corp - Success is a continious journey
Mobile Monday 04/2013: Minh Châu Corp - Success is a continious journey
 
2. minh chau momo t4
2. minh chau momo t42. minh chau momo t4
2. minh chau momo t4
 
Thuyet trinh giai phap thu vien emiclib
Thuyet trinh giai phap thu vien emiclibThuyet trinh giai phap thu vien emiclib
Thuyet trinh giai phap thu vien emiclib
 
iNET Call Center - Tổng đài chăm sóc khách hàng
iNET Call Center - Tổng đài chăm sóc khách hàngiNET Call Center - Tổng đài chăm sóc khách hàng
iNET Call Center - Tổng đài chăm sóc khách hàng
 
FPT Strategy
FPT StrategyFPT Strategy
FPT Strategy
 
Fpt Strategy
Fpt StrategyFpt Strategy
Fpt Strategy
 
Bao cao tai nguyen Internet VN 2013
Bao cao tai nguyen Internet VN 2013Bao cao tai nguyen Internet VN 2013
Bao cao tai nguyen Internet VN 2013
 
Bao cao tai nguyen Internet VN 2013
Bao cao tai nguyen Internet VN 2013Bao cao tai nguyen Internet VN 2013
Bao cao tai nguyen Internet VN 2013
 
Bao cao tai nguyen internet 2013 - VNNIC
Bao cao tai nguyen internet 2013 - VNNICBao cao tai nguyen internet 2013 - VNNIC
Bao cao tai nguyen internet 2013 - VNNIC
 
Bao Cao Tai Nguyen Internet Viet Nam 2013
Bao Cao Tai Nguyen Internet Viet Nam 2013Bao Cao Tai Nguyen Internet Viet Nam 2013
Bao Cao Tai Nguyen Internet Viet Nam 2013
 
Báo cáo tài nguyên Internet Việt Nam 2013 - VNNIC
Báo cáo tài nguyên Internet Việt Nam 2013 - VNNICBáo cáo tài nguyên Internet Việt Nam 2013 - VNNIC
Báo cáo tài nguyên Internet Việt Nam 2013 - VNNIC
 
Slide báo hiệu điều khiển và kết nối
Slide báo hiệu điều khiển và kết nối Slide báo hiệu điều khiển và kết nối
Slide báo hiệu điều khiển và kết nối
 
Sự dịch chuyển của nhà mạng trong nền kinh tế số
Sự dịch chuyển của nhà mạng trong nền kinh tế số Sự dịch chuyển của nhà mạng trong nền kinh tế số
Sự dịch chuyển của nhà mạng trong nền kinh tế số
 
Vietnam Mobile game market 2012
Vietnam Mobile game market 2012Vietnam Mobile game market 2012
Vietnam Mobile game market 2012
 
Bao cao tai nguyen internet VN 2013
Bao cao tai nguyen internet VN 2013Bao cao tai nguyen internet VN 2013
Bao cao tai nguyen internet VN 2013
 
VAI TRÒ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN CÔNG NGHIỆP CNTT ĐẾN 2020
VAI TRÒ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN CÔNG NGHIỆP CNTT ĐẾN 2020VAI TRÒ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN CÔNG NGHIỆP CNTT ĐẾN 2020
VAI TRÒ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN CÔNG NGHIỆP CNTT ĐẾN 2020
 
Tailieu.vncty.com lap trinh-c_cho_vi_dieu_khien
Tailieu.vncty.com   lap trinh-c_cho_vi_dieu_khienTailieu.vncty.com   lap trinh-c_cho_vi_dieu_khien
Tailieu.vncty.com lap trinh-c_cho_vi_dieu_khien
 

Big data vccorp

  • 1. Hoang Anh Tuan Deputy Director of AdTech Division tuanhoanganh@vccorp.vn 1
  • 2. Nộidung Giớithiệuchung Hệthốngxửlýdữliệulớn–Big Data ở VCCORP Nhữngbàitoánđãxửlý Cácbàitoánmở 2
  • 3. GiớithiệuVCCORP Thànhlậpnăm2006 Sốnhânviên: 1500 người Trụsởchínhở Hà Nội, chi nhánhở cácthànhphốlớntạiViệt Nam LàcôngtydẫnđầuvềInternet tạiViệt Nam. Nhàđầutư: IDG VV, Intel Capital Chiathànhcáckhối: quảngcáo, nộidung, thươngmạiđiệntử, game, VCCloud. 3
  • 4. CộtmốccủaVCCORP Ad Network LEADER Online news & media LEADER 2013 Ad network E-marketplace Break even Series B Series A INCORPORATED Online forum Online news 2011 2000 2006 2007 2008 2009 2010 4
  • 5. GiớithiệuAdmicro Thànhlậpnăm2008. MạngquảngcáolớnnhấtViệt Nam, chiếm40% thịphần. Độphủ31 triệungườidùngInternet, chiếm90% ngườidùngInternet Việt Nam. 30 báođộcquyền, mạnglướiWebsite cótrên300 sites. 5
  • 6. Big Data ở VCCORP Bắtđầusớmtừ2007 vớidựánBaamboosearch. Từnăm2008, bắtđầuthửnghiệmxâydựnghệthốngBig Data phụcvụhệthốngquảngcáo. Hiệnnay đượcnghiêncứupháttriểnxâydựngcácsảnphẩmphụcvụchocáchệthốngquảngcáo, nộidung, thươngmạiđiệntử… 6
  • 7. Big Data ở VCCORP –Qui môdữliệu 7
  • 8. Big Data ở VCCORP –Kiếntrúc 8
  • 9. Nhữngbàitoánxửlý Tínhtoándữliệulớn Ip2Location Nhậndiệnhànhvi ngườidùng Demographic Behavioral Finger Printing Cross devices Tốiưuhóaquảngcáo 9
  • 10. Tínhtoándữliệulớn Tổngdữliệumớimỗingày: 1 tỷbảnghi. Dữliệuđầuvào: raw log, lưuthôngtin vềlượngclick, impressions củangườidùng. Cácsốliệucầntínhtoán: Báocáotheolượngclick, view, pageview, tiềntheocácdomain: user, website, location, type... TínhtoánlượngUnique Visitor (UV) Tínhthờigiantime on site củangườidùng 10
  • 11. Tínhtoándữliệulớn Hệthốngngănchặninvalid, frauding: Invalid: ngườidùngclick/view nhầm Frauding: cốtìnhtạoraclick/view đểgâyảnhhưởng Giảipháp: xâydựngtậpluậtđểngănchặn. Thựctế: KháchhàngA nhận10,000 fraud click trong30 phút Website B tạora500,000 fraud click trongvòng1h 11
  • 12. Tínhtoándữliệulớn–Môhình Sửdụnghainềntảngmãmở: Hadoopeco-system: Hadoop, Hbase, Pig, Hive, Storm, Spark. Cassandra Cluster: 80 nodes, cấuhình: 24 CPUs 32 GB RAM 8 TB HDD 12
  • 13. Ip2Location Input: dữliệuraw log củangườidùngvớithôngtin IP Output: thôngtin vềvùngmiền, tỉnhthànhcủangườidùng(mởrộngquậnhuyện). Tổnglượngdữliệu: 100 tỷbảnghi(10TB) Giảipháp: xâydựngthuậttoánlặpdựatrênquanhệ: User -IP 13
  • 14. Ip2Location Kếtquả: Nhậndiệnđược15 triệuIP Việt Nam trêntổngsố15.5 triệuIP đãcấpphát, chiếm96.7% Tỉlệnhậndiệnchínhxáctheovùngmiền: 90% Tỉlệnhậndiệnchínhxáctheotỉnhthành: 75% Đangtriểnkhaitheoquận–huyện. 14
  • 15. Nhậndiệnhànhvi ngườidùngInternet Input: dữliệuraw log Output: cácthôngtin vềngườidùngInternet Demographic: giớitính, nhómtuổi Behavioral: sởthích, thóiquen Finger Printing: nhậndiệncùnglà1 ngườitrên1 thiếtbị(device) Cross devices: nhậndiệncùng1 ngườidùngtrênnhiềuthiếtbị 15
  • 16. Demographic -Behavioral Nhậndiệntheogiớitính: nam/nữ. Nhậndiệntheonhómtuổi: dưới18, từ18 –24, từ25 – 34, từ35 –49, trên50. Nhậndiệntheosởthích: tập12 sởthíchcơbản. Kếtquả: Độchínhxácnhậndiệngiớitính: 82.5% Độchínhxácnhậndiệnnhómtuổi: 67.5% 16
  • 18. Finger Printing Mụctiêu: nhậndiệncùng1 ngườidùngtrên1 device. Khókhăn: ngườidùngcóthểdùngnhiềubrowser hoặcbịxóacookie. Giảipháp: xâydựngthuậttoánmãhóangườidùngdựatrêncácthôngtin: IP, Fonts, Screen Resolution, Location, Languages, Websites… Kếtquả: đangtriểnkhai 18
  • 19. Cross devices Mụctiêu: nhậndiệnngườidùngsửdụnglaptop, desktop, mobile… cùnglàmộtngười. Khókhăn: thôngtin sửdụngtrênPC, Laptop, Mobile làrờirạc, khôngcóđộkếtdính. Giảipháp: xâydựngthuậttoánđoánnhậnngườidùngdựatrêncácthóiquenvề: IP Website Sởthích, thóiquen Kếtquả: đangthựchiện 19
  • 20. Tốiưuhóaquảngcáo Đâylàbàitoánđã, đangvàsẽtiếptụcthựchiện. Cáckỹthuậtápdụng: Personalization Audience Targeting Real Time Bidding Retargeting Hàmlượnggiá: ướclượnggiátheotừngngườidùng. 20
  • 21. Cácbàitoánmở Xửlýngônngữtựnhiên-NLP Recommendation Engine -RE Sentiment Analysis Data Management Platform -DMP 21
  • 22. Cácbàitoánmở NLP: xâydựngcácbàitoán: TáchtừtheophươngphápN-grams Phânloại, tríchrútvănbản Độtươngđồngcủatừngữ Recommendation Engine: Xâydựngbộrecommendation engine service chohệthốngWebsite TMĐT. XâydựngRE chohệthốngquảngcáo 22
  • 23. Cácbàitoánmở Sentiment analysis: Tìmkiếmcácnộidung liênquanđếntừkhóa, chủđề. Phânloạinộidung thu thậpđượctheohướngtíchcựchoặctiêucực DMP: Nềntảngthu thậpdữliệulớntheocảfirst party vàthird party data. Phânloạidữliệu, tríchrútthôngtin đểgiúpraquyếtđịnh. 23
  • 25. Q&A25