SlideShare una empresa de Scribd logo
1 de 43
Big Data
GV: TS Võ Đình Hiếu
Thực hiện:
Phạm Công Thiên Lý
Dương Bà Cường
Nguyễn Khắc Chung
Đinh Anh Thái
1
Nội dung


Giới thiệu Big Data



Các thành phần Big Data



Tổ chức lưu trữ dữ liệu BigData



Giải pháp Big data của Oracle

2
Giới thiệu BIG DATA

3
BIG DATA ?


Là những số lượng khủng về các hồ
sơ khách hàng, âm thanh, hình ảnh,
văn bản…

4
BIG DATA ?


Dữ liệu có số lượng lớn cần được lưu trữ
như
◦ Truyền thống: thông tin khách hàng, giao dịch…
◦ Thu thập tự động qua cảm biến: thời tiết, nhật
ký…
◦ Mạng xã hội: comment trên facebook, twitter…



Đặc trựng
◦
◦
◦
◦

Số lượng
Tốc độ
Đa dạng
Giá trị

5
Big Data

6
Dung lượng


Nhu cầu lưu trữ ngày càng tăng
◦ 2000: 800000 (PB) lưu trữ trên thế giới(*)
◦ 2020: 35 ZB trên toàn thế giới?(*)

thế nào để quản lý?
 Dữ liệu càng lớn thì:
Làm

◦ Khả năng xử lý giảm?
◦ Phân tích dữ liệu giảm
◦ Truy xuất chậm
(*)Số liệu từ IBM
1ZB = 1021 bytes
1PB = 1015 bytes

7
Đa dạng


Dữ liệu đến từ nhiều nguồn:
◦
◦
◦
◦
◦



Cảm biến
Smart device
Mạng xã hội
Tin tức
…

Dữ liệu phức tạp
◦ Truyền thống và không truyền thống
◦ Có cấu trúc, bán cấu trúc, không cấu
trúc…
8
Tốc độ
Khối lượng dữ liệu là rất lớn
tốc độ truy xuất chậm
 Yêu cầu từ người sử dụng:


◦ Nhanh
◦ Ổn định
◦ Chính xác

9
Tầm quan trọng Big Data
Mang tới sự hiểu biết sâu sắc hơn cho
doanh nghiệp
 Là sự tồn tại của doanh nghiệp
 Mang tới sự hiểu biết mới


10
Các thành phần Big Data

11
Các thành phần

12
Các thành phần
Quản lý dữ liệu: cơ sở hạ tầng lưu trữ
dữ liệu, và nguồn để thao tác nó.
 Phân tích dữ liệu: công nghệ và các
công cụ để phân tích các dữ liệu và
thu thập hiểu biết sâu sắc từ nó
 Sử dụng dữ liệu: đưa dữ liệu lớn đã
phân tích để phục vụ trong Kinh
doanh thông minh và các ứng dụng
của người dùng cuối


13
Quản lý dữ liệu


Hệ dữ liệu có cấu trúc







Hệ thống quản lý cơ sở dữ liệu quan
hệ(RDBMS): để lưu trữ và thao tác dữ liệu có
cấu trúc.
Hệ thống MPP: tập hợp dữ liệu đồ sộ ngày
càng lớn thêm và tăng cường dữ liệu tăng
trưởng.
Kho dữ liệu: tập hợp và lưu trữ dữ liệu cho
các báo cáo sau này.
Hạn chế
 Khó mở rộng, hiệu suất chậm lại.
 Biểu diễn dữ liệu
14
Quản lý dữ liệu
Hệ dữ liệu không cấu trúc: phù hợp cho
việc lưu trữ dữ liệu có cấu trúc phức tạp và
dễ dàng mở rộng
 Dữ liệu
◦ Dữ liệu có cấu trúc và không có cấu trúc
◦ Lấy từ nhiều nguồn với kích cỡ khác nhau
◦ Dữ liệu thường rất lớn, yêu cầu tốc độ xử
lý cao
 Yêu cầu tổ chức dữ liệu để đáp ứng:
Apache Hadoop


15
Phân tích dữ liệu





Là nơi mà các công ty bắt đầu trích xuất
giá trị dữ liệu lớn.
Liên quan tới việc phát triển các ứng
dụng và sử dụng các ứng dụng để đạt
được cái nhìn sâu sắc vào dữ liệu lớn.
Xây dựng các tool phân tích dữ liệu

16
Sử dụng dữ liệu


Là các hoạt đông trên dữ liệu được phân
tích

17
Tổ chức lưu trữ dữ liệu
BigData

18
Hadoop
Giới thiệu về Hadoop
 Các thành phần của Hadoop
 HDFS (Hadoop Distributed file
System)


19
Hadoop là gì?


Một nền tảng ứng dụng hỗ trợ các
ứng dụng phân tán với dữ liệu rất lớn
◦ Hàng terabyte
◦ Hàng ngàn node



Cung cấp phương tiện lưu trữ dữ liệu
trên nhiều node, hỗ trợ tối ưu hóa lưu
lượng mạng.

20
Thành phần của Hadoop
Xử lý (MapReduce): một framework
giúp phát triển các ứng dụng phân tán
theo mô hình MapReduce một cách
dễ dàng và mạnh mẽ.
 Lưu trữ (HDFS): hệ thống file phân
tán, cung cấp khả năng lưu trữ dữ liệu
khổng lồ và tính năng tối ưu hoá việc
sử dụng băng thông giữa các node.


21
Hadoop Distributed file System

22
Hadoop Distributed file System

23
Kiến trúc của HDFS

24
Kiến trúc của HDFS
Name node: Đóng vai trò là master
của hệ thống HDFS, quản lý thông tin
các file, block id tương ứng cho từng
file
 Block: đơn vị lưu trữ dữ liệu nhỏ nhất


◦ Hadoop dùng mặc định 64MB/block
◦ Một file chia làm nhiều block
◦ Các block chứa ở bất kỳ node nào trong
cluster


DataNode: Chứa các block
25
Kiến trúc của HDFS


JobTracker: tiếp nhận các yêu cầu
thực thi các MapReduce job.
◦ Phân chia job và giao task cho task
tracker
◦ Quản lý tình trạng của từng node



TaskTracker:
◦ Nhận các task từ jobTracker và thực hiện
task

26
Cơ chế hoạt động HDFS

27
Cơ chế hoạt động HDFS


Đọc
◦ client yêu cầu đọc dữ liệu từ Name Node,
namenode trả về vị trí các block của dữ
liệu
◦ Chương trình trực tiếp yêu cầu dữ liệu tại
các node

28
Cơ chế hoạt động HDFS


Ghi
◦ Ghi theo dạng đường ống (pipeline)
◦ client yêu cầu thao tác ghi ở Name Node
◦ Namenode kiểm tra quyền ghi và đảm bảo file
không tồn tại
◦ Các bản sao của block tạo thành đường ống để
dữ liệu tuần tự được ghi vào

29
Hadoop Distributed file System


Ưu điểm
◦
◦
◦
◦
◦



Lưu trữ được lượng file rất lớn
Truy cập dữ liệu theo dòng
Liên kết dữ liệu đơn giản
Phần cứng phổ thông, đa dạng
Tự động phát hiện lỗi, phục hồi dữ liệu nhanh

Nhược điểm
◦ Có độ trễ truy cập
◦ Không thể lưu trữ quá nhiều file trên cùng 1
cluster
30
Hadoop Common
Tập hợp các thư viện hỗ trợ cho Hadoop
 Bao gồm tập các lệnh


◦ Cat
copy file tới bộ ra chuẩn(stdout)
◦ Chmod
chuyển quyền đọc và ghi cho
một file
◦ Chown
chuyển quyền sở hữu của một
file hoặc 1 tập hợp file
◦ ……

31
MapReduce
Quản lý tiến trình song song, phân tán,
sắp xếp lịch trình I/O
 Quản lý trạng thái dữ liệu
 Quản lý số lượng lớn dữ liệu có quan hệ
phụ thuộc nhau
 Xử lý lỗi
 Trừu tượng hóa với lập trình viên


32
MapReduce

33
Oracle Big Data

34
Tổng quan

35
Oracle Big data
Là sự kết hợp cả phần cứng và phần
mềm
 Phần cứng:


◦
◦
◦
◦

18 server Sun
Dung lượng 648TB
2CPU/server, 6 nhân/CPU  216 nhân
48GB RAM

36
Oracle Big data


Phần mềm

◦ Bản đầy đủ của Cloudera’s
Distribution( bao gồm cả
Apache Hadoop) (CDH)
◦ Cloudera manager: để quản trị
Cloudera CDH
◦ Gói R là một mã nguồn mở
cho việc phân tích dữ liệu
chưa được xử lý trên Oracle
Big Data
◦ Oracle NoSQL database
◦ Hệ điều hành Oracle
Enterprise Linux cùng với
Oracle Java VM
37
Oracle Big data


Các thành phần chính
CDH và Cloudera Manager
 Oracle Big data connectors
 Oracle Loader cho Hadoop
 Oracle Direct Connector for Hadoop Distributed file
system
 Oracle data intergator application adapter cho
Hadoop
 Oracle R connector for Hadoop
 Oracle NoSQL database


38
Phân tích dữ liệu


Ví dụ:
◦ Hệ thống bán hàng online
 các đối tượng được xác định rõ ràng

39
Phân tích dữ liệu

40
Phân tích dữ liệu


Ví dụ:
◦ Dữ liệu được thu thập từ nhiều nguồn, ko có
cấu trúc

41
Phân tích dữ liệu

42
Tài liệu tham khảo








Big-Data Computing: Creating revolutionary breakthroughs in
commerce, science, and society (Randal E. Bryant Carnegie
Mellon University, Randy H. Katz University of California,
Berkeley, Edward D. Lazowska University of Washington)
Understanding the Elements of Big Data: More than a Hadoop
Distribution(Martin Hall, Founder, Karmasphere)
Big Data The power and possibilities of Big Data
Basic Data Analysis Tutorial
Oracle: Big Data for the enterprise

43

Más contenido relacionado

La actualidad más candente

BÁO CÁO ĐỒ ÁN MÔN HỌC ĐIỆN TOÁN ĐÁM MÂY ĐỀ TÀI: TÌM HIỂU VÀ SỬ DỤNG AMAZON WE...
BÁO CÁO ĐỒ ÁN MÔN HỌC ĐIỆN TOÁN ĐÁM MÂY ĐỀ TÀI: TÌM HIỂU VÀ SỬ DỤNG AMAZON WE...BÁO CÁO ĐỒ ÁN MÔN HỌC ĐIỆN TOÁN ĐÁM MÂY ĐỀ TÀI: TÌM HIỂU VÀ SỬ DỤNG AMAZON WE...
BÁO CÁO ĐỒ ÁN MÔN HỌC ĐIỆN TOÁN ĐÁM MÂY ĐỀ TÀI: TÌM HIỂU VÀ SỬ DỤNG AMAZON WE...nataliej4
 
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễnGiới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễnTrieu Nguyen
 
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UMLPHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UMLDang Tuan
 
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTT
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTTSlide Báo Cáo Đồ Án Tốt Nghiệp CNTT
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTTHiệu Nguyễn
 
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1pisu412
 
Quản lý mã nguồn với GIT
Quản lý mã nguồn với GITQuản lý mã nguồn với GIT
Quản lý mã nguồn với GITZendVN
 
Tài liệu data warehouse vietsub
Tài liệu data warehouse  vietsubTài liệu data warehouse  vietsub
Tài liệu data warehouse vietsubhoangdat1361
 
Báo cáo bài tập lớn phân tích thiết kế hệ thống
Báo cáo bài tập lớn phân tích thiết kế hệ thốngBáo cáo bài tập lớn phân tích thiết kế hệ thống
Báo cáo bài tập lớn phân tích thiết kế hệ thốngJojo Kim
 
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịđồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịThanh Hoa
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinVõ Phúc
 
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minhBáo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minhnataliej4
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánNgo Trung
 
Phân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàngPhân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàngleemindinh
 
Hbase, Cách thức lưu trữ và tìm kiếm
Hbase, Cách thức lưu trữ và tìm kiếmHbase, Cách thức lưu trữ và tìm kiếm
Hbase, Cách thức lưu trữ và tìm kiếmTuan Bach Van
 
Hệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng onlineHệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng onlineHan Nguyen
 

La actualidad más candente (20)

BÁO CÁO ĐỒ ÁN MÔN HỌC ĐIỆN TOÁN ĐÁM MÂY ĐỀ TÀI: TÌM HIỂU VÀ SỬ DỤNG AMAZON WE...
BÁO CÁO ĐỒ ÁN MÔN HỌC ĐIỆN TOÁN ĐÁM MÂY ĐỀ TÀI: TÌM HIỂU VÀ SỬ DỤNG AMAZON WE...BÁO CÁO ĐỒ ÁN MÔN HỌC ĐIỆN TOÁN ĐÁM MÂY ĐỀ TÀI: TÌM HIỂU VÀ SỬ DỤNG AMAZON WE...
BÁO CÁO ĐỒ ÁN MÔN HỌC ĐIỆN TOÁN ĐÁM MÂY ĐỀ TÀI: TÌM HIỂU VÀ SỬ DỤNG AMAZON WE...
 
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễnGiới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễn
 
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UMLPHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
 
Tìm hiểu MongoDB
Tìm hiểu MongoDBTìm hiểu MongoDB
Tìm hiểu MongoDB
 
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTT
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTTSlide Báo Cáo Đồ Án Tốt Nghiệp CNTT
Slide Báo Cáo Đồ Án Tốt Nghiệp CNTT
 
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1
 
Đề tài: Áp dụng kỹ thuật trong Big data vào lưu trữ dữ liệu, HOT
Đề tài: Áp dụng kỹ thuật trong Big data vào lưu trữ dữ liệu, HOTĐề tài: Áp dụng kỹ thuật trong Big data vào lưu trữ dữ liệu, HOT
Đề tài: Áp dụng kỹ thuật trong Big data vào lưu trữ dữ liệu, HOT
 
Quản lý mã nguồn với GIT
Quản lý mã nguồn với GITQuản lý mã nguồn với GIT
Quản lý mã nguồn với GIT
 
Tài liệu data warehouse vietsub
Tài liệu data warehouse  vietsubTài liệu data warehouse  vietsub
Tài liệu data warehouse vietsub
 
Báo cáo bài tập lớn phân tích thiết kế hệ thống
Báo cáo bài tập lớn phân tích thiết kế hệ thốngBáo cáo bài tập lớn phân tích thiết kế hệ thống
Báo cáo bài tập lớn phân tích thiết kế hệ thống
 
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoa
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoaỨng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoa
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ chẩn đoán y khoa
 
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịđồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tin
 
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minhBáo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
Báo cáo đồ án tôt nghiệp: Xây dựng Website bán hàng thông minh
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tán
 
Các mô hình dữ liệu
Các mô hình dữ liệuCác mô hình dữ liệu
Các mô hình dữ liệu
 
Phân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàngPhân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàng
 
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đĐề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
 
Hbase, Cách thức lưu trữ và tìm kiếm
Hbase, Cách thức lưu trữ và tìm kiếmHbase, Cách thức lưu trữ và tìm kiếm
Hbase, Cách thức lưu trữ và tìm kiếm
 
Hệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng onlineHệ thống quản lý bán hàng online
Hệ thống quản lý bán hàng online
 

Similar a Nhom 16 big data

Chuong 1 - Gioi Thieu.pptx
Chuong 1 - Gioi Thieu.pptxChuong 1 - Gioi Thieu.pptx
Chuong 1 - Gioi Thieu.pptxCngNguynPhmHuy
 
Chuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfChuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfCriz20
 
Thiết kế hệ thống mạng nội bộ cho cty vn transport
Thiết kế hệ thống mạng nội bộ cho cty vn transportThiết kế hệ thống mạng nội bộ cho cty vn transport
Thiết kế hệ thống mạng nội bộ cho cty vn transportHate To Love
 
ERD - Database Design
ERD - Database DesignERD - Database Design
ERD - Database Designyht4ever
 
Lưu trữ và xử lý dữ liệu trong điện toán đám mây
Lưu trữ và xử lý dữ liệu trong điện toán đám mâyLưu trữ và xử lý dữ liệu trong điện toán đám mây
Lưu trữ và xử lý dữ liệu trong điện toán đám mâyPhamTuanKhiem
 
Chuong 2 cac thanh_phan_cua_httt
Chuong 2 cac thanh_phan_cua_htttChuong 2 cac thanh_phan_cua_httt
Chuong 2 cac thanh_phan_cua_htttvo nhan
 
MongoDB.pptx
MongoDB.pptxMongoDB.pptx
MongoDB.pptxDuyThnh28
 
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptx
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptxBáo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptx
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptxBách Nguyễn
 
Chuong 1 tong_quan_ve_csdl
Chuong 1 tong_quan_ve_csdlChuong 1 tong_quan_ve_csdl
Chuong 1 tong_quan_ve_csdlHuy Feng
 
ITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigDataITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigDataIT Expert Club
 
b1-gioithieu-190213084421.pdf
b1-gioithieu-190213084421.pdfb1-gioithieu-190213084421.pdf
b1-gioithieu-190213084421.pdfQuyVo27
 
SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm
SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 nămSFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm
SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 nămVu Hung Nguyen
 
Bắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big DataBắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big DataHong Ong
 
bai giang mon sql- buoi 1.ppt
bai giang mon sql- buoi 1.pptbai giang mon sql- buoi 1.ppt
bai giang mon sql- buoi 1.pptHungHuyNguyen3
 
Cơ Sở Dữ Liệu - Chương 1
Cơ Sở Dữ Liệu - Chương 1Cơ Sở Dữ Liệu - Chương 1
Cơ Sở Dữ Liệu - Chương 1Nguyễn Trọng
 

Similar a Nhom 16 big data (20)

Chuong 1 - Gioi Thieu.pptx
Chuong 1 - Gioi Thieu.pptxChuong 1 - Gioi Thieu.pptx
Chuong 1 - Gioi Thieu.pptx
 
Chuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfChuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdf
 
Thiết kế hệ thống mạng nội bộ cho cty vn transport
Thiết kế hệ thống mạng nội bộ cho cty vn transportThiết kế hệ thống mạng nội bộ cho cty vn transport
Thiết kế hệ thống mạng nội bộ cho cty vn transport
 
NoSql Database
NoSql DatabaseNoSql Database
NoSql Database
 
ERD - Database Design
ERD - Database DesignERD - Database Design
ERD - Database Design
 
Lưu trữ và xử lý dữ liệu trong điện toán đám mây
Lưu trữ và xử lý dữ liệu trong điện toán đám mâyLưu trữ và xử lý dữ liệu trong điện toán đám mây
Lưu trữ và xử lý dữ liệu trong điện toán đám mây
 
Trongtruong so27a 09
Trongtruong so27a 09Trongtruong so27a 09
Trongtruong so27a 09
 
Chuong 2 cac thanh_phan_cua_httt
Chuong 2 cac thanh_phan_cua_htttChuong 2 cac thanh_phan_cua_httt
Chuong 2 cac thanh_phan_cua_httt
 
MongoDB.pptx
MongoDB.pptxMongoDB.pptx
MongoDB.pptx
 
C1
C1C1
C1
 
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptx
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptxBáo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptx
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptx
 
Chuong 1 tong_quan_ve_csdl
Chuong 1 tong_quan_ve_csdlChuong 1 tong_quan_ve_csdl
Chuong 1 tong_quan_ve_csdl
 
Cosodulieu
CosodulieuCosodulieu
Cosodulieu
 
ITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigDataITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigData
 
b1-gioithieu-190213084421.pdf
b1-gioithieu-190213084421.pdfb1-gioithieu-190213084421.pdf
b1-gioithieu-190213084421.pdf
 
Cosodulieu
CosodulieuCosodulieu
Cosodulieu
 
SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm
SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 nămSFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm
SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm
 
Bắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big DataBắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big Data
 
bai giang mon sql- buoi 1.ppt
bai giang mon sql- buoi 1.pptbai giang mon sql- buoi 1.ppt
bai giang mon sql- buoi 1.ppt
 
Cơ Sở Dữ Liệu - Chương 1
Cơ Sở Dữ Liệu - Chương 1Cơ Sở Dữ Liệu - Chương 1
Cơ Sở Dữ Liệu - Chương 1
 

Nhom 16 big data

  • 1. Big Data GV: TS Võ Đình Hiếu Thực hiện: Phạm Công Thiên Lý Dương Bà Cường Nguyễn Khắc Chung Đinh Anh Thái 1
  • 2. Nội dung  Giới thiệu Big Data  Các thành phần Big Data  Tổ chức lưu trữ dữ liệu BigData  Giải pháp Big data của Oracle 2
  • 4. BIG DATA ?  Là những số lượng khủng về các hồ sơ khách hàng, âm thanh, hình ảnh, văn bản… 4
  • 5. BIG DATA ?  Dữ liệu có số lượng lớn cần được lưu trữ như ◦ Truyền thống: thông tin khách hàng, giao dịch… ◦ Thu thập tự động qua cảm biến: thời tiết, nhật ký… ◦ Mạng xã hội: comment trên facebook, twitter…  Đặc trựng ◦ ◦ ◦ ◦ Số lượng Tốc độ Đa dạng Giá trị 5
  • 7. Dung lượng  Nhu cầu lưu trữ ngày càng tăng ◦ 2000: 800000 (PB) lưu trữ trên thế giới(*) ◦ 2020: 35 ZB trên toàn thế giới?(*) thế nào để quản lý?  Dữ liệu càng lớn thì: Làm ◦ Khả năng xử lý giảm? ◦ Phân tích dữ liệu giảm ◦ Truy xuất chậm (*)Số liệu từ IBM 1ZB = 1021 bytes 1PB = 1015 bytes 7
  • 8. Đa dạng  Dữ liệu đến từ nhiều nguồn: ◦ ◦ ◦ ◦ ◦  Cảm biến Smart device Mạng xã hội Tin tức … Dữ liệu phức tạp ◦ Truyền thống và không truyền thống ◦ Có cấu trúc, bán cấu trúc, không cấu trúc… 8
  • 9. Tốc độ Khối lượng dữ liệu là rất lớn tốc độ truy xuất chậm  Yêu cầu từ người sử dụng:  ◦ Nhanh ◦ Ổn định ◦ Chính xác 9
  • 10. Tầm quan trọng Big Data Mang tới sự hiểu biết sâu sắc hơn cho doanh nghiệp  Là sự tồn tại của doanh nghiệp  Mang tới sự hiểu biết mới  10
  • 11. Các thành phần Big Data 11
  • 13. Các thành phần Quản lý dữ liệu: cơ sở hạ tầng lưu trữ dữ liệu, và nguồn để thao tác nó.  Phân tích dữ liệu: công nghệ và các công cụ để phân tích các dữ liệu và thu thập hiểu biết sâu sắc từ nó  Sử dụng dữ liệu: đưa dữ liệu lớn đã phân tích để phục vụ trong Kinh doanh thông minh và các ứng dụng của người dùng cuối  13
  • 14. Quản lý dữ liệu  Hệ dữ liệu có cấu trúc     Hệ thống quản lý cơ sở dữ liệu quan hệ(RDBMS): để lưu trữ và thao tác dữ liệu có cấu trúc. Hệ thống MPP: tập hợp dữ liệu đồ sộ ngày càng lớn thêm và tăng cường dữ liệu tăng trưởng. Kho dữ liệu: tập hợp và lưu trữ dữ liệu cho các báo cáo sau này. Hạn chế  Khó mở rộng, hiệu suất chậm lại.  Biểu diễn dữ liệu 14
  • 15. Quản lý dữ liệu Hệ dữ liệu không cấu trúc: phù hợp cho việc lưu trữ dữ liệu có cấu trúc phức tạp và dễ dàng mở rộng  Dữ liệu ◦ Dữ liệu có cấu trúc và không có cấu trúc ◦ Lấy từ nhiều nguồn với kích cỡ khác nhau ◦ Dữ liệu thường rất lớn, yêu cầu tốc độ xử lý cao  Yêu cầu tổ chức dữ liệu để đáp ứng: Apache Hadoop  15
  • 16. Phân tích dữ liệu    Là nơi mà các công ty bắt đầu trích xuất giá trị dữ liệu lớn. Liên quan tới việc phát triển các ứng dụng và sử dụng các ứng dụng để đạt được cái nhìn sâu sắc vào dữ liệu lớn. Xây dựng các tool phân tích dữ liệu 16
  • 17. Sử dụng dữ liệu  Là các hoạt đông trên dữ liệu được phân tích 17
  • 18. Tổ chức lưu trữ dữ liệu BigData 18
  • 19. Hadoop Giới thiệu về Hadoop  Các thành phần của Hadoop  HDFS (Hadoop Distributed file System)  19
  • 20. Hadoop là gì?  Một nền tảng ứng dụng hỗ trợ các ứng dụng phân tán với dữ liệu rất lớn ◦ Hàng terabyte ◦ Hàng ngàn node  Cung cấp phương tiện lưu trữ dữ liệu trên nhiều node, hỗ trợ tối ưu hóa lưu lượng mạng. 20
  • 21. Thành phần của Hadoop Xử lý (MapReduce): một framework giúp phát triển các ứng dụng phân tán theo mô hình MapReduce một cách dễ dàng và mạnh mẽ.  Lưu trữ (HDFS): hệ thống file phân tán, cung cấp khả năng lưu trữ dữ liệu khổng lồ và tính năng tối ưu hoá việc sử dụng băng thông giữa các node.  21
  • 25. Kiến trúc của HDFS Name node: Đóng vai trò là master của hệ thống HDFS, quản lý thông tin các file, block id tương ứng cho từng file  Block: đơn vị lưu trữ dữ liệu nhỏ nhất  ◦ Hadoop dùng mặc định 64MB/block ◦ Một file chia làm nhiều block ◦ Các block chứa ở bất kỳ node nào trong cluster  DataNode: Chứa các block 25
  • 26. Kiến trúc của HDFS  JobTracker: tiếp nhận các yêu cầu thực thi các MapReduce job. ◦ Phân chia job và giao task cho task tracker ◦ Quản lý tình trạng của từng node  TaskTracker: ◦ Nhận các task từ jobTracker và thực hiện task 26
  • 27. Cơ chế hoạt động HDFS 27
  • 28. Cơ chế hoạt động HDFS  Đọc ◦ client yêu cầu đọc dữ liệu từ Name Node, namenode trả về vị trí các block của dữ liệu ◦ Chương trình trực tiếp yêu cầu dữ liệu tại các node 28
  • 29. Cơ chế hoạt động HDFS  Ghi ◦ Ghi theo dạng đường ống (pipeline) ◦ client yêu cầu thao tác ghi ở Name Node ◦ Namenode kiểm tra quyền ghi và đảm bảo file không tồn tại ◦ Các bản sao của block tạo thành đường ống để dữ liệu tuần tự được ghi vào 29
  • 30. Hadoop Distributed file System  Ưu điểm ◦ ◦ ◦ ◦ ◦  Lưu trữ được lượng file rất lớn Truy cập dữ liệu theo dòng Liên kết dữ liệu đơn giản Phần cứng phổ thông, đa dạng Tự động phát hiện lỗi, phục hồi dữ liệu nhanh Nhược điểm ◦ Có độ trễ truy cập ◦ Không thể lưu trữ quá nhiều file trên cùng 1 cluster 30
  • 31. Hadoop Common Tập hợp các thư viện hỗ trợ cho Hadoop  Bao gồm tập các lệnh  ◦ Cat copy file tới bộ ra chuẩn(stdout) ◦ Chmod chuyển quyền đọc và ghi cho một file ◦ Chown chuyển quyền sở hữu của một file hoặc 1 tập hợp file ◦ …… 31
  • 32. MapReduce Quản lý tiến trình song song, phân tán, sắp xếp lịch trình I/O  Quản lý trạng thái dữ liệu  Quản lý số lượng lớn dữ liệu có quan hệ phụ thuộc nhau  Xử lý lỗi  Trừu tượng hóa với lập trình viên  32
  • 36. Oracle Big data Là sự kết hợp cả phần cứng và phần mềm  Phần cứng:  ◦ ◦ ◦ ◦ 18 server Sun Dung lượng 648TB 2CPU/server, 6 nhân/CPU  216 nhân 48GB RAM 36
  • 37. Oracle Big data  Phần mềm ◦ Bản đầy đủ của Cloudera’s Distribution( bao gồm cả Apache Hadoop) (CDH) ◦ Cloudera manager: để quản trị Cloudera CDH ◦ Gói R là một mã nguồn mở cho việc phân tích dữ liệu chưa được xử lý trên Oracle Big Data ◦ Oracle NoSQL database ◦ Hệ điều hành Oracle Enterprise Linux cùng với Oracle Java VM 37
  • 38. Oracle Big data  Các thành phần chính CDH và Cloudera Manager  Oracle Big data connectors  Oracle Loader cho Hadoop  Oracle Direct Connector for Hadoop Distributed file system  Oracle data intergator application adapter cho Hadoop  Oracle R connector for Hadoop  Oracle NoSQL database  38
  • 39. Phân tích dữ liệu  Ví dụ: ◦ Hệ thống bán hàng online  các đối tượng được xác định rõ ràng 39
  • 40. Phân tích dữ liệu 40
  • 41. Phân tích dữ liệu  Ví dụ: ◦ Dữ liệu được thu thập từ nhiều nguồn, ko có cấu trúc 41
  • 42. Phân tích dữ liệu 42
  • 43. Tài liệu tham khảo      Big-Data Computing: Creating revolutionary breakthroughs in commerce, science, and society (Randal E. Bryant Carnegie Mellon University, Randy H. Katz University of California, Berkeley, Edward D. Lazowska University of Washington) Understanding the Elements of Big Data: More than a Hadoop Distribution(Martin Hall, Founder, Karmasphere) Big Data The power and possibilities of Big Data Basic Data Analysis Tutorial Oracle: Big Data for the enterprise 43