Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Bắt đầu học data science

48.687 visualizaciones

Publicado el

Tổ chức: TopDev, VNG.
Chủ đề: Data Science – Mỏ vàng của Kỉ nguyên số.
Speaker: Ông Xuân Hồng - Data analyst @ Knorex.
Ngày: 19/07/2017.

Publicado en: Datos y análisis

Bắt đầu học data science

  1. 1. BẮT ĐẦU HỌC DATA SCIENCE ÔNG XUÂN HỒNG – DATA ANALYST @ KNOREX
  2. 2. NỘI DUNG Data science 101 Làm sao để trở thành Data Scientist Rèn luyện thế nào Sự nghiệp
  3. 3. GIỚITHIỆU BẢNTHÂN Full-stack web developer (PHP,Java) Master @ JAIST (NLP) Blogger (Machine Learning) Working @ Knorex (Advertising analysis)
  4. 4. Tốc độ phát sinh dữ liệu (dữ liệu phi cấu trúc) 88% Phân tích truyền thống (dữ liệu có cấu trúc) 12% DATA ANALYST • Dữ liệu có cấu trúc: được thiết kế kĩ lưỡng để khai thác (SQL, OLAP, BI). • Dữ liệu phi cấu trúc: văn bản, comment, ảnh, video, giọng nói, …
  5. 5. NHỮNG NHÀ NGHIÊN CỨU RA TAY ¡ Nghiên cứu mô hình kinh doanh của tổ chức để đưa ra giải pháp. ¡ Lấy và làm sạch dữ liệu, chuyển đổi thành thông tin hữu ích. ¡ Phân tích, đánh giá sơ lược dữ liệu thu thập được (Exploratory DataAnalysis). ¡ Suy diễn thông tin có ý nghĩa từ tập dữ liệu thu thập (Statistical inference). ¡ Xây dựng hệ thống hỗ trợ ra quyết định để giải quyết vấn đề.
  6. 6. Họ trở thành Data Scientist
  7. 7. Data Science là gì?
  8. 8. DATA SCIENCE Data Science Văn bản Xử lý ngôn ngữ tự nhiên Ảnh và video Thị giác máy tính Âm thanh Xử lý tín hiệu số Social network Phân tích đồ thị Business Khai thác dữ liệu DNA Tin sinh học … …
  9. 9. AI Data mining Machine learning Deep learning
  10. 10. Làm sao trở thành Data Scientist?
  11. 11. Nghiên cứu Lập trình Chia sẻ Quan tâm
  12. 12. KHÔNG CẦN BẰNG PHD Big Data techs Business domain Project management Teamwork
  13. 13. CODING… Scripting ¡ Python: tổng hợp, tích hợp các nguồn dữ liệu, prototype mô hình dự đoán. ¡ R: phân tích thống kê, trình bày biểu đồ. ¡ Julia Low level ¡ Java:Web app,mobile app,NLP framework. ¡ Scala:Big Data processing. ¡ C++/Go:Big Data processing.
  14. 14. VIẾT BLOG CHIA SẺ ¡ Tổ chức lại kiến thức. ¡ Khi chia sẻ chính là lúc bạn đang học. ¡ Rèn luyện kĩ năng trình bày. ¡ Giúp ích cho cộng đồng. ¡ Mở rộng cơ hội nghề nghiệp.
  15. 15. Rèn luyện thế nào?
  16. 16. RÀO CẢN BAN ĐẦU ¡ Học Toán không kĩ, đặc biệt là xác suất và thống kê. ¡ So sánh với các bạn cùng khoá làm mất tự tin và lo lắng. ¡ Quá nhiều thứ để học mà thời gian thì quá ít gây bối rối. ¡ Lo lắng việc làm khi ra trường. ¡ Mơ hồ về career path sau này.
  17. 17. TỐ CHẤT NÊN CÓ ¡ Tò mò, thích khám phá kiến thức mới. ¡ Thích lập trình, tìm tòi áp dụng những công cụ mới. ¡ Không ngại thử sai nhiều lần trong quá trình thực nghiệm. ¡ Yêu thích những phát hiện về khoa học tự nhiên. ¡ Quan tâm đến các bài toán của xã hội và mong muốn giải quyết.
  18. 18. STUDY FLOW Lập trình demo nhỏ Ý nghĩa Toán học Machine Learning keywords Ứng dụng mình quan tâm
  19. 19. XÁC ĐỊNH DOMAIN MUỐN LÀM • Đọc blog. • Đọc tin tức. • Thầy cô giới thiệu. • Bạn bè chia sẻ. • Công việc đòi hỏi.
  20. 20. XÁC ĐỊNH BÀITOÁN QUANTÂM Nghiên cứu Bài toán Xử lý ngôn ngữ tự nhiên Language modeling,Part of speech tagging,Grammar parsing,Word segmentation,Machine translation,Named entity recognition,Question and Answering,Sentiment analysis,Discourse analysis,Word sense disambiguation, … Thị giác máy tính Image processing,Medical imaging,Pattern recognition, 3D reconstruction,Face recognition,Computer human interaction,Computer graphics,Object detection,Pose estimation,Shape recognition,Scene construction … Xử lý tín hiệu số Audio processing,Speech recognition,Noise reduction, Audio/Video compression,… Khai thác dữ liệu ExtractTransform Load, anomaly detection, association rule learning,clustering,classification,regression,…
  21. 21. Để biết mình hợp với cái nào thì phải thử…
  22. 22. TÌM KHOÁ HỌC ONLINE • Nắm kiến thức cơ bản. • Có thể vừa học vừa làm. • Thích học giáo trình nào thì học. • Chi phí thấp. • Học nhanh học chậm là do bạn.
  23. 23. HỌC LẬPTRÌNH
  24. 24. CẤUTRÚC DỮ LIỆUVÀ GIẢITHUẬT Kiểu dữ liệu Vòng lặp, phân luồng Hàm Hướng đối tượng
  25. 25. HỌCTOÁN
  26. 26. HỌCTOÁN ¡ Giải tích (Analytics):tìm độ lỗi cực tiểu cho mô hình, cực đại hoá khả năng. ¡ Đại số tuyến tính (Linear algebra):nhân ma trận trong xử lý ảnh, biểu diễn và thao tác dữ liệu bảng. ¡ Toán rời rạc (Discrete mathematics):hỗ trợ phép đếm trong xác suất. ¡ Lý thuyết đồ thị (Graph theory):phân tích mạng xã hội. ¡ Xác suất thống kê (Statistics and probability):xây dựng mô hình dự đoán dựa vào dữ liệu quá khứ“educated guess”.
  27. 27. INDUSTRY DOMAIN ¡ Marketing ¡ Customer support ¡ Sales ¡ HR/Recruiting ¡ Security/Fraud ¡ Education ¡ Audio/Video ¡ Agriculture ¡ Healthcare ¡ Legal ¡ Financial
  28. 28. SỰ NGHIỆP Startup Đi làm Học thuật
  29. 29. HỌCTHUẬT Đại học • 4 năm Master • 2 năm PhD • 3 năm Postdoc • 2 năm • Tầm sư học đạo 10 năm. • Ít rủi ro. • Được nghiên cứu lĩnh vực mình thích. • Thường làm việc một mình hoặc nhóm nhỏ. • Áp lực về xuất bản bài báo khoa học. • Làm giảng viên, nghiên cứu sinh, hoặc nhà tư vấn.
  30. 30. ĐI LÀM ¡ Data engineer. ¡ Data analyst. ¡ Data scientist. ¡ Project management. ¡ Business owner of a Start-up.
  31. 31. REAL-TIME BIDDING Bidding Optimizer Demand-Side Platform Advertiser Knorex Ad Exchange 3.Ad auction Google Data Management Platform Webpage User Information (Male, 25, Student, Ad science, Longdon,…) 1. Bid Request (user, context) 0.Ad Request 2. Bid Response (ad, bid) 4.Win Notice (paying price) 5.Ad (with tracking) 6. User Feedback (click,conversion,…)
  32. 32. DATA ENGINEER ¡ Vai trò: thiết kế, xây dựng,bảo trì, giám sát hệ thống Big Data sao cho hệ thống có khả năng co giãn hợp lý, tiết kiệm chi phí. ¡ Thách thức: mang lại trải nghiệm tốt về Big Data cho người dùng. ¡ Công nghệ: Docker,Zookeeper,Mesos,Chronos, Marathon,Spark, Redis, Kafka,AmazonWeb Service… ¡ Nhiệm vụ hằng ngày: ¡ Setup các hệ thống server. ¡ Tracking dữ liệu đến từ nhiều nguồn. ¡ Xây dựng hệ thống monitoring. ¡ Đảm bảo hệ thống duy trì ổn định.
  33. 33. LOGSTASH – ELASTICSEARCH - KIBANA ¡ Làm sao lấy access log cách đây 6 ngày trong khoảng thời gian 11:03 AM đến 08:16 PM? ¡ Logstash:ghi dữ liệu log từ nhiều nguồn. ¡ Elasticsearch:lưu trữ, tìm kiếm và phân tích dữ liệu log. ¡ Kibana:biểu diễn dữ liệu log, quan sát nhiều tác vụ trong một thời điểm.
  34. 34. DATA ANALYST ¡ Vai trò: thực hiện phân tích, theo dõi hệ thống Big Data. ¡ Thách thức: đảm bảo tính toàn vẹn của dữ liệu, xây dựng kế hoạch và xử lý nhanh những biến cố của hệ thống. ¡ Công nghệ: MongoDB,MySQL, PostgreSQL,Excel, … ¡ Nhiệm vụ hằng ngày: ¡ Hỗ trợ Extract Transform Load dữ liệu. ¡ Điều tra phân tích những sự cố về dữ liệu. ¡ Tổng hợp Big Data từ nhiều nguồn để phân tích.
  35. 35. LÀMVIỆCVỚI DỮ LIỆU ¡ Tổng hợp dữ liệu thành Data warehouse theo giờ, ngày,và tháng. ¡ Biểu diễn dữ liệu thành các bảng biểu và đồ thị để quan sát trực quan. ¡ Tích hợp dữ liệu từ Facebook,Google theo dạng chuẩn. ¡ Xuất file report Excel Big Data (> 100 MB).
  36. 36. DATA SCIENTIST ¡ Vai trò: xác định vấn đề và đưa ra giải pháp AI cho tổ chức. ¡ Thách thức: xây dựng được hệ thống có độ chính xác cao, hỗ trợ lãnh đạo ra quyết định tốt hơn. ¡ Công nghệ: Docker,Spark,AmazonWeb Service, Google cloud computing, MongoDB,PostgreSQL,Jupyter, …
  37. 37. DATA SCIENTIST Brainstorm Cài đặt Thực nghiệm Thất bại Phân tích thất bại Khảo sát tài liệu Vấn đề Giải pháp
  38. 38. BIDDING OPTIMIZER ¡ Có nên bid hay không? ¡ Nếu có thì bid với giá bao nhiêu để thắng? ¡ Dự đoán xem khi đăng quảng cáo này user có khả năng click là bao nhiêu? ¡ Mục tiêu: maximize số lượng win với điều kiện Budget và CPM cho trước bởi user.
  39. 39. PROJECT MANAGEMENT ¡ Vai trò: xây dựng và áp dụng những quy trình giúp hoàn thành dự án đúng thời hạn. ¡ Nhiệm vụ: phân công công việc và tài nguyên cho đúng người đúng việc. ¡ Công cụ: quản lý thời gian, quản lý quy trình. ¡ Thách thức: ¡ Làm hài lòng sếp. ¡ Làm hài lòng anh em. ¡ Làm hài lòng khách hàng.
  40. 40. BUSINESS OWNER ¡ Vai trò: nắm bắt và tạo ra xu hướng, truyền lửa, truyền cảm hứng, gửi gắm tầm nhìn vào sản phẩm. ¡ Nhiệm vụ: tìm mặt gửi vàng, phân phối tài nguyên và nguồn lực hợp lý. ¡ Công cụ: kĩ năng giao tiếp, đam mê, tiền bạc, và nhân cách. ¡ Thách thức: ¡ Làm hài lòng khách hàng. ¡ Chiêu dụ và giữ chân được nhân tài. ¡ Chấp nhận rủi ro bị phá sản. ¡ Cập nhật kịp thời xu hướng nhanh so với đối thủ cạnh tranh.
  41. 41. NỘI DUNG Data science 101 Làm sao để trở thành Data Scientist Rèn luyện thế nào Sự nghiệp
  42. 42. Q@A Xin cảm ơn
  43. 43. THAM KHẢO THÊM ¡ http://www.datatau.com/ ¡ https://metacademy.org/ ¡ http://datasciencemasters.org/ ¡ http://machinelearningcoban.com/ ¡ How To BecomeA Data Scientist ¡ Ultimate Skills Checklist forYour First DataAnalyst Job

×