SlideShare a Scribd company logo
Enviar búsqueda
Cargar
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
Denunciar
Compartir
Farafekr Technology
Farafekr Technology
Seguir
•
5 recomendaciones
•
2,216 vistas
1
de
81
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
•
5 recomendaciones
•
2,216 vistas
Denunciar
Compartir
Descargar ahora
Descargar para leer sin conexión
Datos y análisis
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران www.hadoop.ir
Leer más
Farafekr Technology
Farafekr Technology
Seguir
Recomendados
بیگ دیتا por
بیگ دیتا
Hamed Azizi
4.5K vistas
•
27 diapositivas
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز por
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Mobin Ranjbar
511 vistas
•
79 diapositivas
تشخیص انجمن در مقیاس کلان داده por
تشخیص انجمن در مقیاس کلان داده
Navid Sedighpour
962 vistas
•
37 diapositivas
Big Data Processing in Cloud Computing Environments por
Big Data Processing in Cloud Computing Environments
Farzad Nozarian
4.6K vistas
•
39 diapositivas
داده، dikw ، داده بزرگ و علم داده por
داده، dikw ، داده بزرگ و علم داده
fatemeh zatajam
403 vistas
•
17 diapositivas
Big Data and select suitable tools por
Big Data and select suitable tools
Meghdad Hatami
4.1K vistas
•
43 diapositivas
Más contenido relacionado
La actualidad más candente
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی por
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Mobin Ranjbar
11.9K vistas
•
19 diapositivas
کلان داده کاربردها و چالش های آن por
کلان داده کاربردها و چالش های آن
Hamed Azizi
10.9K vistas
•
7 diapositivas
مقدمه ای بر داده کاوی por
مقدمه ای بر داده کاوی
data scientist
2.2K vistas
•
46 diapositivas
What is big data and how use that por
What is big data and how use that
shohreh deldari
423 vistas
•
14 diapositivas
داده های عظیم چگونه دنیا را تغییر خواهند داد por
داده های عظیم چگونه دنیا را تغییر خواهند داد
Farzad Khandan
1.9K vistas
•
85 diapositivas
Bi and data mining with Oracle por
Bi and data mining with Oracle
ghanadbashi
227 vistas
•
24 diapositivas
La actualidad más candente
(20)
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی por Mobin Ranjbar
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Mobin Ranjbar
•
11.9K vistas
کلان داده کاربردها و چالش های آن por Hamed Azizi
کلان داده کاربردها و چالش های آن
Hamed Azizi
•
10.9K vistas
مقدمه ای بر داده کاوی por data scientist
مقدمه ای بر داده کاوی
data scientist
•
2.2K vistas
What is big data and how use that por shohreh deldari
What is big data and how use that
shohreh deldari
•
423 vistas
داده های عظیم چگونه دنیا را تغییر خواهند داد por Farzad Khandan
داده های عظیم چگونه دنیا را تغییر خواهند داد
Farzad Khandan
•
1.9K vistas
Bi and data mining with Oracle por ghanadbashi
Bi and data mining with Oracle
ghanadbashi
•
227 vistas
سیستم فایل HDFS por nasser rezaei
سیستم فایل HDFS
nasser rezaei
•
385 vistas
داده کاوی por Taha Mokfi
داده کاوی
Taha Mokfi
•
4K vistas
Big data ppt por Behnam Sedaghat Mansouri
Big data ppt
Behnam Sedaghat Mansouri
•
316 vistas
Opendata and business - داده های باز و کسب و کار por efazati
Opendata and business - داده های باز و کسب و کار
efazati
•
147 vistas
(داده های زمینه ای) Contextual data por Hosseinieh Ershad Public Library
(داده های زمینه ای) Contextual data
Hosseinieh Ershad Public Library
•
119 vistas
دادهکاوی و زبان برنامهنویسی R por جشنوارهٔ روز آزادی نرمافزار تهران
دادهکاوی و زبان برنامهنویسی R
جشنوارهٔ روز آزادی نرمافزار تهران
•
854 vistas
آموزش Sql por aminifar
آموزش Sql
aminifar
•
159 vistas
آموزش Sql por aminifar
آموزش Sql
aminifar
•
164 vistas
Big data por Mohammad Hossein Mohammadi
Big data
Mohammad Hossein Mohammadi
•
18 vistas
فناوریهای حوزهی کلان داده - Introduction to Big Data Technologies por Ehsan Asgarian
فناوریهای حوزهی کلان داده - Introduction to Big Data Technologies
Ehsan Asgarian
•
369 vistas
Data streaming & kafka por mohadesedashti
Data streaming & kafka
mohadesedashti
•
83 vistas
Big data related to BI por data scientist
Big data related to BI
data scientist
•
459 vistas
BI (Business Intelligence) por poorya davachi
BI (Business Intelligence)
poorya davachi
•
744 vistas
Ibm modeler por Esmaeil Hadavandi
Ibm modeler
Esmaeil Hadavandi
•
668 vistas
Destacado
CloudFoundry-summit-2015-a-look-back por
CloudFoundry-summit-2015-a-look-back
Krishna-Kumar
1.5K vistas
•
30 diapositivas
اسلاید وبینار آشنایی با اسپارک - Introduction to Apache Spark in Persian por
اسلاید وبینار آشنایی با اسپارک - Introduction to Apache Spark in Persian
Farafekr Technology
641 vistas
•
16 diapositivas
Edms hamara 2017 por
Edms hamara 2017
danesh hamara
241 vistas
•
9 diapositivas
Webmining por
Webmining
Mohammadhiwa Abdekhoda
305 vistas
•
19 diapositivas
Neural networks por
Neural networks
Meysam Asadi
529 vistas
•
92 diapositivas
شبکه های عصبی مصنوعی por
شبکه های عصبی مصنوعی
dataminers.ir
12.7K vistas
•
45 diapositivas
Destacado
(12)
CloudFoundry-summit-2015-a-look-back por Krishna-Kumar
CloudFoundry-summit-2015-a-look-back
Krishna-Kumar
•
1.5K vistas
اسلاید وبینار آشنایی با اسپارک - Introduction to Apache Spark in Persian por Farafekr Technology
اسلاید وبینار آشنایی با اسپارک - Introduction to Apache Spark in Persian
Farafekr Technology
•
641 vistas
Edms hamara 2017 por danesh hamara
Edms hamara 2017
danesh hamara
•
241 vistas
Webmining por Mohammadhiwa Abdekhoda
Webmining
Mohammadhiwa Abdekhoda
•
305 vistas
Neural networks por Meysam Asadi
Neural networks
Meysam Asadi
•
529 vistas
شبکه های عصبی مصنوعی por dataminers.ir
شبکه های عصبی مصنوعی
dataminers.ir
•
12.7K vistas
Big Data - 25 Amazing Facts Everyone Should Know por Bernard Marr
Big Data - 25 Amazing Facts Everyone Should Know
Bernard Marr
•
487.1K vistas
Introduction to Big Data/Machine Learning por Lars Marius Garshol
Introduction to Big Data/Machine Learning
Lars Marius Garshol
•
306.6K vistas
Big Data Analytics with Hadoop por Philippe Julio
Big Data Analytics with Hadoop
Philippe Julio
•
441.9K vistas
Big data ppt por Nasrin Hussain
Big data ppt
Nasrin Hussain
•
560.8K vistas
What is big data? por David Wellman
What is big data?
David Wellman
•
184.4K vistas
What is Big Data? por Bernard Marr
What is Big Data?
Bernard Marr
•
585.3K vistas
Similar a 1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
Rbdmap ceph realease 0.2 por
Rbdmap ceph realease 0.2
Yashar Esmaildokht
64 vistas
•
17 diapositivas
rbdmap in ceph por
rbdmap in ceph
Yashar Esmaildokht
320 vistas
•
15 diapositivas
Sql tuning por
Sql tuning
mehrdadkarami3
6 vistas
•
45 diapositivas
معرفي فايروال پايگاه داده por
معرفي فايروال پايگاه داده
Hamid Torkashvand
411 vistas
•
4 diapositivas
how enable ceph dashboard por
how enable ceph dashboard
Yashar Esmaildokht
141 vistas
•
16 diapositivas
Pg autoscaling in ceph por
Pg autoscaling in ceph
Yashar Esmaildokht
288 vistas
•
19 diapositivas
Similar a 1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
(20)
Rbdmap ceph realease 0.2 por Yashar Esmaildokht
Rbdmap ceph realease 0.2
Yashar Esmaildokht
•
64 vistas
rbdmap in ceph por Yashar Esmaildokht
rbdmap in ceph
Yashar Esmaildokht
•
320 vistas
Sql tuning por mehrdadkarami3
Sql tuning
mehrdadkarami3
•
6 vistas
معرفي فايروال پايگاه داده por Hamid Torkashvand
معرفي فايروال پايگاه داده
Hamid Torkashvand
•
411 vistas
how enable ceph dashboard por Yashar Esmaildokht
how enable ceph dashboard
Yashar Esmaildokht
•
141 vistas
Pg autoscaling in ceph por Yashar Esmaildokht
Pg autoscaling in ceph
Yashar Esmaildokht
•
288 vistas
طراحی سیستم های اطلاعاتی بر مبنای قابلیت های Nosql بانک های اطلاعاتی por عباس بني اسدي مقدم
طراحی سیستم های اطلاعاتی بر مبنای قابلیت های Nosql بانک های اطلاعاتی
عباس بني اسدي مقدم
•
511 vistas
Ordbms پایگاه داده شی گرا-رابطه ای por Ali Moradi
Ordbms پایگاه داده شی گرا-رابطه ای
Ali Moradi
•
2.5K vistas
راهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکس por Seied Mahdi Sadat Hosseini
راهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکس
Seied Mahdi Sadat Hosseini
•
97 vistas
Data cleansing por SiminZolfi
Data cleansing
SiminZolfi
•
90 vistas
how upgrade ceph por Yashar Esmaildokht
how upgrade ceph
Yashar Esmaildokht
•
118 vistas
Microsoft BI Sumery por Reza Bahadorizadeh
Microsoft BI Sumery
Reza Bahadorizadeh
•
64 vistas
Crisp dm.1.0 por ali ahmadi
Crisp dm.1.0
ali ahmadi
•
196 vistas
Cisco Exploration 2 In Persion-Muhibullah Aman por Muhibullah Aman
Cisco Exploration 2 In Persion-Muhibullah Aman
Muhibullah Aman
•
604 vistas
مسیردهی و پروتوکولهای مسیریابی por Muhibullah Aman
مسیردهی و پروتوکولهای مسیریابی
Muhibullah Aman
•
716 vistas
Introduction to oracle por Ehsan Hamzei
Introduction to oracle
Ehsan Hamzei
•
240 vistas
سیستم عامل جلد اول por iuvmtech
سیستم عامل جلد اول
iuvmtech
•
71 vistas
Raid type, Raid تکنولوژی , por abbas pirnazaraine
Raid type, Raid تکنولوژی ,
abbas pirnazaraine
•
79 vistas
an introduction to Web 3.0 - Semantic Web por Hossein sharafi
an introduction to Web 3.0 - Semantic Web
Hossein sharafi
•
414 vistas
IranOUG_Oracle_Multitenant por Oracle Freelancer
IranOUG_Oracle_Multitenant
Oracle Freelancer
•
28 vistas
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
1.
عملی کارگاه هدوپ آموزش } حمایت
با ایران اطلعات فناوری سازمان ایران هدوپ مرجع w . . . .ww hadoop ir www farafekr co hello@had . .oop ir info@farafekr co فرافکر پردازان ایده افزارنرم مهندسی شرکت
2.
ساده زبان به
هدوپ اول فصل
3.
جدید های چالش = جدید
هایحل راه از خارج هاآن پردازش و مدیریت که شودمی گفته هاییداده به .است موجود هایسیستم و هاحل راه توانایی چیست؟ داده کلن
4.
در مجازی فضای۶۰ثانیه چیست؟
داده کلن
5.
ها داده رشد 2013
2015 Unstructured Data 88% 300 Exabytes 80 Exabytes Structured Data 12% DatabaseApplicaton Backup & Archive Backup Storage Optons چیست؟ داده کلن
6.
چیست؟ داده کلن یاد
به شنوند می را واژه این که زمانی افراد از بسیاری زیاد وسعتیا وهمانزیاد حجم.افتندمی کلن هایداده درفقطمو.نیست مطرح حجم ضوع
7.
اصلی فرعی ارزشدرستیتنوعسرعتحجم چیست؟ داده
کلن
8.
کلن هایداده بندی
طبقه چیست؟ داده کلن
9.
سازی ذخیره و
تحلیل هایسیستم
10.
ای غیررابطه و
ایرابطه هایداده پایگاه ) ایرابطه داده پایگاهRelational databasesهایپایگاه از دسته آن به ( .باشند شده ایجاد و طراحی ایرابطه مدل اساس بر که شودمی اطلقا داده تولد سال پدر نام شماره دانشجویی کامل نام 13۶5 جعفر 9۰45879 احمدیان علی 13۶۶ ایمان 89۶5479 بهرامی میلد 13۶8 مهدی 9245789 علوی علیرضا
11.
ای غیررابطه و
ایرابطه هایداده پایگاه مقایسه ) ایغیررابطه داده پایگاه-Non Relational databasesاز ایدسته به ( نحوه و ایرابطه مدل از هاداده سازی ذخیره برای که شودمی گفته هاداده پایگاه .نکند استفاده جدول صورت به هاداده نمایش { _id:147963658, Name:'abc', Contact:{ Phone:'8984577', Email:'test@test.com' }, Address:{ address:'Fanavaran Street', City:'Tehran' } }
12.
معایب و مزایا ایرابطه
داده پایگاه :مزایا 1.ساختار با هایداده پردازش و ذخیره در قبول قابل کارایی . 2.شده اثبات و شده شناخته متنوع ابزارهای وجود . :معایب 1.ضعیف پذیری توسعه . 2.ثابت ایداده ساختار .
13.
معایب و مزایا ایغیررابطه
داده پایگاه :مزایا 1.ساختار بی هایداده سازی ذخیره و پردازش در عالی کارایی . 2.داده پایگاه در مکرر تغییر تحمل توانایی . 3.ابری و شده توزیع هایسیستم در کارایی بهترین . :معایب 1.رشد حال در همچنان موردنیاز ابزارهای و اندازی،نصب راه . 2.خاص مسائل در پایین دهی پاسخ زمان .
14.
است؟ بهتر مدل
کدام !کدام هیچ
15.
کنیم؟ استفاده ای
رابطه ای داده های پایگاه از زمانی چه 1.دارید جدول به نیاز . 2.هستند روشن و ساده شما های داده . 3.است مقداری تک جداول های فیلد . 4.دارد یکپارچه و یکتا ساختاری شما های داده .
16.
کنیم؟ استفاده ای
غیررابطه ای داده های پایگاه از زمانی چه 1.رسد می بزرگی مقیاس به ثانیه از کسری در شما های داده . 2.است پراکنده و ساختار بدون شما های داده . 3به تبدیل ای داده فیلد هر است ممکن لحظه هر .2،3بیشتر یا و .شود 4.است شده تشکیل مقادیر از ای آرایه از ای داده فیلد هر . 5.هستید ها داده تداوم و پایداری نگران . ۶.هستید سرور شدن دسترس از خارج نگران . 7از میخواهید و است شده ذخیره ابری بستر در شما های داده . .کنید استفاده شده توزیع های دیتابیس
17.
کنیم؟ استفاده ای
رابطه ای داده های پایگاه از زمانی چه 1.دارید جدول به نیاز . 2.هستند روشن و ساده شما های داده . 3.است مقداری تک جداول های فیلد . 4.دارد یکپارچه و یکتا ساختاری شما های داده .
18.
A C P )پذیری دسترسAvailability:( هم
همواره را هاداده بتواند کلینت هر .بنویسد هم و بخواند )پذیری بخش تحملPartition Tolerance:( شبکه فیزیکی شدن تقسیم رغم به سیستم .کند کار خوبی مختلف،به هایقسمت به )ثباتConsistency:( های نسخه به همواره ها کلینت تمامی .باشند داشته دسترسی داده از یکسانی CA CP BigTable HyperTable HBase MongoDB TerraStore Scalaris BerkeleyDB MemcacheDB Redis AP Dynamo Voldemort Tokyo Cabinet KAI Cassandra SimpleDB CouchDB Riak RDBMSs ( , , )MySQLPostgresetc Aster Data Greenplum Vertica کنید انتخاب را مورد دو نظریهCAP
19.
:ای غیررابطه هایداده
پایگاه انواع 1یا کلید-مقدار .-Key Value 2یا سندگرا .-Document Oriented 3یا گرا ستون .-Column Oriented 4یا گراف بر مبتنی .-Graph based 5یا ترکیبی .Multi Model
20.
کلید-مقدار هایداده پایگاه هایجفت
صورت به مقادیر تمامی کلید-مقدار هایداده پایگاه در کلید یک دارای مقدار هر که صورت این به .هستند مقدار و کلید .است
21.
کلید-مقدار هایداده پایگاه
22.
سندگرا هایداده پایگاه یک
عنوان به ما داده سطرهای تمامی سندگرا هایداده پایگاه در ایمجموعه از شده تشکیل اسناد این تمامی و شوندمی شناخته سند .هستند کلید-مقدارها { _id:147963658, Name:'abc', Contact:{ Phone:'8984577', Email:'test@test.com' }, Address:{ address:'Fanavaran Street', City:'Tehran' } }
23.
سندگرا هایداده پایگاه
24.
گرا ستون هایداده
پایگاه ،سطر جای به ،ستون قالب در را محتوایش گرا ستون هایداده پایگاه را خود خاص هایستون داده از سطر هر به توانمی .نمایدمی ذخیره .داد نسبت
25.
گرا ستون هایداده
پایگاه
26.
گراف بر مبتنی
هایداده پایگاه که کندمی پیروی گراف تئوری از گراف بر مبتنی هایداده پایگاه توسط هاآن بین ارتباط و هاگره همان یا داده نقاط براساس هاداده .آیندمی در نمایش به ها یال
27.
گراف بر مبتنی
هایداده پایگاه
28.
ترکیبی هایداده پایگاه هاداده
و شوندنمی خاصی مدل به محدود هاداده پایگاه از نوع این .کرد ذخیره مختلفی انواع به توانمی را
29.
خلصه صورت به
هدوپ هدوپ توانمی را داده تحلیلی هایچهارچوب ترین بزرگ و ترینمهم از یکی .نامید که است هایی کتابخانه و افزارها نرم از ای مجموعه یا ورک فریم یک هدوپ در .میکند فراهم را شده توزیع های داده از عظیمی حجم پردازش کار و ساز واقعHadoopتا شده طراحی که کرد تشبیه عامل سیستم یک به توان می را مدیریت و پردازش مختلف های ماشین روی بر را ها داده از زیادی حجم بتواند از استفاده با توان می و نیست قیمت گران کامپیوترهای نیازمند هدوپ .کند .گیرد قرار استفاده مورد معمول و ارزان کامپیوترهای
30.
خلصه صورت به
هدوپ
31.
دوم فصل نگاشت،کاهش مدل MapReduce
32.
ای داده مدل یا
نگاشت،کاهشMapReduceهای داده پردازش برای نویسی برنامه مدل یک تواند می ،سادگی عین در مدل این .باشد می موازی و شده توزیع صورت به کلن ،مختلف های الگوریتم در ساختار پیچیدگی دلیل به زیرا .باشد پیچیده بسیار .شود می غیرممکن مدل این از استفاده با سازی پیاده توانایی یا نگاشت،کاهشMapReduceهای داده پردازش برای نویسی برنامه مدل یک تواند می ،سادگی عین در مدل این .باشد می موازی و شده توزیع صورت به کلن ،مختلف های الگوریتم در ساختار پیچیدگی دلیل به زیرا .باشد پیچیده بسیار .شود می غیرممکن مدل این از استفاده با سازی پیاده توانایی مدلMRبه را مسئله2اصلی فازMapوReduceاز هرکدام .کند می تقسیم توسط آنها نوع که باشد می خروجی و ورودی کلید-مقدارهای جفت دارای فازها این توابع بایست می نویس برنامه همچنین .گردد می تعیین نویس برنامهMapو Reduce.کند سازی پیاده هم را
33.
نگاه یک در
نگاشت،کاهش مدل
34.
یا نگاشت متدMap توسط
شده تعیین اندازه به را ورودی داده هدوپInput Splitو کندمی تقسیم یا نگاشت متد ،هاقسمت این از هرکدام برایMapنوشته کاربر توسط که ای .کندمی ایجاد را است شده اندازهInput Splitکل کارایی درJobمتعادل مقدار این اگر .دارد زیادی تأثیر ،باشد کم بسیار میزان این اگر اما .یافت خواهد افزایش موازی بار توازن باشد مدیریتTaskکارایی ورودی هایتکه و هاJob.دهدمی کاهش را میزان بهترینInput Split) داده بلوک یک اندازه به128.باشدمی (مگابایت یا تکه هر برای که زیراSplitمتد یکMap.شودمی ایجاد
35.
مفهومDLOداده محلی سازی
بهینه یا متد که کند می تلش هدوپMapپردازشی داده که کند اجرا ماشینی برروی را رفتن هدر به از موضوع این که زیرا .باشد داشته وجود سیستم همان برروی آن مفهوم این به .کند می جلوگیری شبکه ارزش با باند پهنایداده محلی سازی بهینه .شود می گفته متد اجرای هنگام در که صورت این بهMapآن توسط بایست می که هایی داده .است موجود محلی ماشین در گیرد قرار پردازش مورد متد متد در فقط مکانیزم این که کنید توجهMapمتد و دارد وجودReduceبه قادر .نیست اینکار انجام
36.
یا کاهش متدReduce یا
کاهش متد درReduceمتد خروجیMapشود می دریافت ورودی عنوان به متد یک اگر که صورت این بهReduceهمه خروجی باشیم داشتهMapبه ها متد یکReduce.شود می ارسال ماشین یک برروی متد چند اگر اماReduceهر خروجی ،شود اجراMapمتدهای بینReduce شود سازی پیاده نویس برنامه توسط بایست می نیز متد این .شود می کپی و توزیع برروی متد این خروجی نهایت در وHDFS.میگیرد قرار
37.
یا کاهش متدReduce برنامه
یکMapReduceکاهش متد یک با
38.
یا کاهش متدReduce برنامه
یکMapReduceکاهش متد چند با
39.
یا کاهش متدReduce برنامه
یکMapReduceکاهش متد بدون
40.
توابعCombiner های برنامهMapReduceو هستند
محدود کلستر در موجود باند پهنای لحاظ از وظایف بین ها داده تبادل میزان بایست میMapوReduce.رسد حداقل به تابع تا دهد می را امکان این کاربر به هدوپCombinerخروجی بررویMap متد ورودی و شود اجراReduceواقع در .کند پردازش رسیدن از پیش را بار چند تابع این که دهد نمی تضمین هدوپ ولی است سازی بهینه تابع این وظیفه هر خروجی بررویMap.شود می اجرا تابع واقع درCombinerتوابع خروجیMapکاری و کند می پردازش پیش را فاز مشابهReduce.دهد می انجام را
41.
عمل در کاهش
و نگاشت برنامه یک اجرای
42.
جاوا غیر هایزبان
در کاهش ،نگاشت مدل کتابخانه استفاده باHadoop Streamingهای برنامه توان میMapReduce از کتابخانه این .کرد سازی پیاده هدوپ برای جاوا از غیر نویسی برنامه زبان هر با را استاندارد جریان واسطUnixخروجی و ورودی که صورت این به کند می استفاده برنامهMapReduceطریق از بایست می شماStandard Inputیاstdinو Standard Outputیاstdout.شود پردازش و دریافت
43.
جاوا غیر هایزبان
در کاهش ،نگاشت مدل import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words: print '%st%s' % (word,1) زیر صورت به (کلمات شمارش پایتون)مثال نویسی برنامه زبان در نگاشت متد ساختار :است
44.
جاوا غیر هایزبان
در کاهش ،نگاشت مدل from operator import itemgetter import sys current_word = None current_count = 0 word = None for line in sys.stdin: line = line.strip() word, count = line.split('t', 1) try: count = int(count) except ValueError: continue if current_word == word: current_count += count else: if current_word: print '%st%s' % (current_word, current_count) current_count = count current_word = word if current_word == word: print '%st%s' % (current_word, current_count) زیر صورت به (کلمات شمارش پایتون)مثال نویسی برنامه زبان در کاهش متد ساختار :است
45.
جاوا غیر هایزبان
در کاهش ،نگاشت مدل فایل دو اجرای برای.mapper pyو.reducer py:میکنیم عمل زیر صورت به hadoop jar hadoop-*streaming*.jar -file /home/hduser/mapper.py -mapper /home/hduser/mapper.py -file /home/hduser/reducer.py -reducer /home/hduser/reducer.py -input /user/hduser/myinput/* -output /user/hduser/myoutput
46.
سوم فصل هدوپ شده
توزیع فایل سیستم HDFS
47.
مفهومHDFS با را بزرگ
بسیار های فایل تا است شده طراحی هدوپ شده توزیع فایل سیستم های فایل از منظور .کند اجرا معمولی کامپیوترهای برروی ،جریانی دسترسی الگوی بر بالغ حجمی ،بزرگ1۰۰از منظور و است پتابایت و ترابایت و گیگابایت ،مگابایت ها یک .است بار چند خواندن و بار یک نوشتن الگوی ، ها داده جریانی دسترسی الگوی های تحلیل آن برروی سپس و شود می کپی یا و آوری جمع معمول طور به دیتاست .شود می انجام مشخصی زمانی های بازه در مختلفی .نیست قدیمی و قیمت ارزان کامپیوترهای ،معمولی کامپیوترهای از منظور همچنین .نیست بال اعتماد قابلیت با قیمت گران سرورهای یا و کامپیوترها به نیاز هدوپ دارد وجود بازار که معمولی سرورهای و کامپیوترها برروی تا است شده طراحی هدوپ .کند کار کلی تعریفHDFS
48.
مفهومHDFS ●ها ده حدود
تاخیر)در با دسترسی نیازمند که هایی برنامه : کم تأخیر با دسترسی که باشید داشته دقت .باشد می (ثانیه میلیHDFSعملیاتی توان افزایش برای و بسیاربال سرعت نیازمند که هایی برنامه در آن از توان نمی و است شده طراحی .کرد استفاده هستند تاخیرکم ●هدوپ)به بلک یک از کوچکتر اندازه با فایلی به کوچک فایل یک : کوچک هایفایل فرض پیش صورت۶4خواندن عملیات اینکه دلیل به .شود می گفته (مگابایت نیازمندSeekاست داده های گره از زیادی های بازخوانی وHDFSکارایی .داشت نخواهد مناسبی ●در ها فایل : همزمان نوشتنHDFSبه شود نوشته تواند می نویسنده یک توسط تغییرات آنها در و بازکرد نویسنده چند توسط را فایل یک توان نمی که صورت این .شود پیشتیبانی آینده در است ممکن ویژگی این .کرد ایجاد زمانی چهHDFSنیست؟ مناسبی انتخاب
49.
مفهومHDFS ها بلک است داده
از حداقلی میزان بلک هر واقع در .باشد می بلک اندازه دارای دیسک هر کیلوبایت چند از معمول سیستم فایل های بلک .شود نوشته یا خوانده تواند می که .بنویسد و بخواند را ها فایل تواند می سیستم فایل که شود می تشکیل درHDFSدر بلک اندازه که تفاوت این با دارد وجود بلک مقوله همHDFSبزرگ فرض پیش صورت تر)به128ها فایل ،معمولی سیستم فایل مثل .باشد می (مگابایت درHDFSفایل برعکس .شوند می شکسته ثابت اندازه با مستقل های بلک به در فایل یک که زمانی ،معمولی های سیستمHDFS،باشد کوچکتر بلک یک اندازه از فایل یک مثال طور به .کند نمی اشغال را بلک یک فضای کل1در مگابایتیHDFS بلک یک در که128حجم شود می ذخیره مگابایتی1نه و کند می اشغال را مگابایت 128.مگابایت
50.
مفهومHDFS ها بلک در هافایل
های بلک لیست زیر دستورHDFS:دهدمی نشان را $ hdfs fsck / -files -blocks
51.
ورودی فایل ) داده
گره و نام گرهNameNodeوDataNode(
52.
) داده گره
و نام گرهNameNodeوDataNode(
53.
) داده گره
و نام گرهNameNodeوDataNode(
54.
فرمان خط واسط
با کارHDFS
55.
از خواندن عملیات
بررسیHDFS
56.
در نوشتن عملیات
بررسیHDFS
57.
چهارم فصل بند زمانYARN
58.
بند زمانYARN بند زمانYARNنسخه
در که باشد می هدوپ کلستر منابع مدیریت سیستم2 نویسی برنامه مدل سازی بهینه و توسعه برای هدوپMapReduce.شد ارائه مثل پردازشی موتورهای دیگر از سیستم این همچنینSparkوTezپشتیبانی ...و .کند می ساختارYARN
59.
بند زمانYARN در برنامه
اجرای ساختارYARN
60.
بند زمانYARN ها برنامه
سازیپیاده در هابرنامه سازیپیاده و ساخت در پیچیدگی وجود دلیل بهYARNاز استفاده با ،2 برای نخی تک نویسی برنامه همانند توانمی زیر ابزارYARN:نوشت برنامه ●Apache Slider: مثل آماده شده توزیع های برنامه انتقال برای افزاری نرمHBaseبررویYARN .باشد می دارا را گیری گزارش و مانیتورینگ همچون امکاناتی و باشد می ●Apache Twill: افزارهای نرم سازی پیاده و ساخت فرآیند که است هدوپ برای انتزاعی سطحی برروی شده توزیعYARN.کند می ساده را
61.
بند زمانYARN بندی زمان
اصول بندی زمانFIFO:
62.
بند زمانYARN بندی زمان
اصول بندی زمانCapacity: (فرض )پیش
63.
بند زمانYARN بندی زمان
اصول بندی زمانFair:
64.
<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager. scheduler.fair.FairScheduler</value> </property> بند زمانYARN بندی زمان
اصول تنظیمات در بند زمان نوع انتخاب برای- .yarn site xmlکلید بایست می : نمایید وارد را زیر
65.
پنجم فصل پردازشی موتور Apache
Spark
66.
پردازشی موتورApache Spark اولیه
تعریف برای که باشد می شده توزیع پردازش های پلتفرم از یکی اسپارک آپاچی .است شده طراحی (جریانی بال)داده سرعت با پردازشی عملیات اجرای
67.
پردازشی موتورApache Spark اسپارک
در برنامه اجرای روند
68.
lines = sc.textFile("README.md") lines.count() 127 lines.first() u'#
Apache Spark' پردازشی موتورApache Spark مفهومRDD یکRDDبه شبکه هایماشین برروی که است ایداده اقلم از مجموعه .میگیرد قرار شده توزیع صورت
69.
rdd = sc.textFile("s3://...") words
= rdd.flatMap(lambda x: x.split(" ")) result = words.map(lambda x: (x,1)).reduceByKey(lambda x, y: x + y) result.saveAsTextFile(outputFile) پردازشی موتورApache Spark مفهومRDDها داده بازیابی و ذخیره – پایتون در اسپارک از استفاده با کلمات تعداد شمارش مثال
70.
عمل در اسپارک
آپاچی با کار
71.
ششم فصل داده انباره Hive
72.
داده انبارهHive اولیه تعریف داده
انبارهHiveقابلیت ایجاد برایSQLساختارمند های داده برروی در شده ذخیرهHDFSتر ساده بیان به .آمد بوجودHiveبرای ابزاری دستورات تبدیلSQLعملیات بهMapReduce.باشد می
73.
داده انبارهHive مفهومMetastore منبعMetastoreهای ابرداده
برای سازی ذخیره فضایHive.باشد می Metastoreپیش طور کوچک)به ای رابطه دیتابیس یک خود درون در فرضApache Derby.شود می ذخیره آن در مربوطه های داده که دارد (
74.
با کارHiveعمل در
75.
هفتم فصل نویسی اسکریپت
زبان Pig
76.
نویسی اسکریپت زبانPig اولیه
تعریف نویسی اسکریپت زبانPigانتزاع از سطحیMapReduceبه که است طریق از داده پردازش های چرخه تولید تا دهد می اجازه نویس برنامه MapReduceنام به زبانی از استفاده با راPig Latinطور به .کند تولید برای اسکریپتی توان می مثالJoin.نوشت طریق این از ها داده کردن
77.
نویسی اسکریپت زبانPig از
استفاده با کلمات تعداد شمارش سازیپیاده مثالPig myinput = LOAD '/user/mytext.txt' USING TextLoader AS (line:CHARARRAY); words = FOREACH myinput GENERATE FLATTEN(TOKENIZE(REPLACE(LOWER(TRIM(line)),'[p{Punct},p{Cntrl}]',''))); grpd = GROUP words BY $0; cntd = FOREACH grpd GENERATE $0, COUNT($1); unmix = ORDER cntd BY $1 DESC, $0 ASC; DUMP unmix;
78.
با کارPigعمل در
79.
هدوپ آزمایشگاه
80.
پاسخ و پرسش
بخش
81.
پایان