SlideShare una empresa de Scribd logo
1 de 10
Descargar para leer sin conexión
‫با‬ ‫آشنایی‬Hadoop
‫رضایی‬‫ناصر‬
nasser.rezaei.novin@gmail.com
‫مقدمه‬
•‫کنیم‬ ‫می‬ ‫زندگی‬ ‫اطالعات‬‫عصر‬ ‫در‬ ‫ما‬.
•‫سال‬ ‫تا‬ ‫شود‬ ‫می‬ ‫بینی‬ ‫پیش‬2020‫به‬ ‫الکترونیکی‬ ‫صورت‬ ‫به‬ ‫شده‬ ‫ذخیره‬ ‫اطالعات‬ ‫ان‬‫ز‬‫می‬44‫زتابایت‬(‫زتابایت‬‫هر‬
1027
‫ابایت‬‫ر‬‫ت‬ ‫میلیارد‬ ‫یک‬ ‫یا‬ ‫بایت‬)‫برسد‬.
•Facebook‫میزبان‬240‫ماه‬‫هر‬ ‫که‬ ‫است‬‫تصویر‬ ‫میلیارد‬7‫پتابایت‬(7‫ابایت‬‫ر‬‫ت‬ ‫هزار‬)‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬.
•‫اینترنت‬ ‫آرشیو‬
1
‫حدود‬18.5‫است‬ ‫کرده‬ ‫سازی‬ ‫ذخیره‬ ‫را‬ ‫اطالعات‬ ‫پتابایت‬.
•Hadoop‫توسط‬ ‫که‬Apache‫است‬ ‫شده‬ ‫توزیع‬ ‫پردازش‬‫بر‬ ‫مبتنی‬ ‫سیستمی‬ ‫است‬ ‫شده‬ ‫سازی‬ ‫پیاده‬.
1
www.archive.org
‫ها‬ ‫داده‬ ‫تحلیل‬ ‫و‬ ‫سازی‬ ‫ذخیره‬
•‫ک‬ ‫رشد‬ ‫نرخ‬ ‫ها‬ ‫هارددیسک‬ ‫سازی‬ ‫ذخیره‬ ‫فضای‬ ‫افزایش‬ ‫به‬ ‫نسبت‬ ‫ها‬ ‫هارددیسک‬ ‫خواندن‬ ‫سرعت‬ ‫افزایش‬‫متری‬
‫است‬ ‫داشته‬.
•‫است‬ ‫شده‬‫بیشتر‬ ‫بسیار‬ ‫گذشته‬ ‫نسبت‬ ‫به‬ ‫دیسک‬ ‫اطالعات‬ ‫تمام‬ ‫خواندن‬ ‫ای‬‫ر‬‫ب‬ ‫نیاز‬ ‫مورد‬ ‫زمان‬ ‫امروزه‬.‫حدود‬ ‫از‬5‫سال‬ ‫در‬ ‫دقیقه‬1990‫تا‬2.5‫ای‬‫ر‬‫ب‬ ‫ساعت‬
‫امروزی‬ ‫معمولی‬ ‫های‬ ‫هاردیسک‬.
•‫است‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫سرعت‬ ‫افزایش‬ ‫ای‬‫ر‬‫ب‬ ‫همزمان‬ ‫صورت‬ ‫به‬ ‫دیسک‬ ‫چند‬ ‫از‬ ‫استفاده‬ ‫شده‬ ‫ارائه‬ ‫راهکار‬.
‫همزمان‬ ‫خواندن‬ ‫چالش‬ ‫دو‬
•1-‫اری‬‫ز‬‫اف‬ ‫سخت‬ ‫نقص‬
•‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬‫نیز‬ ‫افزاری‬ ‫سخت‬ ‫نقص‬ ‫احتمال‬ ‫استفاده‬ ‫مورد‬ ‫افزارهای‬ ‫سخت‬ ‫تعداد‬ ‫افزایش‬ ‫با‬.
•‫های‬ ‫دیسک‬ ‫به‬ ‫شبیه‬ ‫چیزی‬ ،‫تعمدی‬ ‫افزونگی‬ ‫همان‬ ‫یا‬ ‫ها‬ ‫داده‬ ‫از‬ ‫کپی‬ ‫چند‬ ‫از‬ ‫استفاده‬ ‫شده‬ ‫ارائه‬ ‫حل‬ ‫راه‬RAID‫است‬.
•Hadoop‫از‬HDFS
1
‫کند‬ ‫می‬ ‫استفاده‬.
•2-‫شوند‬ ‫ادغام‬‫یکدیگر‬ ‫با‬ ‫طریقی‬ ‫به‬ ‫ها‬ ‫داده‬ ‫که‬ ‫آنند‬ ‫نیازمند‬ ‫تحلیلی‬ ‫های‬ ‫پردازش‬ ‫اغلب‬
•MapReduce‫محاسب‬ ‫به‬ ‫دیسک‬ ‫روی‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫های‬ ‫عملیات‬ ‫از‬ ‫را‬ ‫مساله‬ ‫این‬ ‫که‬ ‫کند‬ ‫می‬ ‫استفاده‬ ‫انتزاعی‬ ‫مدل‬ ‫از‬‫ه‬
‫کلید‬ ‫از‬ ‫ای‬ ‫مجموعه‬-‫کند‬ ‫می‬ ‫تبدیل‬ ‫ها‬ ‫مقدار‬.MapReduce‫تشکیل‬ ‫شوند‬ ‫می‬ ‫ا‬‫ر‬‫اج‬ ‫هم‬ ‫دنبال‬ ‫به‬ ‫موارد‬‫اکثر‬ ‫در‬ ‫که‬ ‫عملیات‬ ‫دو‬ ‫از‬
‫است‬ ‫شده‬:Map‫و‬Reduce.
1
Hadoop Distributed FileSystem
‫ای‬ ‫دسته‬ ‫پردازش‬
•MapReduce‫کند‬ ‫می‬ ‫استفاده‬ ‫ای‬ ‫دسته‬ ‫پردازش‬ ‫مدل‬ ‫از‬.‫تمام‬ ‫روی‬ ‫را‬ ‫جو‬ ‫و‬ ‫پرس‬ ‫یک‬dataset‫و‬ ‫دهد‬ ‫می‬ ‫انجام‬
‫رسد‬ ‫می‬ ‫نتیجه‬ ‫به‬ ‫قبولی‬ ‫قابل‬ ‫زمان‬ ‫در‬.
•‫پردازش‬ ‫ای‬ ‫دسته‬ ‫ذات‬ ‫دلیل‬ ‫به‬MapReduce‫نیست‬ ‫مناسب‬ ‫ای‬ ‫محاوره‬ ‫های‬ ‫کاربرد‬ ‫ای‬‫ر‬‫ب‬ ،.
‫توسعه‬Hadoop
•‫آفالین‬ ‫دلیل‬ ‫به‬(‫ای‬ ‫محاوره‬‫غیر‬)‫بودن‬Hadoop‫توسط‬ ‫زیادی‬ ‫های‬ ‫توسعه‬ ،Apache‫آن‬ ‫روی‬ ‫ها‬ ‫سازمان‬‫سایر‬ ‫و‬
‫است‬ ‫شده‬ ‫انجام‬.
•‫دیتابیس‬HBase‫کند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫آنالین‬ ‫دستیابی‬ ‫که‬.‫کلید‬ ‫مدل‬ ‫از‬-‫دا‬ ‫سازی‬ ‫ذخیره‬ ‫ای‬‫ر‬‫ب‬ ‫که‬ ‫کند‬ ‫می‬ ‫استفاده‬ ‫مقدار‬‫از‬ ‫ها‬ ‫ده‬
HDFS‫کند‬ ‫می‬ ‫استفاده‬.HBase‫برد‬ ‫می‬ ‫بهره‬ ‫ای‬ ‫دسته‬ ‫پردازش‬ ‫از‬ ‫هم‬ ‫و‬ ‫ها‬ ‫رکورد‬ ‫به‬ ‫آنالین‬ ‫دستیابی‬ ‫از‬ ‫هم‬.
•YARN
1
:‫کالستر‬ ‫روی‬ ‫ا‬‫ر‬‫اج‬ ‫امکان‬ ‫شده‬ ‫توزیع‬ ‫های‬ ‫افزار‬ ‫نرم‬ ‫به‬ ‫که‬ ‫است‬‫کالستر‬ ‫مدیریت‬ ‫سیستم‬Hadoop‫دهد‬ ‫می‬ ‫را‬.
1
Yet Another Resource Negotiator
‫با‬ ‫شده‬ ‫سازگار‬ ‫پردازشی‬ ‫الگوهای‬Hadoop
•SQL‫ای‬ ‫محاوره‬
•‫توزیع‬ ‫با‬MapReduce‫فعال‬ ‫اختصاصی‬ ‫جوی‬ ‫و‬ ‫جست‬ ‫موتور‬ ‫از‬ ‫استفاده‬ ‫و‬(‫مثل‬Impla)‫از‬ ‫استفاده‬ ‫یا‬Hive‫روی‬Tez.
•‫ای‬ ‫محاوره‬ ‫پردازش‬
•‫اند‬ ‫شونده‬ ‫ار‬‫ر‬‫تک‬ ‫ذاتا‬ ‫ماشینی‬ ‫یادگیری‬ ‫های‬ ‫الگوریتم‬ ‫مانند‬ ‫ها‬ ‫الگوریتم‬ ‫از‬ ‫خیلی‬.‫صو‬ ‫در‬ ‫ها‬ ‫آن‬ ‫کارایی‬ ‫این‬‫ر‬‫بناب‬‫دسته‬‫هر‬ ‫که‬ ‫رتی‬
‫کند‬ ‫می‬ ‫پیدا‬ ‫گیری‬ ‫چشم‬ ‫افزایش‬ ،‫بگیرد‬ ‫ار‬‫ر‬‫ق‬ ‫حافظه‬ ‫در‬ ‫نیاز‬ ‫مورد‬ ‫داده‬.Spark‫کند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫قابلیت‬ ‫این‬.
•‫جریانی‬ ‫پردازش‬
1
‫مثل‬ ‫جریانی‬ ‫های‬ ‫سیستم‬Storm‫و‬Spark Streaming‫و‬Samza‫کنند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫بالدرنگ‬ ‫شده‬ ‫توزیع‬ ‫محاسبات‬ ‫امکان‬ ،.
•‫جو‬ ‫و‬ ‫جست‬
•‫جوی‬ ‫و‬ ‫جست‬ ‫پلتفرم‬Solr‫کالستر‬ ‫یک‬ ‫روی‬ ‫تواند‬ ‫می‬Hadoop‫شود‬ ‫ا‬‫ر‬‫اج‬.
1
Stream Processing
‫و‬ ‫ای‬ ‫رابطه‬ ‫داده‬ ‫پایگاه‬MapReduce
1
Atomicity, Consistency, Isolation, Durability
MapReduce ‫پایگاه‬‫ای‬ ‫رابطه‬ ‫داده‬
‫پتابایت‬ ‫چند‬ ‫گیگابایت‬ ‫چند‬ ‫اندازه‬‫داده‬
‫دسته‬‫ای‬ ‫محاوره‬‫ای‬ ‫دسته‬ ‫و‬ ‫ای‬ ‫دستیابی‬
،‫بار‬ ‫یک‬ ‫نوشتن‬‫تعدا‬ ‫به‬ ‫خواندن‬‫زیاد‬ ‫د‬ ‫زیاد‬ ‫تعداد‬ ‫به‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫رسانی‬ ‫بروز‬
‫محدودیت‬ ‫بدون‬ ACID
1
‫ها‬ ‫اکنش‬‫ر‬‫ت‬
‫قالب‬‫خواندن‬ ‫هنگام‬ ‫بندی‬ ‫بندی‬ ‫قالب‬‫نوشتن‬ ‫هنگام‬ ‫ساختار‬
‫کم‬ ‫زیاد‬ ‫جامعیت‬
‫خطی‬ ‫غیر‬‫خطی‬ ‫اندازه‬‫تغییر‬
‫های‬ ‫سیستم‬Hadoop‫مثل‬Hive‫ان‬ ‫رفته‬ ‫پیش‬ ‫شدن‬ ‫ای‬ ‫محاوره‬ ‫سمت‬ ‫به‬‫بیشتر‬ ‫ها‬ ‫اکنش‬‫ر‬‫ت‬ ‫و‬ ‫ایندکس‬ ‫افزودن‬ ‫با‬‫د‬.
‫افزونگی‬ ‫و‬ ‫یافتگی‬ ‫ساختار‬
•‫یافته‬ ‫ساخت‬ ‫های‬ ‫داده‬‫مثل‬XML‫حوزه‬ ‫در‬ ‫هستند‬ ‫ای‬ ‫شده‬ ‫تعیین‬ ‫پیش‬ ‫از‬ ‫قالب‬ ‫دارای‬ ‫که‬RDBMS‫می‬ ‫ار‬‫ر‬‫ق‬
‫ند‬‫ر‬‫گی‬.
•‫یافته‬ ‫ساخت‬ ‫نیم‬ ‫های‬ ‫داده‬‫ن‬ ‫قدرتمند‬ ‫ها‬ ‫ساختار‬ ‫روی‬ ‫محدودیت‬ ‫اما‬ ‫باشند‬ ‫ساختاری‬ ‫دارای‬ ‫است‬ ‫ممکن‬‫یست‬
‫ها‬ ‫گسترده‬ ‫صفحه‬ ‫مثل‬.
•‫ساختار‬ ‫بدون‬ ‫های‬ ‫داده‬‫تصاویر‬ ‫یا‬ ‫ساده‬ ‫متنی‬ ‫های‬ ‫فایل‬ ‫مثل‬.
•Hadoop‫برخالف‬ ‫و‬ ‫کند‬ ‫می‬ ‫مدیریت‬ ‫را‬ ‫ساختار‬ ‫بدون‬ ‫و‬ ‫یافته‬ ‫ساخت‬ ‫نیم‬ ‫های‬ ‫داده‬ ‫خوبی‬ ‫به‬RDBMS‫روی‬ ‫سنگینی‬ ‫بارگذاری‬
‫ندارد‬ ‫ها‬ ‫داده‬.
•‫شود‬ ‫می‬ ‫رعایت‬ ‫ها‬ ‫داده‬ ‫پایگاه‬ ‫افزونگی‬ ‫حذف‬ ‫و‬ ‫کردن‬ ‫کم‬ ‫در‬ ‫معموال‬ ‫سازی‬ ‫نرمال‬.‫در‬ ‫که‬ ‫صورتی‬ ‫در‬Hadoop
‫آوریم‬ ‫می‬ ‫پدید‬ ‫عامدانه‬ ‫افزونگی‬ ،‫ها‬ ‫داده‬ ‫سریع‬ ‫خواندن‬ ‫و‬ ‫محلی‬‫غیر‬ ‫دسترسی‬ ‫از‬ ‫جلوگیری‬ ‫ای‬‫ر‬‫ب‬.
•‫در‬Hadoop‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬ ‫خطی‬ ‫صورت‬ ‫به‬ ‫ها‬ ‫آن‬ ‫پردازش‬ ‫و‬ ‫ها‬ ‫داده‬.‫ای‬‫ر‬‫ب‬ ‫که‬ ‫صورتی‬ ‫در‬SQL‫خطی‬‫غیر‬
‫است‬.
‫منابع‬
• White, Tom. Hadoop: The definitive guide, 4th edition. " O'Reilly Media, Inc.", 2015.

Más contenido relacionado

Similar a آشنایی با Hadoop

توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...Web Standards School
 
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیرازIntroduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیرازMobin Ranjbar
 
Image processing
Image processingImage processing
Image processingsoheyl arab
 
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.iraminnezarat
 
Big Data and select suitable tools
Big Data and select suitable toolsBig Data and select suitable tools
Big Data and select suitable toolsMeghdad Hatami
 
Big Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing EnvironmentsBig Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing EnvironmentsFarzad Nozarian
 
Introduction to oracle
Introduction to oracleIntroduction to oracle
Introduction to oracleEhsan Hamzei
 

Similar a آشنایی با Hadoop (20)

بیگ دیتا
بیگ دیتابیگ دیتا
بیگ دیتا
 
Redis.
Redis.Redis.
Redis.
 
Raid
RaidRaid
Raid
 
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
 
how upgrade ceph
how upgrade cephhow upgrade ceph
how upgrade ceph
 
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیرازIntroduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
 
Image processing
Image processingImage processing
Image processing
 
how enable ceph dashboard
how enable  ceph dashboardhow enable  ceph dashboard
how enable ceph dashboard
 
IranOUG_Oracle_Multitenant
IranOUG_Oracle_MultitenantIranOUG_Oracle_Multitenant
IranOUG_Oracle_Multitenant
 
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir
 
Big Data and select suitable tools
Big Data and select suitable toolsBig Data and select suitable tools
Big Data and select suitable tools
 
rbdmap in ceph
rbdmap in ceph rbdmap in ceph
rbdmap in ceph
 
Pg autoscaling in ceph
Pg autoscaling in  cephPg autoscaling in  ceph
Pg autoscaling in ceph
 
Rbdmap ceph realease 0.2
Rbdmap ceph realease 0.2Rbdmap ceph realease 0.2
Rbdmap ceph realease 0.2
 
Big Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing EnvironmentsBig Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing Environments
 
cloud services for libraries
cloud services for librariescloud services for libraries
cloud services for libraries
 
Introduction to oracle
Introduction to oracleIntroduction to oracle
Introduction to oracle
 
Disk DBMS
Disk DBMSDisk DBMS
Disk DBMS
 
Oracle ADF Presentation
Oracle ADF PresentationOracle ADF Presentation
Oracle ADF Presentation
 
Openstack Overview
Openstack Overview Openstack Overview
Openstack Overview
 

آشنایی با Hadoop

  • 2. ‫مقدمه‬ •‫کنیم‬ ‫می‬ ‫زندگی‬ ‫اطالعات‬‫عصر‬ ‫در‬ ‫ما‬. •‫سال‬ ‫تا‬ ‫شود‬ ‫می‬ ‫بینی‬ ‫پیش‬2020‫به‬ ‫الکترونیکی‬ ‫صورت‬ ‫به‬ ‫شده‬ ‫ذخیره‬ ‫اطالعات‬ ‫ان‬‫ز‬‫می‬44‫زتابایت‬(‫زتابایت‬‫هر‬ 1027 ‫ابایت‬‫ر‬‫ت‬ ‫میلیارد‬ ‫یک‬ ‫یا‬ ‫بایت‬)‫برسد‬. •Facebook‫میزبان‬240‫ماه‬‫هر‬ ‫که‬ ‫است‬‫تصویر‬ ‫میلیارد‬7‫پتابایت‬(7‫ابایت‬‫ر‬‫ت‬ ‫هزار‬)‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬. •‫اینترنت‬ ‫آرشیو‬ 1 ‫حدود‬18.5‫است‬ ‫کرده‬ ‫سازی‬ ‫ذخیره‬ ‫را‬ ‫اطالعات‬ ‫پتابایت‬. •Hadoop‫توسط‬ ‫که‬Apache‫است‬ ‫شده‬ ‫توزیع‬ ‫پردازش‬‫بر‬ ‫مبتنی‬ ‫سیستمی‬ ‫است‬ ‫شده‬ ‫سازی‬ ‫پیاده‬. 1 www.archive.org
  • 3. ‫ها‬ ‫داده‬ ‫تحلیل‬ ‫و‬ ‫سازی‬ ‫ذخیره‬ •‫ک‬ ‫رشد‬ ‫نرخ‬ ‫ها‬ ‫هارددیسک‬ ‫سازی‬ ‫ذخیره‬ ‫فضای‬ ‫افزایش‬ ‫به‬ ‫نسبت‬ ‫ها‬ ‫هارددیسک‬ ‫خواندن‬ ‫سرعت‬ ‫افزایش‬‫متری‬ ‫است‬ ‫داشته‬. •‫است‬ ‫شده‬‫بیشتر‬ ‫بسیار‬ ‫گذشته‬ ‫نسبت‬ ‫به‬ ‫دیسک‬ ‫اطالعات‬ ‫تمام‬ ‫خواندن‬ ‫ای‬‫ر‬‫ب‬ ‫نیاز‬ ‫مورد‬ ‫زمان‬ ‫امروزه‬.‫حدود‬ ‫از‬5‫سال‬ ‫در‬ ‫دقیقه‬1990‫تا‬2.5‫ای‬‫ر‬‫ب‬ ‫ساعت‬ ‫امروزی‬ ‫معمولی‬ ‫های‬ ‫هاردیسک‬. •‫است‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫سرعت‬ ‫افزایش‬ ‫ای‬‫ر‬‫ب‬ ‫همزمان‬ ‫صورت‬ ‫به‬ ‫دیسک‬ ‫چند‬ ‫از‬ ‫استفاده‬ ‫شده‬ ‫ارائه‬ ‫راهکار‬.
  • 4. ‫همزمان‬ ‫خواندن‬ ‫چالش‬ ‫دو‬ •1-‫اری‬‫ز‬‫اف‬ ‫سخت‬ ‫نقص‬ •‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬‫نیز‬ ‫افزاری‬ ‫سخت‬ ‫نقص‬ ‫احتمال‬ ‫استفاده‬ ‫مورد‬ ‫افزارهای‬ ‫سخت‬ ‫تعداد‬ ‫افزایش‬ ‫با‬. •‫های‬ ‫دیسک‬ ‫به‬ ‫شبیه‬ ‫چیزی‬ ،‫تعمدی‬ ‫افزونگی‬ ‫همان‬ ‫یا‬ ‫ها‬ ‫داده‬ ‫از‬ ‫کپی‬ ‫چند‬ ‫از‬ ‫استفاده‬ ‫شده‬ ‫ارائه‬ ‫حل‬ ‫راه‬RAID‫است‬. •Hadoop‫از‬HDFS 1 ‫کند‬ ‫می‬ ‫استفاده‬. •2-‫شوند‬ ‫ادغام‬‫یکدیگر‬ ‫با‬ ‫طریقی‬ ‫به‬ ‫ها‬ ‫داده‬ ‫که‬ ‫آنند‬ ‫نیازمند‬ ‫تحلیلی‬ ‫های‬ ‫پردازش‬ ‫اغلب‬ •MapReduce‫محاسب‬ ‫به‬ ‫دیسک‬ ‫روی‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫های‬ ‫عملیات‬ ‫از‬ ‫را‬ ‫مساله‬ ‫این‬ ‫که‬ ‫کند‬ ‫می‬ ‫استفاده‬ ‫انتزاعی‬ ‫مدل‬ ‫از‬‫ه‬ ‫کلید‬ ‫از‬ ‫ای‬ ‫مجموعه‬-‫کند‬ ‫می‬ ‫تبدیل‬ ‫ها‬ ‫مقدار‬.MapReduce‫تشکیل‬ ‫شوند‬ ‫می‬ ‫ا‬‫ر‬‫اج‬ ‫هم‬ ‫دنبال‬ ‫به‬ ‫موارد‬‫اکثر‬ ‫در‬ ‫که‬ ‫عملیات‬ ‫دو‬ ‫از‬ ‫است‬ ‫شده‬:Map‫و‬Reduce. 1 Hadoop Distributed FileSystem
  • 5. ‫ای‬ ‫دسته‬ ‫پردازش‬ •MapReduce‫کند‬ ‫می‬ ‫استفاده‬ ‫ای‬ ‫دسته‬ ‫پردازش‬ ‫مدل‬ ‫از‬.‫تمام‬ ‫روی‬ ‫را‬ ‫جو‬ ‫و‬ ‫پرس‬ ‫یک‬dataset‫و‬ ‫دهد‬ ‫می‬ ‫انجام‬ ‫رسد‬ ‫می‬ ‫نتیجه‬ ‫به‬ ‫قبولی‬ ‫قابل‬ ‫زمان‬ ‫در‬. •‫پردازش‬ ‫ای‬ ‫دسته‬ ‫ذات‬ ‫دلیل‬ ‫به‬MapReduce‫نیست‬ ‫مناسب‬ ‫ای‬ ‫محاوره‬ ‫های‬ ‫کاربرد‬ ‫ای‬‫ر‬‫ب‬ ،.
  • 6. ‫توسعه‬Hadoop •‫آفالین‬ ‫دلیل‬ ‫به‬(‫ای‬ ‫محاوره‬‫غیر‬)‫بودن‬Hadoop‫توسط‬ ‫زیادی‬ ‫های‬ ‫توسعه‬ ،Apache‫آن‬ ‫روی‬ ‫ها‬ ‫سازمان‬‫سایر‬ ‫و‬ ‫است‬ ‫شده‬ ‫انجام‬. •‫دیتابیس‬HBase‫کند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫آنالین‬ ‫دستیابی‬ ‫که‬.‫کلید‬ ‫مدل‬ ‫از‬-‫دا‬ ‫سازی‬ ‫ذخیره‬ ‫ای‬‫ر‬‫ب‬ ‫که‬ ‫کند‬ ‫می‬ ‫استفاده‬ ‫مقدار‬‫از‬ ‫ها‬ ‫ده‬ HDFS‫کند‬ ‫می‬ ‫استفاده‬.HBase‫برد‬ ‫می‬ ‫بهره‬ ‫ای‬ ‫دسته‬ ‫پردازش‬ ‫از‬ ‫هم‬ ‫و‬ ‫ها‬ ‫رکورد‬ ‫به‬ ‫آنالین‬ ‫دستیابی‬ ‫از‬ ‫هم‬. •YARN 1 :‫کالستر‬ ‫روی‬ ‫ا‬‫ر‬‫اج‬ ‫امکان‬ ‫شده‬ ‫توزیع‬ ‫های‬ ‫افزار‬ ‫نرم‬ ‫به‬ ‫که‬ ‫است‬‫کالستر‬ ‫مدیریت‬ ‫سیستم‬Hadoop‫دهد‬ ‫می‬ ‫را‬. 1 Yet Another Resource Negotiator
  • 7. ‫با‬ ‫شده‬ ‫سازگار‬ ‫پردازشی‬ ‫الگوهای‬Hadoop •SQL‫ای‬ ‫محاوره‬ •‫توزیع‬ ‫با‬MapReduce‫فعال‬ ‫اختصاصی‬ ‫جوی‬ ‫و‬ ‫جست‬ ‫موتور‬ ‫از‬ ‫استفاده‬ ‫و‬(‫مثل‬Impla)‫از‬ ‫استفاده‬ ‫یا‬Hive‫روی‬Tez. •‫ای‬ ‫محاوره‬ ‫پردازش‬ •‫اند‬ ‫شونده‬ ‫ار‬‫ر‬‫تک‬ ‫ذاتا‬ ‫ماشینی‬ ‫یادگیری‬ ‫های‬ ‫الگوریتم‬ ‫مانند‬ ‫ها‬ ‫الگوریتم‬ ‫از‬ ‫خیلی‬.‫صو‬ ‫در‬ ‫ها‬ ‫آن‬ ‫کارایی‬ ‫این‬‫ر‬‫بناب‬‫دسته‬‫هر‬ ‫که‬ ‫رتی‬ ‫کند‬ ‫می‬ ‫پیدا‬ ‫گیری‬ ‫چشم‬ ‫افزایش‬ ،‫بگیرد‬ ‫ار‬‫ر‬‫ق‬ ‫حافظه‬ ‫در‬ ‫نیاز‬ ‫مورد‬ ‫داده‬.Spark‫کند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫قابلیت‬ ‫این‬. •‫جریانی‬ ‫پردازش‬ 1 ‫مثل‬ ‫جریانی‬ ‫های‬ ‫سیستم‬Storm‫و‬Spark Streaming‫و‬Samza‫کنند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫بالدرنگ‬ ‫شده‬ ‫توزیع‬ ‫محاسبات‬ ‫امکان‬ ،. •‫جو‬ ‫و‬ ‫جست‬ •‫جوی‬ ‫و‬ ‫جست‬ ‫پلتفرم‬Solr‫کالستر‬ ‫یک‬ ‫روی‬ ‫تواند‬ ‫می‬Hadoop‫شود‬ ‫ا‬‫ر‬‫اج‬. 1 Stream Processing
  • 8. ‫و‬ ‫ای‬ ‫رابطه‬ ‫داده‬ ‫پایگاه‬MapReduce 1 Atomicity, Consistency, Isolation, Durability MapReduce ‫پایگاه‬‫ای‬ ‫رابطه‬ ‫داده‬ ‫پتابایت‬ ‫چند‬ ‫گیگابایت‬ ‫چند‬ ‫اندازه‬‫داده‬ ‫دسته‬‫ای‬ ‫محاوره‬‫ای‬ ‫دسته‬ ‫و‬ ‫ای‬ ‫دستیابی‬ ،‫بار‬ ‫یک‬ ‫نوشتن‬‫تعدا‬ ‫به‬ ‫خواندن‬‫زیاد‬ ‫د‬ ‫زیاد‬ ‫تعداد‬ ‫به‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫رسانی‬ ‫بروز‬ ‫محدودیت‬ ‫بدون‬ ACID 1 ‫ها‬ ‫اکنش‬‫ر‬‫ت‬ ‫قالب‬‫خواندن‬ ‫هنگام‬ ‫بندی‬ ‫بندی‬ ‫قالب‬‫نوشتن‬ ‫هنگام‬ ‫ساختار‬ ‫کم‬ ‫زیاد‬ ‫جامعیت‬ ‫خطی‬ ‫غیر‬‫خطی‬ ‫اندازه‬‫تغییر‬ ‫های‬ ‫سیستم‬Hadoop‫مثل‬Hive‫ان‬ ‫رفته‬ ‫پیش‬ ‫شدن‬ ‫ای‬ ‫محاوره‬ ‫سمت‬ ‫به‬‫بیشتر‬ ‫ها‬ ‫اکنش‬‫ر‬‫ت‬ ‫و‬ ‫ایندکس‬ ‫افزودن‬ ‫با‬‫د‬.
  • 9. ‫افزونگی‬ ‫و‬ ‫یافتگی‬ ‫ساختار‬ •‫یافته‬ ‫ساخت‬ ‫های‬ ‫داده‬‫مثل‬XML‫حوزه‬ ‫در‬ ‫هستند‬ ‫ای‬ ‫شده‬ ‫تعیین‬ ‫پیش‬ ‫از‬ ‫قالب‬ ‫دارای‬ ‫که‬RDBMS‫می‬ ‫ار‬‫ر‬‫ق‬ ‫ند‬‫ر‬‫گی‬. •‫یافته‬ ‫ساخت‬ ‫نیم‬ ‫های‬ ‫داده‬‫ن‬ ‫قدرتمند‬ ‫ها‬ ‫ساختار‬ ‫روی‬ ‫محدودیت‬ ‫اما‬ ‫باشند‬ ‫ساختاری‬ ‫دارای‬ ‫است‬ ‫ممکن‬‫یست‬ ‫ها‬ ‫گسترده‬ ‫صفحه‬ ‫مثل‬. •‫ساختار‬ ‫بدون‬ ‫های‬ ‫داده‬‫تصاویر‬ ‫یا‬ ‫ساده‬ ‫متنی‬ ‫های‬ ‫فایل‬ ‫مثل‬. •Hadoop‫برخالف‬ ‫و‬ ‫کند‬ ‫می‬ ‫مدیریت‬ ‫را‬ ‫ساختار‬ ‫بدون‬ ‫و‬ ‫یافته‬ ‫ساخت‬ ‫نیم‬ ‫های‬ ‫داده‬ ‫خوبی‬ ‫به‬RDBMS‫روی‬ ‫سنگینی‬ ‫بارگذاری‬ ‫ندارد‬ ‫ها‬ ‫داده‬. •‫شود‬ ‫می‬ ‫رعایت‬ ‫ها‬ ‫داده‬ ‫پایگاه‬ ‫افزونگی‬ ‫حذف‬ ‫و‬ ‫کردن‬ ‫کم‬ ‫در‬ ‫معموال‬ ‫سازی‬ ‫نرمال‬.‫در‬ ‫که‬ ‫صورتی‬ ‫در‬Hadoop ‫آوریم‬ ‫می‬ ‫پدید‬ ‫عامدانه‬ ‫افزونگی‬ ،‫ها‬ ‫داده‬ ‫سریع‬ ‫خواندن‬ ‫و‬ ‫محلی‬‫غیر‬ ‫دسترسی‬ ‫از‬ ‫جلوگیری‬ ‫ای‬‫ر‬‫ب‬. •‫در‬Hadoop‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬ ‫خطی‬ ‫صورت‬ ‫به‬ ‫ها‬ ‫آن‬ ‫پردازش‬ ‫و‬ ‫ها‬ ‫داده‬.‫ای‬‫ر‬‫ب‬ ‫که‬ ‫صورتی‬ ‫در‬SQL‫خطی‬‫غیر‬ ‫است‬.
  • 10. ‫منابع‬ • White, Tom. Hadoop: The definitive guide, 4th edition. " O'Reilly Media, Inc.", 2015.