معرفی و آموزش

معرفی هدوپ و آشنایی با معماری آن

HDFS، نقطه قوت هدوپ

همان‌طور که در بخش قبل گفته شد، در هادوپ از یک سیستم فایلی پیشرفته توزیع شده و مقاوم در برابر خطا استفاده شده که به HDFS معروف است. این سیستم‌فایلی قابلیت ذخیره حجم عظیمی از داده‌ها را فراهم مي‌كند، امکان افزایش مقیاس حجم ذخیره‌سازی را داشته و بدون از دست دادن داده‌ها، در برابر خطاها و اشکالات در تجهیزات اصلی ذخیره‌سازی مقاومت می‌کند. سیستم فایلی HDFS، حجم ذخیره‌سازی را روی کلاستر ساخته شده از كامپيوترهاي ارزان قیمت، با شکستن فایل‌هاي ورودی به بلوک‌هاي کوچک‌تر مدیریت کرده و هر بلوک را به‌صورت تکراری روی مخزنی از سرورها ذخیره مي‌کند. در حالت معمول، سیستم فایلی HDFS سه نسخه کامل از هر فایل را با کپی‌کردن بلوک‌هاي مختلف روی سرورهای مختلف در مخزن خود نگه‌داری مي‌کند.

همان‌طور که در شكل ۳ مشهود است، در صورتی که دو سرور در مجموعه سرورها دچار اختلال شوند، کل فایل مورد نظر باز هم قابل دستیابی است. در این حالت، HDFS از وجود چنین مشکلی آگاه شده و کپی‌هاي جدیدی از داده‌هاي قبلی ایجاد مي‌كند.

به این دلیل که کپی‌هاي مختلفی از بلوک‌ها روی یک کلاستر توسط HDFS ایجاد مي‌شود، کلاینت‌هاي بیشتری مي‌توانند بدون ایجاد گلوگاه به داده‌هاي سیستم دسترسی داشته باشند.
البته اکنون نیز، تکنیک‌هاي بسیاری برای تکراری‌سازی داده‌ها، به خصوص راهبردهاي استفاده‌شده در RAID وجود دارند‌. پس واقعاً به هادوپ و HDFS چه نیازی وجود دارد؟ مزیت HDFS نسبت به RAID در دو نکته خلاصه مي‌شود: نخست این‌که HDFS و هادوپ به سخت افزار خاصی نیاز ندارند و با استفاده از سرورهای آماده و موجود نیز قابل پیاده‌سازی و استفاده هستند و دوم این‌که قابلیت مقاومت در برابر خطاهای بیشتری از جمله خطاهای دیسک، نود، شبکه و رابط شبکه را دارند. با این حال، یک نکته منفی درباره استفاده از HDFS، استفاده سه برابری فضای ذخیره‌سازی به دليل نگه‌داری سه نسخه (البته این مقدار قابل تنظیم است) از داده‌ها است؛ که در بسیاری از موارد و با توجه به مزایای موجود در استفاده از HDFS، امری مقرون به صرفه است.

کاربردها

بسیاری از ایده‌هاي موجود در پس زمینه ایجاد و توسعه پروژه هدوپ ایده‌هايي است که مبداء آن‌ها به جامعه موتورهای جست‌وجو به خصوص گوگل و ياهو بازمی‌گردد. درواقع، این غول‌های جست‌وجو بودند که برای نخستين‌بار، با استفاده از تعداد بسیار زیادی از سرورهای ارزان قیمت، به كنكاش روی وب پرداختند و نتایج را روی فایل‌هاي محلی ذخیره‌کردند تا با استفاده از پرس‌و‌جوهای موازی، ایندکس‌هایی را برای فراهم‌کردن امکان جست‌وجو به وجود آوردند. با این‌که الگوریتم‌هاي جست‌وجوی این شرکت‌ها، الگوریتم‌هاي بسیار پیشرفته و بسیار محرمانه‌اي هستند، اما از یک مفهوم کلی با نام توزیع و تجمیع استفاده‌مي‌کنند که هم اکنون نیز برای کار با داده‌هاي بسیار بزرگ مورد استفاده قرار مي‌گیرد.
با استفاده از امکانات هدوپ ، سایت‌هاي بزرگ مي‌توانند الگوهای کاری و گشت و گذار کاربران را برداشت کرده و مورد تحلیل قرار دهند. این دقیقاً همان کاری است که یاهو با استفاده از یک کلاستر ده هزار هسته‌اي لینوکس روی سيصد میلیون بازدید ماهیانه انجام‌مي‌دهد تا محتوای مورد علاقه آن‌ها و داده‌هاي مرتبط را واکاوی کرده و در صفحه آغازین خود نمایش‌دهد. نرم‌افزار مشابهی نیز در زمینه نمایش تبلیغات مرتبط با سليقه‌هاي اشخاص در یاهو استفاده مي‌شود و هر تبلیغ مرتبط نمایش‌داده شده، درآمد بیشتری را عاید یاهو خواهد ساخت. در اصل یاهو سرمایه‌گذاری بسیاری برای توسعه نسخه اختصاصی هدوپ برای خود کرده بود و پس از دریافت نتیجه مناسب و گذشت زمانی اندک، تمام پیشرفت‌هاي حاصله را به جامعه اپن‌سورس توسعه‌دهنده هادوپ تقدیم کرد که هم اکنون نیز ادامه دارد.
جامعه علمی نیز با استفاده از امکانات هدوپ مي‌توانند پردازش‌هاي علمی بسیار سنگینی مانند تحلیل‌هاي هواشناسی، اخترشناسی و تحلیل واکنش‌هاي ذرات اتمی و شکل‌گیری‌هاي پروتئین‌هاي زیستی را در زمانی بسیار کوتاه به انجام برسانند. همچنین تحلیل‌گران امنیتی مي‌توانند با استفاده از این فناوری و از روی داده‌هايي مانند مبادلات تجاری، تماس‌هاي‌کاربران و مسافرت‌هاي آن‌ها، تهدید‌هاي خرابکارانه و امنیتی را ردگیری و آشکار كنند. فیس‌بوک نیز از هدوپ برای مدیریت چهل میلیارد عکس ذخیره شده در آن استفاده مي‌کند. جف هامرباکر، یکی از مهندسان سابق این شبکه‌اجتماعی مي‌گوید: «این همان روشی است که این شبکه اجتماعی تشخیص مي‌دهد که افراد چقدر با دیگران ارتباط نزدیکی دارند.»

big-data_choose-your-hadoop

شکل ۴ – تعدادی از شرکتهای فعال در زمینه ارائه خدمات تجاری هدوپ

شرکت اتودسک نیز برنامه‌اي برای ایجاد یک کاتالوگ آنلاین از مدل‌هاي مورد‌نیاز طراحان و سازندگان با استفاده از هادوپ دارد که هدف اصلی آن، تعیین آیتم‌هاي محبوب و فروش اطلاعات آن‌ها به تولید کنندگان است. گوگل و ‌آي‌بی‌ام نیز برنامه‌هايی اقتصادی برای آموزش هدوپ به دانشجویان در دانشگاه‌ها در نظر گرفته‌اند. موفقیت روز‌افزون هدوپ و همچنین اقبال شرکت‌هاي بزرگ و توسعه دهندگان مختلف به استفاده از آن باعث شده تا کریستوف بیس کیگلیا (از گوگل)، جف هامرباکر (از فیس‌بوک)،عمرو عواداله (از یاهو)‌ و مایک اولسون (از اوراکل) به همراه یکی از مسئولان سابق اورا کل دور هم جمع شوند و یک استارت‌آپ با نام Cloudera را برای پشتیبانی تجاری از هادوپ تأسیس كنند. این شرکت قصد دارد تا با فراهم‌کردن پشتیبانی تجاری مناسب از هدوپ، در رشد و توسعه آن به خصوص در زمینه‌هاي ژنتیک و تحلیل‌هاي مالی و اقتصادی نقش به‌سزایی داشته باشد. اماجالب‌ترین نکته در زمینه هدوپ، روی آوردن مایکروسافت و اوراکل به استفاده از آن و همچنین معرفی رقیبی جدی برای آن است که درباره مایکروسافت و برنامه‌هاي این شرکت در زمینه NoSQL به تفصیل بحث خواهیم کرد.

در شکل چهار تعدادی از شرکتهای معروف ارائه دهنده سرویسهای تجاری هدوپ نمایش داده شده اند.

۰

میانگین امتیاز

شما هم امتیاز بدهید!

امتیاز کاربران: ۳٫۸۳ ( ۹ رای)
برگهٔ قبلی 1 2

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا