هدوپ و فناوریهای مرتبط

شروع کار با هدوپ : نصب و راه اندازی در چند دقیقه

یکی از سوالاتی که به کرات از بنده پرسیده شده است (از طریق ایمیل، شفاهی یا از طریق سایت) این است که چگونه هدوپ را برای بار اول نصب کنیم و کار با آنرا شروع کنیم. تصمیم گرفتم برای این موضوع که احتمالاً نیاز خیلی از علاقه مندان به مباحث کلان داده هم باشد بخصوص عزیزانی که ابتدای راه قرار دارند و ممکن است برای نصب و راه اندازی هدوپ با چالشهایی مواجه شوند و مرجعی برای رفع آن و راهنمایی مناسب پیدا نکنند، توضیحاتی را به صورت مستند ارائه کنم.

راه معمول نصب هدوپ ، این است که یک نسخه لینوکس داشته باشید و کتابخانه هدوپ را روی آن نصب کنید و پیکربندی ها و تنظیمات لازم را انجام دهید. در مرحله بعد همین فرآیند را برای سایر ابزار و کتابخانه های جانبی هدوپ تکرار کنید تا زمانی که همه چیز نصب و آماده استفاده شود …. فرآیندی که برای یک کاربر تازه کار ممکن است گیج کننده و وقت گیر باشد .

توصیه بنده برای نصب راحت و سریع هدوپ و شروع کار با آن بدون درگیر شدن با جزییات نصب و پیکربندی ، یکی از سه گزینه زیر است :

الف . نصب تصاویر (Image) آماده شده هدوپ روی ماشین های مجازی

راحت ترین راه برای نصب سریع هدوپ استفاده از تصاویر آماده شده شرکتهای معتبر ارائه کننده خدمات هدوپ است . کافیست یک نرم افزار شبیه سازی ماشین مجازی مانند VMWare یا VirtualBox را نصب کنید (بنده از VirtualBox استفاده می کنم که به نظرم برای اجرای صرف هدوپ سبکتر است)، تصویر آماده شده هدوپ که یک نسخه آماده شده آن روی یک توزیع لینوکس است، را دانلود و روی ماشین مجازی اجرا کنید . همین !
بعد از این مرحله می توانید کار با هدوپ و ابزارهای جانبی آنرا به سرعت شروع کنید و هنگامی که به هدوپ و اکوسیستم آن مسلط شدید، تغییراتی را بسته به نیاز در پیکربندی آن بدهید یا سایر ابزار و کتابخانه ها را نصب کنید .
حتی اگر نیاز به شبیه سازی یک کلاستر هم داشته باشید ، کافیست چندین ماشین مجازی ایجاد کنید و همه را با هم اجرا کرده و آزمایشات موردنیاز خود را انجام دهید . این تصاویر به راحتی قابل انتقال به سرورهای اصلی هم هستند که البته باید کمی حرفه ای تر شوید .

سه عدد از نسخه های آماده شده هدوپ که توسط شرکتهای معتبر و معروف حوزه کلان داده و هدوپ آماده شده اند از قرار زیر است :

a.سندباکس هورتورورکز (HortonWorks SandBox)

b. سندباکس شرکت MapR

c. توزیع هدوپ شرکت Cloudera

d. توزیع ساده شده مرجع هدوپ ایران  با حجم حدود ۵۰۰ مگابایت که نسخه اسپارک آن هم قابل دانلود است و به زودی نسخه سومی هم شامل ابزارهای گرافیکی مانیتورینگ آن به این مجموعه افزوده می شود و ویدئوهای فارسی خود سایت هم می تواند به شما در راه اندازی اولیه آن کمک فراوانی بکند.

نکته : با توجه به اینکه اکثر شرکتهای فوق ایران را تحریم کرده اند، برای رفع این مشکل با مراجعه به سایت شکن ، دی ان اس اول اینترنت سیستم خود را به آی پی ذکر شده در این آدرس تغییر دهید تا بتوانید به راحتی با این سایتها کار کرده، تصاویر مورد نظر خود را دانلود کنید.

ب. نصب هدوپ از طریق داکر

قبلاً در مورد داکر توضیح مختصری داده ام ، فناوری ای در زمینه مجازی سازی که سطح آنرا از سیستم عامل به سطح برنامه رسانده است و به جای اینکه تصویر یک لینوکس آماده شده را روی ماشین مجازی بارگذاری و اجرا کنیم، فقط نرم افزار مورد نظر خودمان را مجازی سازی می کنیم و بعد از انجام تنظیمات مختلف ، آنرا روی مخزن داکر ذخیره کرده، هر جا که نیاز داریم با یک دستور ساده آنرا دانلود و اجرا می کنیم.

با این ترتیب ، کافیست یک تیم حرفه ای ، تصویر هدوپ را برای داکر آماده کنند و هر کس که به هدوپ نیاز داشته باشد، داکر را نصب کرده و با یک دستور ساده ، هدوپ را روی سیستم خود اجرا کند . هر چند در این روش هم ما مجازی سازی داریم و بستر کار باید لینوکس باشد، اما خوبی آن این است که هر تغییری که روی تصویر مورد نظر از هدوپ بدهیم، میتوانیم به اسم خودمان روی مخزن داکر ذخیره کنیم و روی هر تعداد سرور که نیاز باشد، نسخه اختصاصی خودمان را روی داکر بارگذاری و اجرا نمائیم .

ج : اجرای آنلاین هدوپ

یکی از روشهای سریع تست و کار با هدوپ، اجرای آنلاین آن است بدینصورت که در فضایی که شرکت Cloudera روی وب در اختیار شما قرار می دهد، فایلهای خودتان را آپلود می کنید، کدهای توزیع و تجمیع (Map/Reduce) را هم روی سرور قرار داده و آنها را اجرا می کنید. این روش سریعترین روش ممکن و آسان ترین آن است و بیشتر برای شروع کار و آشنایی اولیه با مفاهیم و ابزار هدوپ کاربرد دارد و برای ادامه کار ، بهتر است سراغ یکی از روشهای فوق بروید .

سری آموزشی کلان‌داده به زبان ساده

از ابتدای سال ۹۸ بخش جدیدی با نام کلان‌داده به زبان ساده به سایت مهندسی داده اضافه شده است که می توانید مراحل نصب و راه‌اندازی و کار با هدوپ و کتابخانه‌های مختلف مرتبط با آن را به صورت عملی از آن مقالات فرابگیرید.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

1 دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا