آپاچی اَپکس : چارچوب پردازش داده سازمانی
در ادامه مباحث آشنایی با چارچوبهای پردازش دادههای جریانی بنیاد آپاچی، در این نوشتار به معرفی آپاچی اَپکس میپردازیم. شرکت DataTorrent یکی از شرکتهای فعال در حوزه پردازش جریان و مستقر در دره سیلیکون آمریکاست. این شرکت در سال ۲۰۱۵ تصمیم گرفت یکی از محصولات تجاری پردازش جریان خود را به بنیاد آپاچی واگذار کند که نتیجه آن تولد آپاچی اپکس در سال ۲۰۱۶ بود. این پروژه به عنوان جایگزینی برای استورم و اسپارک مطرح شده است.
در مقایسه با اسپارک، اپکس با قابلیتهای سازمانی و حرفهای پردازش رخداد، تضمین ترتیب پردازش رخدادها و تحمل خطا به صورت توکار ارائه شده است. برخلاف اسپارک که زبان اصلی آن اسکالا است، برای اپکس، آشنایی با جاوا کافیست. اپکس به خوبی میتواند با کلاسترهای موجود هدوپ و اکوسیستم آن منطبق شود، از Yarn برای مدیریت منابع استفاده کند و HDFS را برای تحمل خطای خود استفاده کند.
اپکس به عنوان تنها موتورپردازشی سطح سازمانی متنباز با قابلیت پردازش توامان دادههای زمانمند و دادههای جریانی شناخته میشود. اپکس بستر پردازش داده-در-حرکت است که پردازش دادههای نامحدود(جریان داده) و داده-در-سکون (دادههای ذخیره شده یا زمانمند) را به صورت همزمان ممکن میسازد. یعنی امکانات مورد نیاز سازمانها در سطح کلان را ارائه میدهد. امکاناتی که در ادامه به آنها اشاره خواهیم کرد. هدف اصلی اپکس، کاهش پیچیدگی پروژههای کلان داده در یک سازمان است.
این موتور پردازشی، به راحتی به انواع منابع دادهای موجود مانند سیستم فایل، بانکهای اطلاعاتی، پیامرسانهایی مانند کافکا متصل میشود و چون اکثر پروژههای حوزه کلانداده با جاوا هم نوشته شدهاند، مشکلی در برقراری ارتباط با آنها ندارد. کتابخانه اصلی اپکس، Malhar نام دارد که حاوی عملگرهایی برای کار با انواع منابع داده ای و انجام انواع پردازشها برروی آنهاست که مجموعه این عملگرها، یک روش یکپارچه و سازمانی را برای مدیریت دادهها فراهم میکند.
از طرفی، استفاده از Yarn در هسته اصلی اپکس برای مدیریت منابع، امکان استفاده از این کتابخانه را برای سامانههای موجود هدوپ راحتتر میکند. نیز با توجه به تاکید بر پردازشهای زمانمند و جریانی به صورت همزمان و وجود امکاناتی مانند تغییر توپولوژی شبکه بدون نیاز به متوقف کردن آن، تشخیص سریع ماشینهای دچار اشکال شده و اجرای خودکار کدهای اجرا شونده بر روی آنها و نیز قابلیت ترمیم خودکار در صورت خرابی بخشی از شبکه (امکاناتی که باعث شده اپکس به عنوان یک چارچوب پردازشی سازمانی مطرح شود)، باعث میشود برای پروژههای عمومی وکاربردهای سازمانی، بخصوص زمانی که کاربرد ترکیبی پردازش جریان و پردازش دادههای موجود، مد نظر ما باشد، اپکس به عنوان یک پروژه نوپا، گزینه ایدهآل ما خواهد بود.
مزایای اصلی اپکس در شکل زیر خلاصه شده است :
منبع اصلی این مقاله : راهنمای توصیفی تمامی پروژه های پردازش جریان بنیاد آپاچی