ابزارهای نوین پردازش داده در یک نگاه – معرفی سایت OSS Insight
رتبه بندی ابزارهای نوین پردازش داده بر اساس فعالیت آنها در گیتهاب
اغلب ابزارهای نوین پردازش داده، متن باز بوده و در گیتهاب حضور فعالی دارند. سایت OSS Insight این فعالیت ها را برای پروژه های مختلف متنباز دنیا رصد کرده، ابزارهای مختلف را گروه بندی و رتبه بندی نموده است. این مقاله مروری دارد بر این سایت و امکانات مختلف آن.
در سالیان گذشته ابزارهای مدیریت داده به قدری گسترده و متنوع شده اند که آشنایی با همه آنها برای مهندسین داده و فعالان حوزه دیتابیس، اگر غیر ممکن نباشد، بسیار دور از دسترس است و نیاز به فراغ بال و فرصت کافی دارد؛ موضوعی که با زندگیهای شلوغ امروزی در تضاد است.
از طرف دیگر می دانیم که اکثر قریب به اتفاق پروژههای متن باز دنیا بر روی گیتهاب قرار دارند و هر چه یک پروژه تعداد مشارکتکنندگان، ستارههای کسب شده، Issue های ایجاد شده و Pull Request های بیشتری داشته باشد، نشان از محبوبیت بیشتر و داشتن یک جامعه کاربری قویتر است.
سایت OSS Insight با استفاده از همین معیارها، یک کاتالوگ کامل از پروژه های اپن سورس ایجاد کرده است و تغییرات لحظهای آنها را رصد کرده و به صورت دسته بندی شده و با آمار و اطلاعات متنوع، به علاقهمندان ارائه می کند.
از بین گروهبندیهای متنوع OSS Insight دو دسته Open Source DBs و Modern Data Stack برای مهندسین داده و و علاقهمندان حوزه دیتابیس، منبع الهامبخش بسیار مناسبی است که میتواند در هنگام انتخاب یک ابزار مناسب، دامنه جستجو و گزینههای در دسترس را کاهش دهد و نقطه شروعی برای انتخاب ابزار مناسب باشد. (هر چند با توجه به اشتراک زیاد این دو گروه، در این مقاله تنها ابزارهای مدرن پردازش داده، بررسی شدهاند)
مزیت بعدی و مهم این بخش از سایت OSS Insight هم این است که میتواند دید اولیه مناسبی در خصوص گرایشات و ابزارهای نوین پردازش داده در اختیار ما بگذارد . هر چند همانطور که در تصویر سمت راست هم مشخص است، گروهبندی های بسیار زیادی را در این سایت میبینید که میتوانید از آنها در انتخاب پروژههای مناسب در زمینههای مختلف علوم کامپیوتر استفاده کنید.
معیارهای انتخاب و رتبهبندی پروژهها هم همانطور که قبلا اشاره شد، موارد زیر هستند :
چند نکته در خصوص سایت OSS Insight
همانطور که در شکل روبرو می بینید به ازای هر گروه از پروژههای متنباز، دو گزینه برای بررسی آنها در اختیار ما گذاشته می شود :
- رتبهبندی : در این قسمت می توانیم رتبهبندی ماهیانه ابزارهای اپنسورس بر اساس تعداد ستاره، ایشوها و Pull Requests را به صورت جداگانه مشاهده کنیم . همچنین رتبهبندی سالیانه پروژهها بر اساس هر یک از این سه معیار هم با مشخص شدن جایگاه پروژه در آن سال به صورت گرافیکی در این قسمت قابل مشاهده است.
- محبوبیت در گذر زمان : در این قسمت، میتوانید محبوبیت پروژهها بر اساس هر یک از سه معیار فوق به همراه معیار جدید تعداد افرادی که ایجاد کننده یک Pull Request بودهاند (نشانه غیرمتمرکز بودن و محبوبیت بیشتر یک پروژه) را در گذر زمان با استفاده از نمودارهای متحرک و نمودارهای خطی مشاهده کنید .
ابزارهای محبوب پردازش و مدیریت داده در گذر زمان
بیایید محبوبیت پروژههای مهندسی داده (ابزارهای پردازش، مدیریت و نمایش داده ) را در گذر زمان با معیار ستارههای داده شده را در قالب نموداری که OSS Insight در اختیار ما می گذارد بررسی کنیم . نمودارهای کامل و سایر اطلاعات و نمودارهای این بخش را می توانید از این آدرس، به صورت لحظهای مشاهده کنید.
نمودار فوق تا حدود زیادی با ابزارهای محبوب حوزه پردازش و مهندسی داده مطابق است. اما میتوانیم نکات زیر را با کمی دقت در شکل بالا مشاهده کنیم :
- از ده ابزار برتر حوزه پردازش داده، سه تای آنها ابزارهای رسم نمودار و تهیه گزارش و بصری سازی دادهها هستند. یعنی آپاچی سوپرست که رتبه اول را هم به خود اختصاص داده است، متابیس و Redash.
- از بین دیتابیسهای تحلیلی، تنها کلیک هوس در بین ده ابزار محبوب قرار گرفته است.
- تنها دیتابیسی که در این دسته قرار گرفته است، tidb است که قبلا راجع به آن در همین سایت مطلبی نوشته شده است. (یک مقاله هم راجع به مهاجرت از MySQL به TiDB منتشر شده است. ) مزیت اصلی تایدیبی که واسط ارتباطی آن همان واسط MySQL است و برخاسته از کشور چین است، ترکیب ذخیره سطری و ستونی داده هاست یعنی به ازای هر رکوردی که درج میکنید، یک نسخه از آن برای کارهای روزمره و تراکنشمحور به صورت سطری و یک نسخه از آن هم به صورت ستونی و برای کوئریهای تحلیلی ذخیره می شود. یعنی هم برای مقاصد روزمره تجاری و هم برای کارهای سنگین تحلیلی میتواند به کار رود.
- اکثر این ابزارها، حول و حوش سال ۲۰۱۵ ایجاد شدهاند و امروزه به بلوغ کافی رسیدهاند.
- اسپارک همواره در رتبه اول یا دوم بوده است و محبوبیت همیشگی خود را حفظ کرده است. البته آپاچی فلینک هم یک ابزار پردازش لحظهای دادههای جریانی است هم در همین لیست حضور دارد.
- دو ابزار محبوب امروزین پردازش داده یعنی آپاچی کافکا و آپاچی ایرفلو هم در لیست ده ابزار محبوب پردازش داده قرار گرفته اند.
رتبهبندی ماهیانه ابزارهای مدرن پردازش داده
در گام دوم، به رتبهبندی اخیر ابزارهای نوین پردازش داده نگاهی میاندازیم تا ببینیم در چندماه اخیر، چه ابزارهایی بیشترین امتیازها را در کسب کردهاند. با معیار Pull Request که میتواند نشانهای از رشد محبوبیت و رواج یک ابزار در بین جامعه کاربری باشد، شروع می کنیم :
- StarRocks که رتبه اول محبوبیت با معیار Pull Request را به خود اختصاص داده است، یک دیتابیس تحلیلی و در عین حال، مناسب برای تراکنشهای روزانه است که هم امکان آپدیت و حذف رکوردها را به صورت لحظهای فراهم میکند و هم کوئری های تحلیلی را با سرعتی بسیار بالا جواب میدهد. در وب سایت رسمی این دیتابیس، در مقایسه با آپاچی دروید و کلیکهوس، بسیار بهتر عمل کرده است . از طرفی امکان به روزرسانی لحظهای دادهها را هم برخلاف آپاچی دروید و کلیکهوس، به کاربران ارائه میکند.
- رتبه دوم و سوم هم به کلیکهوس و آپاچی دوریس اختصاص یافته است که هر دو، جزء دیتابیسهای تحلیلی محسوب میشوند که به طور خاص برای درج سریع رکوردها و پاسخگویی لحظهای به انواع کوئری ها در حجمهای بالای داده، طراحی شدهاند. آپاچی دوریس، نسبتا پروژه جدیدی است اما محبوبیت خوبی را در ماه های اخیر کسب کرده است. (PostHog و DataBend را هم میتوانیم جزء همین دسته به حساب آوریم که در اینصورت وزن دیتابیسهای تحلیلی و دیتاویرهوسهای نوین در ده ابزار برتر به پنجاه درصد میرسد که نشان از نیاز رو به رشد به ابزارهایی برای تحلیل سریع دادههاست.)
- ررتبه چهارم این لیست هم به AirByte رسیده است که یک ابزار ساده اما موثر برای ETL های روزانه است یعنی اگر نیاز دارید که دادهای را از یک دیتابیس یا از یک منبع داده به یک مقصد جدید منتقل کنید، میتوانید بدون نیاز به کدنویسی از ابزار متنباز AirByte استفاده کنید.
- آپاچی پولسار که نسخه بازنویسی شده کافکا محسوب می شود هم جزء ده ابزار برتر از لحاظ افزوده شدن امکانات جدید است.
- DataBend یک دیتاویرهوس نوین و مبتنی بر ابر برای پردازش سریع دادههای ذخیره شده در S3، Azure Blob و MiniIO است.
- PostHog هم یک ابزار تحلیلی است که به طور خاص برای تحلیل محصولات و فروش آنها طراحی شده است.
محبوبترین ابزارهای مدیریت داده در چند ماه اخیر براساس ستارههای داده شده / روند تغییرات سالیانه
در آخرین گام هم نگاهی سریع به ابزارهای محبوب چند ماه اخیر بر اساس ستارههای داده شده می اندازیم و تغییرات آنها را هم در گذر زمان با مشخص شدن جایگاه هر یک از ابزارها در سالهای متوالی بررسی میکنیم. دو شکل زیر، این ابزارها و تغییرات آنها را در گذر زمان به ما نمایش می دهند.
همانطور که مشاهده کردید سایت Oss Insight میتواند مرجع خوبی برای شما باشد در هنگام انتخاب ابزارهای مناسب برای کار با داده ها و بخصوص انتخاب دیتابیسهای نوین که بتوانند با وجود حجم بالای دادهها، سرعت بسیار خوبی داشته باشند.