ابزار و کتابخانه ها

ابزارهای نوین پردازش داده در یک نگاه – معرفی سایت OSS Insight

رتبه بندی ابزارهای نوین پردازش داده بر اساس فعالیت آنها در گیت‌هاب

اغلب ابزارهای نوین پردازش داده، متن باز بوده و در گیت‌هاب حضور فعالی دارند. سایت OSS Insight این فعالیت ها را برای پروژه های مختلف متن‌باز دنیا رصد کرده، ابزارهای مختلف را گروه بندی و رتبه بندی نموده است. این مقاله مروری دارد بر این سایت و امکانات مختلف آن.

در سالیان گذشته ابزارهای مدیریت داده به قدری گسترده و متنوع شده اند که آشنایی با همه آنها برای مهندسین داده و فعالان حوزه دیتابیس، اگر غیر ممکن نباشد، بسیار دور از دسترس است و نیاز به فراغ بال و فرصت کافی دارد؛ موضوعی که با زندگیهای شلوغ امروزی در تضاد است.

از طرف دیگر می دانیم که اکثر قریب به اتفاق پروژه‌های متن باز دنیا بر روی گیت‌هاب قرار دارند و هر چه یک پروژه تعداد مشارکت‌کنندگان، ستاره‌های کسب شده، Issue های ایجاد شده و Pull Request های بیشتری داشته باشد، نشان از محبوبیت بیشتر و داشتن یک جامعه کاربری قوی‌تر است.
سایت OSS Insight با استفاده از همین معیارها، یک کاتالوگ کامل از پروژه‌ های اپن سورس ایجاد کرده است و تغییرات لحظه‌ای آنها را رصد کرده و به صورت دسته بندی شده و با آمار و اطلاعات متنوع، به علاقه‌مندان ارائه می ‌کند.

Modern Data Stack - Ranking | OSS Insight

Modern Data Stack – Ranking | OSS Insight

Last 28 days / Monthly ranking of repos in this collection by stars, pull requests, issues. Historical Ranking by Popularity.

https://ossinsight.io/collections/modern-data-stack

از بین گروه‌بندی‌های متنوع OSS Insight دو دسته Open Source DBs‌ و Modern Data Stack برای مهندسین داده و و علاقه‌مندان حوزه دیتابیس، منبع الهام‌بخش بسیار مناسبی است که می‌تواند در هنگام انتخاب یک ابزار مناسب، دامنه جستجو و گزینه‌های در دسترس را کاهش دهد و نقطه شروعی برای انتخاب ابزار مناسب باشد. (هر چند با توجه به اشتراک زیاد این دو گروه،‌ در این مقاله تنها ابزارهای مدرن پردازش داده، بررسی شده‌اند)

مزیت بعدی و مهم این بخش از سایت OSS Insight هم این است که می‌تواند دید اولیه مناسبی در خصوص گرایشات و ابزارهای نوین پردازش داده در اختیار ما بگذارد . هر چند همانطور که در تصویر سمت راست هم مشخص است، گروه‌بندی های بسیار زیادی را در این سایت می‌بینید که می‌توانید از آنها در انتخاب پروژه‌های مناسب در زمینه‌های مختلف علوم کامپیوتر استفاده کنید.

معیارهای انتخاب و رتبه‌بندی پروژه‌ها هم همانطور که قبلا اشاره شد، موارد زیر هستند :

  • تعداد درخواست‌های Pull – نشانه‌ای از امکانات جدید پروژه
  • ستاره‌های داده شده – معیاری برای محبوبیت پروژه
  • تعداد ایشوها (Issues) – معیاری برای رواج یک پروژه در بین جامعه تخصصی

چند نکته در خصوص سایت OSS Insight

همانطور که در شکل روبرو می بینید به ازای هر گروه از پروژه‌های متن‌باز، دو گزینه برای بررسی آنها در اختیار ما گذاشته می شود :

  • رتبه‌بندی : در این قسمت می توانیم رتبه‌بندی ماهیانه ابزارهای اپن‌سورس بر اساس تعداد ستاره، ایشوها و Pull Requests را به صورت جداگانه مشاهده کنیم . همچنین رتبه‌بندی سالیانه پروژه‌ها بر اساس هر یک از این سه معیار هم با مشخص شدن جایگاه پروژه در آن سال به صورت گرافیکی در این قسمت قابل مشاهده است.
  • محبوبیت در گذر زمان : در این قسمت، می‌توانید محبوبیت پروژه‌ها بر اساس هر یک از سه معیار فوق به همراه معیار جدید تعداد افرادی که ایجاد کننده یک Pull Request بوده‌اند (نشانه غیرمتمرکز بودن و محبوبیت بیشتر یک پروژه) را در گذر زمان با استفاده از نمودارهای متحرک و نمودارهای خطی مشاهده کنید .

ابزارهای محبوب پردازش و مدیریت داده در گذر زمان

بیایید محبوبیت پروژه‌های مهندسی داده (ابزارهای پردازش، مدیریت و نمایش داده ) را در گذر زمان با معیار ستاره‌های داده‌ شده را در قالب نموداری که OSS Insight در اختیار ما می گذارد بررسی کنیم . نمودارهای کامل و سایر اطلاعات و نمودارهای این بخش را می توانید از این آدرس، به صورت لحظه‌ای مشاهده کنید.

نمودار فوق تا حدود زیادی با ابزارهای محبوب حوزه پردازش و مهندسی داده مطابق است. اما می‌توانیم نکات زیر را با کمی دقت در شکل بالا مشاهده کنیم :

  • از ده ابزار برتر حوزه پردازش داده، سه تای آنها ابزارهای رسم نمودار و تهیه گزارش و بصری سازی داده‌ها هستند. یعنی آپاچی سوپرست که رتبه اول را هم به خود اختصاص داده است، متابیس و Redash.
  • از بین دیتابیس‌های تحلیلی، تنها کلیک هوس در بین ده ابزار محبوب قرار گرفته است.
  • تنها دیتابیسی که در این دسته قرار گرفته است، tidb است که قبلا راجع به آن در همین سایت مطلبی نوشته شده است. (یک مقاله هم راجع به مهاجرت از MySQL به TiDB منتشر شده است. ) مزیت اصلی تای‌دی‌بی که واسط ارتباطی آن همان واسط MySQL است و برخاسته از کشور چین است، ترکیب ذخیره سطری و ستونی داده هاست یعنی به ازای هر رکوردی که درج می‌کنید، یک نسخه از آن برای کارهای روزمره و تراکنش‌محور به صورت سطری و یک نسخه از آن هم به صورت ستونی و برای کوئری‌های تحلیلی ذخیره می شود. یعنی هم برای مقاصد روزمره تجاری و هم برای کارهای سنگین تحلیلی می‌تواند به کار رود.
  • اکثر این ابزارها، حول و حوش سال ۲۰۱۵ ایجاد شده‌اند و امروزه به بلوغ کافی رسیده‌اند.
  • اسپارک همواره در رتبه اول یا دوم بوده است و محبوبیت همیشگی خود را حفظ کرده است. البته آپاچی فلینک هم یک ابزار پردازش لحظه‌ای داده‌های جریانی است هم در همین لیست حضور دارد.
  • دو ابزار محبوب امروزین پردازش داده یعنی آپاچی کافکا و آپاچی ایرفلو هم در لیست ده ابزار محبوب پردازش داده قرار گرفته اند.

رتبه‌بندی ماهیانه ابزارهای مدرن پردازش داده

در گام دوم، به رتبه‌بندی اخیر ابزارهای نوین پردازش داده نگاهی می‌اندازیم تا ببینیم در چندماه اخیر، چه ابزارهایی بیشترین امتیازها را در کسب کرده‌اند. با معیار Pull Request که می‌تواند نشانه‌ای از رشد محبوبیت و رواج یک ابزار در بین جامعه کاربری باشد، شروع می کنیم :

رتبه بندی ابزارهای مهندسی داده
تصویر در تاریخ ۱۴۰۱/۰۷/۰۱ گرفته شده است.
  • StarRocks که رتبه اول محبوبیت با معیار Pull Request را به خود اختصاص داده است، یک دیتابیس تحلیلی و در عین حال، مناسب برای تراکنش‌های روزانه است که هم امکان آپدیت و حذف رکوردها را به صورت لحظه‌ای فراهم می‌کند و هم کوئری های تحلیلی را با سرعتی بسیار بالا جواب میدهد. در وب سایت رسمی این دیتابیس، در مقایسه با آپاچی دروید و کلیک‌هوس، بسیار بهتر عمل کرده است . از طرفی امکان به روزرسانی لحظه‌ای داده‌ها را هم برخلاف آپاچی دروید و کلیک‌هوس، به کاربران ارائه می‌کند.
  • رتبه دوم و سوم هم به کلیک‌هوس و آپاچی دوریس اختصاص یافته است که هر دو، جزء دیتابیس‌های تحلیلی محسوب می‌شوند که به طور خاص برای درج سریع رکوردها و پاسخگویی لحظه‌ای به انواع کوئری ها در حجم‌های بالای داده، طراحی شده‌اند. آپاچی دوریس، نسبتا پروژه جدیدی است اما محبوبیت خوبی را در ماه های اخیر کسب کرده است. (PostHog و DataBend را هم می‌توانیم جزء همین دسته به حساب آوریم که در اینصورت وزن دیتابیس‌های تحلیلی و دیتاویرهوس‌های نوین در ده ابزار برتر به پنجاه درصد می‌رسد که نشان از نیاز رو به رشد به ابزارهایی برای تحلیل سریع داده‌هاست.)
  • ررتبه چهارم این لیست هم به AirByte‌ رسیده است که یک ابزار ساده اما موثر برای ETL های روزانه است یعنی اگر نیاز دارید که داده‌ای را از یک دیتابیس یا از یک منبع داده به یک مقصد جدید منتقل کنید، می‌توانید بدون نیاز به کدنویسی از ابزار متن‌باز AirByte استفاده کنید.
  • آپاچی پولسار که نسخه بازنویسی شده کافکا محسوب می شود هم جزء ده ابزار برتر از لحاظ افزوده شدن امکانات جدید است.
  • DataBend یک دیتاویرهوس نوین و مبتنی بر ابر برای پردازش سریع داده‌های ذخیره شده در S3، Azure Blob و MiniIO است.
  • PostHog هم یک ابزار تحلیلی است که به طور خاص برای تحلیل محصولات و فروش آنها طراحی شده است.

محبوب‌ترین‌ ابزارهای مدیریت داده در چند ماه اخیر براساس ستاره‌های داده‌ شده / روند تغییرات سالیانه

در آخرین گام هم نگاهی سریع به ابزارهای محبوب چند ماه اخیر بر اساس ستاره‌های داده شده می اندازیم و تغییرات آنها را هم در گذر زمان با مشخص شدن جایگاه هر یک از ابزارها در سالهای متوالی بررسی می‌کنیم. دو شکل زیر، این ابزارها و تغییرات آنها را در گذر زمان به ما نمایش می دهند.

همانطور که مشاهده کردید سایت Oss Insight می‌تواند مرجع خوبی برای شما باشد در هنگام انتخاب ابزارهای مناسب برای کار با داده ها و بخصوص انتخاب دیتابیس‌های نوین که بتوانند با وجود حجم بالای داده‌ها، سرعت بسیار خوبی داشته باشند.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا