ابزار و کتابخانه هامهندسی داده

بررسی مقایسه ای دیتابیس های تحلیلی

مروری عملی و سریع بر آپاچی دروید، پینوت و کلیک‌هوس

در پاییز ۹۹ ، یک کار کارشناسی به بنده محول شد (البته به عنوان یک تسک ارزیابی برای ورود به یک شرکت) که هدف آن بررسی جایگزین های پستگرس برای ذخیره و بازیابی داده های تحلیلی در حجم کلان بود.

انتخاب فناوری ها و نحوه ارزیابی هم بر عهده خودم گذاشته شده بود. در حجم بالای داده ها و در صورت نبود نیروی متخصص طراح انباره های داده، استفاده از بانک های اطلاعاتی تحلیلی که برای گزارش گیری و انجام کارهای تحلیلی و علم داده، بهینه سازی شده اند گزینه اول در شرکتهای بزرگ دنیا است. به همین دلیل سه دیتابیس کلیک هوس، آپاچی دروید و آپاچی پینوت را که سه بازیگر اصلی این حوزه هستند را به عنوان دیتابیس های جایگزین پستگرس، انتخاب و با انجام چند کوئری ساده، قصد بررسی سریع این چند راه حل را داشتم. نتیجه این کار، گزارشی است که در ادامه می توانید آنرا دانلود کرده و استفاده کنید .

البته این آزمون و تست اولیه، بسیار ساده و بدون در نظرگرفتن مسایلی مانند توزیع شدگی، رپلیکیشن، جوین جداول ، پشتیبانی از داده های سری زمانی و ومانند آن صورت گرفته است و همانطور که خواهید دید، در بین گزینه های مطرح شده، کلیک هوس بهترین نتایج را به ما ارائه داده است و پینوت هم به دلیل عدم بلوغ تکنولوژی کنار گذاشته شده است که امروزه پینوت به یکی از بازیگران اصلی این حوزه تبدیل شده است و توصیه می کنم حتما آنرا هم مد نظر داشته باشید.

فایلهای داده لازم برای انجام مجدد این تستها هم ضمیمه شده است.

پ.ن : برای کاری که الان درگیر آن هستم و حجم داده های بسیار زیادی را باید روزانه مدیریت کنیم و با توجه به ساختار مبتنی بر زمان تمام رکوردهای اطلاعاتی و همچنین لزوم مقیاس پذیری بالای دیتابیس، آپاچی دروید را به عنوان دیتابیس اصلی بخش تحلیلی خود انتخاب کرده ایم که امکانات جنبی آن مانند واسط کاربری مناسب، زبان کوئری حرفه ای برای ساخت گزارش های پیچیده ، داشتن ابزارهای ورود داده که خواندن داده ها از کافکا به صورت مستقیم را هم به کمک خود آن انجام می دهیم، سایر مزایای انتخاب این گزینه برای ما بوده است .

امتیاز کاربران: ۴٫۰۵ ( ۱ رای)

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

1 دیدگاه

  1. سلام جناب بنایی خیلی خیلی سپاسگذارم بابت مطالب ارزندتون

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا