اخبار

معرفی بنتوس :‌ یک ابزار ETL‌ ساده، سبک و موثر

اگر به دنبال یک کلاینت سبک و سریع برای کارهای انتقال داده هستید، بنتوس را دریابید!

در اواسط سال ۲۰۲۴ و بعد از انتشار این نوشتار، بنتوس توسط RedPanda خریده شد و امروزه بخشی از Redpanda-Connect شده است.
https://www.redpanda.com/connect

یکی از کارهای رایج مهندسین داده، ETL‌ است یعنی داده را از یک منبع ورودی خوانده، آن را پردازش کرده و نهایتا در مقصد ذخیره کنیم. برای این منظور، ابزارهای تجاری و متن‌باز بسیار زیادی وجود دارد که از زمان‌های قدیم که Logstash یک تنه، بار انتقال داده‌ها بین انواع منبع‌ها و مقصدها را به دوش می‌کشید تا الان که شاید بیش از ده‌ها ابزار رایج و تخصصی در این خصوص وجود داشته باشد، این فرآیند به بلوغ بسیار خوبی رسیده است.

اما کتابخانه‌های نرم‌افزاری و بخصوص  ابزارهای مهندسی داده باید

  • ساده : کار با آنها ساده باشد.
  • سبک : کارآیی بالایی داشته، منابع بسیار کمی از سیستم را درگیر کنند.
  • سهل‌الوصول: به راحتی قابل نصب و پیکربندی باشد.

باشند (می‌توانیم به آنها ۳سین بگوییم!!).

Vector.dev‌  یکی از این ابزارهای مطابق با قانون ۳سین است اما بیشتر برای کاربردهای انتقال و جمع‌آوری لاگ‌ و متریک‌ها مناسب است و برای ETL‌ های رایج، به کار نمی‌‌رود.

https://github.com/vectordotdev/vector

Benthos‌ دقیقا معادل و مشابه Vector.dev و مطابق با قانون ۳سین در حوزه ETL است.

  • با زبان Go‌ نوشته شده است و بسیار سبک و کارآ است.
  • نصب و راه‌اندازی آن همانطور که در تصویر مشخص است، بسیار راحت و آسان است.
  • کار با آن ساده است (هر چند برای بخش پردازش داده‌ها، زمان کمی را برای آشنایی با زبان مخصوص آن باید کنار بگذارید)
  • به راحتی امکان خواندن از صف‌هایی مانند کافکا و سوکت‌ها را فراهم می‌کند.
  • مجموعه بسیار غنی از منبع‌ها، مقصدها و پردازشگرهای از قبل نوشته شده دارد.

اگر قصد طراحی و پیاده‌سازی خطوط انتقال داده را دارید و پردازش‌هایی که بر روی داده‌های دریافتی انجام می‌دهید، ساده و سرراست (مثل فیلتر کردن برخی ورودی‌ها، استخراج و تغییر شکل چند آیتم و …)  است، حتما Benthos را به عنوان یکی از اصلی‌ترین گزینه‌های خود در نظر بگیرید.

مثالی ساده از یک پایپ‌لاین ETL با بنتوس و نحوه نصب آن

آدرس گیت‌هاب پروژه: https://github.com/benthosdev/benthos

آدرس رسمی سایت:  https://www.benthos.dev

گروه تخصصی پرسش‌وپاسخ‌های مهندسی داده : https://t.me/bigdata_ir_discussions

کانال مهندسی داده در تلگرام : https://t.me/bigdata_ir

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا