ابزار و کتابخانه هامهندسی داده

مخزن کدی برای ابزارهای متن باز مهندسی داده

مخزنی در گیت هاب برای اشتراک ابزارهای مورد نیاز مهندسین داده

در سالیان اخیر بارها مجبور به تست و راه اندازی کلاسترهای مختلف دیتابیس ها و ابزارهای مختلف متن باز حوزه زیر ساخت شده ام که نهایتا تمامی این ابزارها و دیتابیس ها را با داکر بالا می آورم و با آنها کار می کنم.

تصمیم گرفتم پوشه حاوی فایلهای docker-compose پروژه های مختلف مرتبط با مهندسی داده را در گیت هاب به اشتراک بگذارم تا هم امکان استفاده از آنها برای بقیه فراهم باشد و هم بتوانیم با پول ریکوئست های مختلف، آنرا به تدریج کامل کنیم.

نسخه اولیه این مخزن کد در آدرس زیر قرار گرفته است : https://github.com/irbigdata/data-dockerfiles

سعی کرده ام موارد زیر را در این مخزن کد رعایت کنم :

  • تنظیمات اصلی شامل ورژن نرم افزارها در فایل .env قرار گیرد که به راحتی قابل تنظیم و تغییر باشد.
  • در کنار فایل داکر کامپوز، فایل ‍makefile را هم قرار دهم که کار با دستورات مختلف داکر در خط فرمان لینوکس یا WSL، سریعتر و راحت تر انجام شود (با تشکر از آقای بشیری عزیز که این بخش را مدیون ایشان هستم)
  • برخی از ایمیج های موردنیاز و پرکاربرد مانند ایرفلو و اسپارک را به صورت سفارشی آماده کرده ام که به راحتی بتوان کتابخانه های پایتون یا اپلیکیشن های لینوکس مورد نیاز را به آنها افزود.
  • اکثر سرویس ها از یک شبکه قابل تنظیم استفاده می کنند که با این کار بتوان کلاسترهای مختلفی را بالا آورد که شبکه آنها مشترک بوده ، بتوانند به راحتی با یکدیگر ارتباط برقرار کنند. مثلا کافی است برای ارتباط بین اسپارک، هدوپ و ایرفلو، شبکه هر سه را یکسان تعریف کنیم و جداگانه هر کدام را بالا بیاوریم
GitHub - irbigdata/data-dockerfiles: a curated list of docker-compose files prepared for testing  data engineering tools, databases and open source libraries.

GitHub – irbigdata/data-dockerfiles: a curated list of docker-compose files prepared for testing data engineering tools, databases and open source libraries.

a curated list of docker-compose files prepared for testing data engineering tools, databases and open source libraries. – GitHub – irbigdata/data-dockerfiles: a curated list of docker-compose fil…

https://github.com/irbigdata/data-dockerfiles

در هر صورت این مخزن کد شامل فایلهای آماده شده و تنظیم شده برای دیتابیس ها و ابزارهای زیر است :

  • هدوپ – نسخه ۳٫۲
  • اسپارک – نسخه سفارشی ۳٫۲
  • ایرفلو – نسخه سفارشی ۲٫۲٫۳
  • الستیک سرچ
  • کافکا به همراه کافکا کانکت/اسکیما رجیستری / AKHQ (واسط گرافیکی کار با کافکا)
  • ردیس به همراه دو واسط کاربری ردیس کامندر و nf-explorer
  • کاساندرا
  • الستیک سرچ به همراه لاگ استش و کیبابا
  • Minio
  • دروید
  • مانگودی بی
  • ماریا دی بی
  • پستگرس
  • ….

به تدریج لیست فوق تکمیل خواهد شد.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا