مخزن کدی برای ابزارهای متن باز مهندسی داده
مخزنی در گیت هاب برای اشتراک ابزارهای مورد نیاز مهندسین داده
در سالیان اخیر بارها مجبور به تست و راه اندازی کلاسترهای مختلف دیتابیس ها و ابزارهای مختلف متن باز حوزه زیر ساخت شده ام که نهایتا تمامی این ابزارها و دیتابیس ها را با داکر بالا می آورم و با آنها کار می کنم.
تصمیم گرفتم پوشه حاوی فایلهای docker-compose
پروژه های مختلف مرتبط با مهندسی داده را در گیت هاب به اشتراک بگذارم تا هم امکان استفاده از آنها برای بقیه فراهم باشد و هم بتوانیم با پول ریکوئست های مختلف، آنرا به تدریج کامل کنیم.
نسخه اولیه این مخزن کد در آدرس زیر قرار گرفته است : https://github.com/irbigdata/data-dockerfiles
سعی کرده ام موارد زیر را در این مخزن کد رعایت کنم :
- تنظیمات اصلی شامل ورژن نرم افزارها در فایل
.env
قرار گیرد که به راحتی قابل تنظیم و تغییر باشد. - در کنار فایل داکر کامپوز، فایل
makefile
را هم قرار دهم که کار با دستورات مختلف داکر در خط فرمان لینوکس یا WSL، سریعتر و راحت تر انجام شود (با تشکر از آقای بشیری عزیز که این بخش را مدیون ایشان هستم) - برخی از ایمیج های موردنیاز و پرکاربرد مانند ایرفلو و اسپارک را به صورت سفارشی آماده کرده ام که به راحتی بتوان کتابخانه های پایتون یا اپلیکیشن های لینوکس مورد نیاز را به آنها افزود.
- اکثر سرویس ها از یک شبکه قابل تنظیم استفاده می کنند که با این کار بتوان کلاسترهای مختلفی را بالا آورد که شبکه آنها مشترک بوده ، بتوانند به راحتی با یکدیگر ارتباط برقرار کنند. مثلا کافی است برای ارتباط بین اسپارک، هدوپ و ایرفلو، شبکه هر سه را یکسان تعریف کنیم و جداگانه هر کدام را بالا بیاوریم
GitHub – irbigdata/data-dockerfiles: a curated list of docker-compose files prepared for testing data engineering tools, databases and open source libraries.
a curated list of docker-compose files prepared for testing data engineering tools, databases and open source libraries. – GitHub – irbigdata/data-dockerfiles: a curated list of docker-compose fil…
https://github.com/irbigdata/data-dockerfiles
در هر صورت این مخزن کد شامل فایلهای آماده شده و تنظیم شده برای دیتابیس ها و ابزارهای زیر است :
به تدریج لیست فوق تکمیل خواهد شد.