کِدرو : ‌قالبی استاندارد برای پروژ‌ه‌های علم داده

۰ 455 زمان مطالعه یک دقیقه

اخیرا به پروژه متن‌بازی با نام کدرو برخوردم که هم ماموریت آن به عنوان یک مهندس نرم‌افزار که قدر و قیمت استانداردها را در حوزه‌‌های برنامه‌نویسی و نرم افزار با تمام وجود احساس کرده است، برایم ارزشمند بود و هم تعداد نسبتاً زیاد توسعه دهندگان آن ( حدود صد نفر) توجهم را جلب کرد. بنابراین تصمیم گرفتم علیرغم اینکه از حوزه علم داده فاصله گرفته‌ام اما این کتابخانه ارزشمند پایتون را معرفی کنم. باشد که برای علاقه‌مندان آن مفید باشد .

یک تیم علم داده در یک سازمان، نیاز دارد علاوه بر پاکسازی و پردازش داده و ساخت مدل‌های پیش‌گویانه، موارد زیر را هم در پروژ‌های علم داده لحاظ کند :‌

کدنویسی استاندارد
ساختار منظم برای هر پروژه
تفکیک منطق و الگوریتم از فریمورک‌های اجرا کننده
مدیریت یا نظارت گرافیکی و ساده بر خطوط پردازش داده
امکان ایجاد خطوط پردازش داده
نسخه‌دهی کدها و داده‌ها
وجود یک کاتالوگ برای هر مجموعه داده شامل توضیحات کلی و شرح فیلدها

کِدرو، این نیازمندیها را با ایجاد یک فریمورک منظم برای تولید پروژه‌های علم داده به خوبی پاسخ می دهد.

به عنوان مثال، ساختار پیشنهادی کِدرو برای پروژه‌های علم داده از قرار زیر است :‌

و یا نمونه‌ای از خروجی یک خط پردازش داده که با کِدرو طراحی شده است مشابه قطعه کد زیر است :

kedro run

۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۳۹,۹۵۰ - root - INFO - ** Kedro project kedro-tutorial
۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۳۹,۹۵۷ - kedro.io.data_catalog - INFO - Loading data from `shuttles` (ExcelDataSet)...
۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۴۸,۵۲۱ - kedro.pipeline.node - INFO - Running node: preprocess_shuttles_node: preprocess_shuttles([shuttles]) -> [preprocessed_shuttles]
۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۴۸,۵۸۷ - kedro.io.data_catalog - INFO - Saving data to `preprocessed_shuttles` (MemoryDataSet)...
۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۴۹,۱۳۳ - kedro.runner.sequential_runner - INFO - Completed 1 out of 2 tasks
۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۴۹,۱۳۳ - kedro.io.data_catalog - INFO - Loading data from `companies` (CSVDataSet)...
۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۴۹,۱۶۸ - kedro.pipeline.node - INFO - Running node: preprocess_companies_node: preprocess_companies([companies]) -> [preprocessed_companies]
۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۴۹,۲۱۲ - kedro.io.data_catalog - INFO - Saving data to `preprocessed_companies` (MemoryDataSet)...
۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۴۹,۴۵۸ - kedro.runner.sequential_runner - INFO - Completed 2 out of 2 tasks
۲۰۱۹-۰۸-۱۹ ۱۰:۵۰:۴۹,۴۵۹ - kedro.runner.sequential_runner - INFO - Pipeline execution completed successfully.

کِدرو با اسپارک هم به خوبی کار میکند و می‌توانید مستقیما خطوط پردازش داده‌ای طراحی کنید که با اسپارک پردازش شوند.

به عنوان کلام آخر،‌ نمایش گرافیکی یک خط پردازش داده نمونه که با کِدرو طراحی شده است را در تصویر زیر می‌توانید مشاهده کنید :

اگر به کدرو علاقه‌مند شده‌اید می‌توانید با این مثال ساده شروع کنید.

امتیاز کاربران: اولین نفری باشید که امتیاز می دهد!

برچسب ها

مجتبی بنائی 1400/01/03

۰ 455 زمان مطالعه یک دقیقه

بعدی را بخوانید

دیدگاهتان را بنویسید لغو پاسخ

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

Behnam Yazdanpanahi
مطلب بسیار مفید و‌ارزشمندی هست، ممنون...
مجتبی بنائی
سلام. امروزه خیلی هدوپ به صورت عملی استفاده نمیشه . اگر نیاز...
فاطمه
سلام برای کار با hortonworks در حد ابتدایی و شروع کار باابزا...
اصغر
از خواندن نظرات برخی افراد خیلی تعجب میکنم. متن بسیار کلی، ب...

کِدرو : ‌قالبی استاندارد برای پروژ‌ه‌های علم داده

مجتبی بنائی

بعدی را بخوانید

ساختاری استاندارد برای پروژه‌های علم داده

آشنایی با استاندارد داده‌های باز

آشنایی با استاندارد داده های مرتب (Tidy Data)

مدیریت داده : اصول ، چالش ها و چارچوب ها

ساختاری استاندارد برای پروژه‌های علم داده

آشنایی با استاندارد داده‌های باز

آشنایی با استاندارد داده های مرتب (Tidy Data)

مدیریت داده : اصول ، چالش ها و چارچوب ها

دیدگاهتان را بنویسید لغو پاسخ

مجتبی بنائی

بعدی را بخوانید

ساختاری استاندارد برای پروژه‌های علم داده

آشنایی با استاندارد داده‌های باز

آشنایی با استاندارد داده های مرتب (Tidy Data)

مدیریت داده : اصول ، چالش ها و چارچوب ها

ساختاری استاندارد برای پروژه‌های علم داده

آشنایی با استاندارد داده‌های باز

آشنایی با استاندارد داده های مرتب (Tidy Data)

مدیریت داده : اصول ، چالش ها و چارچوب ها

با عضویت در خبرنامه ما

آخرین مطالب سایت را سریع تر از دیگران دریافت کنید

مهارت‌های مورد نیاز بازارکار حوزه داده

معرفی کتاب : داده کاوی با پایتون به همراه تحلیل شبکه های اجتماعی

دیدگاهتان را بنویسید لغو پاسخ