ابزار و کتابخانه ها

ساختاری استاندارد برای پروژه‌های علم داده

پروژه‌های علم داده در سراسر دنیا ساختاری مشابه دارد و اگر با دقت به آنها نگاه کنید،‌ مولفه های زیر را در اکثر قریب به اتفاق آنها خواهید دید :

  • داده‌‌ها . این داده‌ها معمولاً به داده‌های خام، داده‌های تست، داده‌های آموزش و مانند آن تقسیم می شوند.
  • کتابچه‌ها : استفاده از Jupyrt Notebooks هم جزء لاینفک پروژه‌های علم داده شده است که امکان مشاهده همزمان کدها، نتایج و مستندات را در یک فایل فراهم می‌کند.
  • کدهای پروژه : کدهایی که معمولاً به زبان پایتون یا R نوشته می‌شوند.
  • مدل‌های تولید شده : خروجی یک پروژه علم‌داده معمولاً یک مدل پیشگویی‌کننده یا دسته‌بندی کننده است.
  • مستندات و راهنماها
  • منابع و ارجاعات

پروژه‌ای با نام Cookiecutter Data Science توسط مهندسین سایت DrivenData در سالیان اخیر شروع شده است که امروزه مخزن گیت‌هاب آن، حدود ۳۲ توسعه‌دهنده دارد و هدف آن، ایجاد سریع پوشه‌ها و فایلهای اولیه یک پروژه علم داده با استفاده از کتابخانه محبوب تولید پروژه‌های خط فرمان CookieCutter پایتون است.

ساختاری که این کتابخانه برای یک پروژه تحلیل داده برای ما به صورت خودکار ایجاد می‌کند از قرار زیر است :

Plain Text

همانطور که می‌بینید، تمام نیازمندیهای معمول ما در پروژه‌های علم‌داده، در نظر گرفته شده است و استفاده از آن، روند کار را بین تیم‌های مختلف استاندارد و یکپارچه می‌کند.

برای ساخت و استفاده از این کتابخانه هم مشابه با سایر کتابخانه‌های پایتون، از دستور زیر استفاده می‌کنیم :

Python

در مرحله بعد، برای ایجاد یک پروژه جدید دستور زیر را اجرا می‌کنیم :

Python

با اجرای این دستور،‌ ابتدا سوالاتی از شما پرسیده میشود مانند نام پروژه،‌نسخه پایتون و مانند آن که در انتهای کار پوشه پروژه با تمام زیرپوشه‌های آن برای شما ساخته می‌شود.

اگر قصد کار در حوزه علم‌داده را دارید،‌ توصیه می‌کنم از این کتابخانه ساده اما مفید و کارآ،‌ حتماً استفاده کنید.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

۲ دیدگاه

  1. جناب دکتر ممنون بابت به اشتراک گذاری این موضوع. چند وقتی هست که در حوزه وب برای flask و جنگو از این ابزار استفاده میکنم. واقعا فوق العادس و سرعت توسعه رو به شدت بالا میبره هرچند که شخصا با اینکه الگوی محبوبش رو استفاده کردم ی جاهایی به نظرم میتونست بهتر باشه اما با این حال عالیه این ابزار.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا