ساختاری استاندارد برای پروژههای علم داده
پروژههای علم داده در سراسر دنیا ساختاری مشابه دارد و اگر با دقت به آنها نگاه کنید، مولفه های زیر را در اکثر قریب به اتفاق آنها خواهید دید :
- دادهها . این دادهها معمولاً به دادههای خام، دادههای تست، دادههای آموزش و مانند آن تقسیم می شوند.
- کتابچهها : استفاده از
Jupyrt Notebooks
هم جزء لاینفک پروژههای علم داده شده است که امکان مشاهده همزمان کدها، نتایج و مستندات را در یک فایل فراهم میکند. - کدهای پروژه : کدهایی که معمولاً به زبان پایتون یا
R
نوشته میشوند. - مدلهای تولید شده : خروجی یک پروژه علمداده معمولاً یک مدل پیشگوییکننده یا دستهبندی کننده است.
- مستندات و راهنماها
- منابع و ارجاعات
پروژهای با نام Cookiecutter Data Science توسط مهندسین سایت DrivenData در سالیان اخیر شروع شده است که امروزه مخزن گیتهاب آن، حدود ۳۲ توسعهدهنده دارد و هدف آن، ایجاد سریع پوشهها و فایلهای اولیه یک پروژه علم داده با استفاده از کتابخانه محبوب تولید پروژههای خط فرمان CookieCutter پایتون است.
ساختاری که این کتابخانه برای یک پروژه تحلیل داده برای ما به صورت خودکار ایجاد میکند از قرار زیر است :
همانطور که میبینید، تمام نیازمندیهای معمول ما در پروژههای علمداده، در نظر گرفته شده است و استفاده از آن، روند کار را بین تیمهای مختلف استاندارد و یکپارچه میکند.
برای ساخت و استفاده از این کتابخانه هم مشابه با سایر کتابخانههای پایتون، از دستور زیر استفاده میکنیم :
در مرحله بعد، برای ایجاد یک پروژه جدید دستور زیر را اجرا میکنیم :
با اجرای این دستور، ابتدا سوالاتی از شما پرسیده میشود مانند نام پروژه،نسخه پایتون و مانند آن که در انتهای کار پوشه پروژه با تمام زیرپوشههای آن برای شما ساخته میشود.
اگر قصد کار در حوزه علمداده را دارید، توصیه میکنم از این کتابخانه ساده اما مفید و کارآ، حتماً استفاده کنید.
command ها را نمی توانم ببینم.
جناب دکتر ممنون بابت به اشتراک گذاری این موضوع. چند وقتی هست که در حوزه وب برای flask و جنگو از این ابزار استفاده میکنم. واقعا فوق العادس و سرعت توسعه رو به شدت بالا میبره هرچند که شخصا با اینکه الگوی محبوبش رو استفاده کردم ی جاهایی به نظرم میتونست بهتر باشه اما با این حال عالیه این ابزار.