ساختاری استاندارد برای پروژه‌های علم داده

۲ 1,371 زمان مطالعه یک دقیقه

پروژه‌های علم داده در سراسر دنیا ساختاری مشابه دارد و اگر با دقت به آنها نگاه کنید،‌ مولفه های زیر را در اکثر قریب به اتفاق آنها خواهید دید :

داده‌‌ها . این داده‌ها معمولاً به داده‌های خام، داده‌های تست، داده‌های آموزش و مانند آن تقسیم می شوند.
کتابچه‌ها : استفاده از Jupyrt Notebooks هم جزء لاینفک پروژه‌های علم داده شده است که امکان مشاهده همزمان کدها، نتایج و مستندات را در یک فایل فراهم می‌کند.
کدهای پروژه : کدهایی که معمولاً به زبان پایتون یا R نوشته می‌شوند.
مدل‌های تولید شده : خروجی یک پروژه علم‌داده معمولاً یک مدل پیشگویی‌کننده یا دسته‌بندی کننده است.
مستندات و راهنماها
منابع و ارجاعات

پروژه‌ای با نام Cookiecutter Data Science توسط مهندسین سایت DrivenData در سالیان اخیر شروع شده است که امروزه مخزن گیت‌هاب آن، حدود ۳۲ توسعه‌دهنده دارد و هدف آن، ایجاد سریع پوشه‌ها و فایلهای اولیه یک پروژه علم داده با استفاده از کتابخانه محبوب تولید پروژه‌های خط فرمان CookieCutter پایتون است.

ساختاری که این کتابخانه برای یک پروژه تحلیل داده برای ما به صورت خودکار ایجاد می‌کند از قرار زیر است :

├── LICENSE
├── Makefile           <- Makefile with commands like `make data` or `make train`
├── README.md          <- The top-level README for developers using this project.
├── data
│   ├── external       <- Data from third party sources.
│   ├── interim        <- Intermediate data that has been transformed.
│   ├── processed      <- The final, canonical data sets for modeling.
│   └── raw            <- The original, immutable data dump.
│
├── docs               <- A default Sphinx project; see sphinx-doc.org for details
│
├── models             <- Trained and serialized models, model predictions, or model summaries
│
├── notebooks          <- Jupyter notebooks. Naming convention is a number (for ordering),
│                         the creator's initials, and a short `-` delimited description, e.g.
│                         `۱٫۰-jqp-initial-data-exploration`.
│
├── references         <- Data dictionaries, manuals, and all other explanatory materials.
│
├── reports            <- Generated analysis as HTML, PDF, LaTeX, etc.
│   └── figures        <- Generated graphics and figures to be used in reporting
│
├── requirements.txt   <- The requirements file for reproducing the analysis environment, e.g.
│                         generated with `pip freeze > requirements.txt`
│
├── src                <- Source code for use in this project.
│   ├── __init__.py    <- Makes src a Python module
│   │
│   ├── data           <- Scripts to download or generate data
│   │   └── make_dataset.py
│   │
│   ├── features       <- Scripts to turn raw data into features for modeling
│   │   └── build_features.py
│   │
│   ├── models         <- Scripts to train models and then use trained models to make
│   │   │                 predictions
│   │   ├── predict_model.py
│   │   └── train_model.py
│   │
│   └── visualization  <- Scripts to create exploratory and results oriented visualizations
│       └── visualize.py
│
└── tox.ini            <- tox file with settings for running tox; see tox.testrun.org

همانطور که می‌بینید، تمام نیازمندیهای معمول ما در پروژه‌های علم‌داده، در نظر گرفته شده است و استفاده از آن، روند کار را بین تیم‌های مختلف استاندارد و یکپارچه می‌کند.

برای ساخت و استفاده از این کتابخانه هم مشابه با سایر کتابخانه‌های پایتون، از دستور زیر استفاده می‌کنیم :

 	pip install cookiecutter

در مرحله بعد، برای ایجاد یک پروژه جدید دستور زیر را اجرا می‌کنیم :

	cookiecutter https://github.com/drivendata/cookiecutter-data-science

با اجرای این دستور،‌ ابتدا سوالاتی از شما پرسیده میشود مانند نام پروژه،‌نسخه پایتون و مانند آن که در انتهای کار پوشه پروژه با تمام زیرپوشه‌های آن برای شما ساخته می‌شود.

اگر قصد کار در حوزه علم‌داده را دارید،‌ توصیه می‌کنم از این کتابخانه ساده اما مفید و کارآ،‌ حتماً استفاده کنید.

برچسب ها

مجتبی بنائی 1398/06/29

۲ 1,371 زمان مطالعه یک دقیقه

بعدی را بخوانید

۲ دیدگاه

امیرمحمد گفت:

1399/01/14 در 01:58

command ها را نمی توانم ببینم.

پاسخ
اشکان حدادی گفت:

1400/04/25 در 07:58

جناب دکتر ممنون بابت به اشتراک گذاری این موضوع. چند وقتی هست که در حوزه وب برای flask و جنگو از این ابزار استفاده میکنم. واقعا فوق العادس و سرعت توسعه رو به شدت بالا میبره هرچند که شخصا با اینکه الگوی محبوبش رو استفاده کردم ی جاهایی به نظرم میتونست بهتر باشه اما با این حال عالیه این ابزار.

پاسخ

دیدگاهتان را بنویسید لغو پاسخ

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

Behnam Yazdanpanahi
مطلب بسیار مفید و‌ارزشمندی هست، ممنون...
مجتبی بنائی
سلام. امروزه خیلی هدوپ به صورت عملی استفاده نمیشه . اگر نیاز...
فاطمه
سلام برای کار با hortonworks در حد ابتدایی و شروع کار باابزا...
اصغر
از خواندن نظرات برخی افراد خیلی تعجب میکنم. متن بسیار کلی، ب...

ساختاری استاندارد برای پروژه‌های علم داده

مجتبی بنائی

بعدی را بخوانید

Mojo‌ در مقابل Rust‌ :‌برنده قطعا Mojo خواهد بود!

دست به کد : یک پروژه عملی طراحی خطوط پردازش داده

کِدرو : ‌قالبی استاندارد برای پروژ‌ه‌های علم داده

VS Code‌ محیطی ایده آل برای انجام پروژه‌های علم داده

Mojo‌ در مقابل Rust‌ :‌برنده قطعا Mojo خواهد بود!

دست به کد : یک پروژه عملی طراحی خطوط پردازش داده

کِدرو : ‌قالبی استاندارد برای پروژ‌ه‌های علم داده

VS Code‌ محیطی ایده آل برای انجام پروژه‌های علم داده

۲ دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

مجتبی بنائی

بعدی را بخوانید

Mojo‌ در مقابل Rust‌ :‌برنده قطعا Mojo خواهد بود!

دست به کد : یک پروژه عملی طراحی خطوط پردازش داده

کِدرو : ‌قالبی استاندارد برای پروژ‌ه‌های علم داده

VS Code‌ محیطی ایده آل برای انجام پروژه‌های علم داده

Mojo‌ در مقابل Rust‌ :‌برنده قطعا Mojo خواهد بود!

دست به کد : یک پروژه عملی طراحی خطوط پردازش داده

کِدرو : ‌قالبی استاندارد برای پروژ‌ه‌های علم داده

VS Code‌ محیطی ایده آل برای انجام پروژه‌های علم داده

با عضویت در خبرنامه ما

آخرین مطالب سایت را سریع تر از دیگران دریافت کنید

چگونه یک میلیون درخواست در ثانیه را با پایتون پاسخ دهیم ؟

VS Code‌ محیطی ایده آل برای انجام پروژه‌های علم داده

۲ دیدگاه

دیدگاهتان را بنویسید لغو پاسخ