ابزار و کتابخانه ها

دیتا آی کو : بستری مناسب برای شروع علم داده

همانطور که قبلا اشاره شد، یادگیری ماشین و علم داده جزء برترین شغل های ۲۰۱۸ آمریکا به عنوان یکی از پیشرفته ترین کشورهای دنیا از لحاظ فناوری، قرار گرفته است و روز به روز بر تعداد علاقه مندان و مشتاقان این حوزه نوین از علم ، افزوده میشود.

بسیاری از این علاقه مندان به زبان های برنامه نویسی و تحلیل داده مانند پایتون و R تسلط ندارند و یا برای سرعت بیشتر کار، نیازمند ابزارهایی هستند که به صورت بصری و با روش «انتخاب و کلیک» بتوانند مراحل مختلف کار با داده شامل پیش پردازش، تحلیل اکتشافی و بررسی اولیه ، تجمیع داده از منابع مختلف، ساخت مدل های مختلف یادگیری ماشین، آزمایش هر مدل و نهایتاً تبدیل این مدل به یک محصول تجاری را به راحتی و با حداقل زمان ممکن انجام دهند.

از طرفی امروزه تحلیل داده با دنیای کلان داده گره خورده است و نیازمند ابزاری در حوزه تحلیل و مدلسازی داده هستیم که بتواند به راحتی داده ها را در حجم بالا بخواند، با کتابخانه های مختلف هدوپ و اسپارک و مانند آن ارتباط برقرار کند و نتایج و تحلیل ها را هم در خروجی های مرتبط مانند پارکوئت و ORC درون HDFS و سایر فایل سیستم های کلان داده، ذخیره کند.

چندی پیش با استودیودی علم داده دیتا آی کو – Dataiku Data Science Studio آشنا شدم. محیطی که یک ماشین مجازی از پیش تنظیم شده است با حجم حدود ۲ گیگابایت که پس از نصب به راحتی اجرا شده و از طریق مرورگر امکان اتصال به آن، فراهم میشود.

محیطی که جذابیت بصری و سادگی کار بالایی دارد و ترکیب برنامه نویسی با قابلیت های بصری آنرا به یک گزینه بسیار مناسب برای شروع به کار با علم داده برای علاقه مندان این حوزه تبدیل کرده است. استارتاپ Dataiku در دو سال اخیر جزء شرکتهای برتر ارائه دهنده بسترکار علم داده (Data Science Platforms) به انتخاب گارتنر (ر.ک. آشنایی با گارتنر ) قرار گرفته است و وب سایت مهندسی داده، سعی خواهد کرد با تولید مقالاتی در این حوزه، علاقه مندان را با جنبه های مختلف این بستر نوین و جذاب آشنا کند.

نسخه رایگان استودیو علم داده دیتا آی کو، تا ۳۰ هزار داده را پشتیبانی کرده، امکان اتصال به مای اسکیو ال و پستگرس و نوشتن کدهای پایتون و R بر روی داده های درج شده در آن را فراهم می کند که برای بسیاری از کاربردهای دنیای واقعی و اثبات اولیه یک ایده و مدل، مناسب به نظر می رسد.

توصیه می کنم با مراجعه به سایت دیتا آی کو و دانلود و اجرای آن در VirtualBox، سه آموزش اولیه تهیه شده توسط خود سایت دیتا آی کیو که از این آموزش شروع میشود را انجام دهید تا از نزدیک با امکانات بسیار متنوع و کامل این مجموعه ، آشنا شوید.

از نقاط قوت اصلی این نرم افزار امکان ایجاد یک خط پردازش داده به صورت ویژوال و بصری (البته مشابه با رپیدماینر و Knime و H2O.io و سایر ابزار علم داده) به سادگی و درج کدنویسی در هر جای این خط پردازش است. در زیر یک خط پردازش داده تولید شده با دیتا آی کو را مشاهده می کنید :

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا