اخبار

دریاچه داده : معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات

در دنیای کلان داده، مدتیست که عبارت دریاچه داده به یک اصطلاح فراگیر در حوزه معماریهای پیشنهادی برای پردازش داده ها تبدیل شده است .

دریاچه داده از دید مفهومی، یک مکان مشترک برای ذخیره انواع داده های یک سازمان به صورت خام و پردازش نشده است .

برخلاف انباره های داده که به صورت خاص برای مقاصد تحلیل و گزارش گیری های مدیریتی طراحی می شوند و شکل داده های ورودی را به قالب مورد نیاز خود تبدیل و ذخیره می کنند، دریاچه های داده ، اطلاعات و داده ها را به صورت خام ذخیره می کنند تا در آینده، ابزارهای پردازشی و تحلیل گران، خود تصمیم بگیرند که چه تبدیلی و چه پردازشی را روی آنها انجام بدهند.

از طرفی، انباره های داده دارای قالب و ساختار از پیش تعیین شده هستند و این موضوع، انواع داده های نوینی که روزانه در سازمانها تولید می شود را برای ذخیره به منظور مقاصد تحلیلی به چالش دچار می کند چون یکسره نیاز به تیمی برای مدیریت و طراحی ساختار و تبدیل داده ها خواهیم بود. در صورتیکه در دریاچه داده ، داده ها به همان شکلی که هستند ( مثلا داده های خام شبکه ، حسگرها ، متون استخراج شده از شبکه های اجتماعی و … ) ، ذخیره می شوند و نیاز مداوم به پالایش ندارند.

نکته دیگری که در مورد انباره های داده وجود دارد این است که در این سامانه ها، اطلاعات به صورت تجمعی ذخیره می شوند مثلا فروش ماهیانه و فروش هفتگی یک محصول اما فروش ساعتی یا لحظه ای آن دیگر ذخیره نمی شود و از بین می رود که دریاچه داده سازمانی ، این نقیصه را هم با حفظ داده های اصلی، مرتفع می سازد.

برای لیست اختلافات مابین انباره های داده و دریاچه داده ، از این لینک می توانید استفاده کنید.

مارتین فاولر به عنوان یکی از پیشروهای مهندسی نرم افزار و مباحث مدیریت داده ‌(نویسنده کتاب NoSQL Distilled) در مقاله ای که در زمینه دریاچه داده در سایت خود منتشر کرده است این تفاوت را به خوبی با شکل زیر نمایش داده است :

lake2

رابطه ای که میان دریاچه داده و سایر داده ها و نرم افزارهای یک سازمان می توان پیشنهاد کرد این است که به عنوان یک محیط جنبی و کاملا مجزا از داده های عملیاتی، به ذخیره داده ها و اطلاعات در قالب های باز (مانند جی سان ، اکس ام ال ، متن و …) یا بانکهای اطلاعاتی نو اس کیو ال بدون ساختار بپردازد و تحلیل گران از روی این داده ها ، ساختارهای تحلیلی خود را طراحی و اجرا کنند. نمایی پیشنهادی از این ساختار در شکل زیر و نیز عکس بالای صفحه قابل مشاهده است.

lake3

دریاچه داده هم مثل بسیاری دیگر از فناوریهای حوزه کلان داده تا به بلوغ رسیدن و رفع اشکالات و نهادینه شدن در سازمانها، راه درازی را در پیش دارد.

 

 

 

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

1 دیدگاه

  1. با تشکر از مطلب آموزنده شما

    چقدر این استراتژی داده تو این یکی دو سال در حال تغییر و پیشرفت, بکمک فناوری دریاچه داده، داده کاوی بسادگی میسر میشه.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا