ابزار و کتابخانه هاابزار و کتابخانه ها

معرفی Apache XTable

یکی از پروژه‌های بنیاد آپاچی که امروزه به تدریج در اخبار و مقالات حوزه داده در حال ظاهر شدن است، Apache XTable است. این پروژه تنها یک هدف دارد و آن هم امکان تبدیل سه فرمت رایج ساخت Lakehouse یعنی

Deltalake

Apache Iceberge

Apache Hudi

به یکدیگر است.

توضیح اینکه برای ساخت Lakehouse‌ که ترکیب انباره‌های داده سنتی با مفهوم دریاچه داده است امروزه سه قالب رایج Hudi, Iceberge‌ و Deltalake را داریم که معمولاً هر سازمان یا ابزاری در حوزه توسعه و مدیریت دریاچه داده، با یکی از این‌ها کار خود را پیش برده است اما عدم سازگاری این سه قالب، باعث وجود مشکلاتی برای یک سازمان و به تبع آن، عدم گسترش مفهوم Lakehouse‌ می‌شد چون انتخاب هر یک از این سه قالب، الزامات و محدودیت‌هایی را با خود به ارمغان می‌آورد که اکنون XTable‌ نگرانی سازمان‌ها را از این لحاظ مرتفع می‌کند. به کمک XTable با هر قالبی که یک سازمان داده‌های خام خود را ذخیره کند، می‌تواند به راحتی آنها را به هم تبدیل کرده و نیاز خود را مرتفع سازد. (البته این کار، باعث افزونگی داده‌ هم خواهد شد)

به عنوان مثال، فرض کنید که بخشی از سازمان، داده‌های خود را به صورت Hudi و بخش دیگر سازمان، داده‌های خود را به صورت Iceberge‌ ذخیره کرده است. حال اگر یکی از این بخش‌ها به همه داده‌ها نیاز داشته باشد، به مشکل بر می خورد.

این موضوع در شکل فوق، ترسیم شده است . در این شکل تیم B از طریق XTable, داده‌های تیم A که به فرمت Hudi ذخیره شده است را به Iceberge تبدیل کرده و در کنار سایر داده‌های خود، آنها را با Dremio پردازش میکند.

بنابراین اگر در انتخاب فناوری نهایی برای ساخت Lakehouse‌ خود شک دارید، می‌توانید یکی از این سه قالب را انتخاب کرده و هر جا نیاز به تبدیل آنها به یکدیگر داشتید از XTable‌ استفاده کنید.


امروزه به نظر می‌رسد که Apache Iceberge در حال جذب کاربران بیشتری است و اگر قصد طراحی یک Lakehouse را دارید، شاید بهتر باشد این فرمت را به عنوان قالب اصلی ذخیره داده‌ها انتخاب کنید.

Lakehouse

Lakehouse ترکیب دریاچه داده (که داده‌ها را به صورت خام و معمولا به صورت Parquet و مانند آن نگهداری می‌کند) و انباره داده است که اجازه میدهد بتوانیم داده‌های خام را با ذخیره‌کردن متادیتا، به نوعی دیتابیس تبدیل کنیم که مستقیما قابل کوئری گرفتن و استفاده در ابزارهای تحلیلی و گزارش سازی باشد

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا