معرفی Apache XTable
یکی از پروژههای بنیاد آپاچی که امروزه به تدریج در اخبار و مقالات حوزه داده در حال ظاهر شدن است، Apache XTable است. این پروژه تنها یک هدف دارد و آن هم امکان تبدیل سه فرمت رایج ساخت Lakehouse یعنی
Deltalake
Apache Iceberge
Apache Hudi
به یکدیگر است.
توضیح اینکه برای ساخت Lakehouse که ترکیب انبارههای داده سنتی با مفهوم دریاچه داده است امروزه سه قالب رایج Hudi, Iceberge و Deltalake را داریم که معمولاً هر سازمان یا ابزاری در حوزه توسعه و مدیریت دریاچه داده، با یکی از اینها کار خود را پیش برده است اما عدم سازگاری این سه قالب، باعث وجود مشکلاتی برای یک سازمان و به تبع آن، عدم گسترش مفهوم Lakehouse میشد چون انتخاب هر یک از این سه قالب، الزامات و محدودیتهایی را با خود به ارمغان میآورد که اکنون XTable نگرانی سازمانها را از این لحاظ مرتفع میکند. به کمک XTable با هر قالبی که یک سازمان دادههای خام خود را ذخیره کند، میتواند به راحتی آنها را به هم تبدیل کرده و نیاز خود را مرتفع سازد. (البته این کار، باعث افزونگی داده هم خواهد شد)
به عنوان مثال، فرض کنید که بخشی از سازمان، دادههای خود را به صورت Hudi و بخش دیگر سازمان، دادههای خود را به صورت Iceberge ذخیره کرده است. حال اگر یکی از این بخشها به همه دادهها نیاز داشته باشد، به مشکل بر می خورد.
این موضوع در شکل فوق، ترسیم شده است . در این شکل تیم B از طریق XTable, دادههای تیم A که به فرمت Hudi ذخیره شده است را به Iceberge تبدیل کرده و در کنار سایر دادههای خود، آنها را با Dremio پردازش میکند.
بنابراین اگر در انتخاب فناوری نهایی برای ساخت Lakehouse خود شک دارید، میتوانید یکی از این سه قالب را انتخاب کرده و هر جا نیاز به تبدیل آنها به یکدیگر داشتید از XTable استفاده کنید.