مقایسه و انتخاب

پردازش یک میلیارد داده تاکسی های نیویورک

وبلاگ marksblogg اخیراً مجموعه مقالاتی را منتشر کرده است در خصوص پردازش داده های مسیرهای طی شده توسط تاکسی های نیویورک در شش سال گذشته که بالای یک میلیارد رکورد را شامل می شود.

کار بسیار خوبی که نویسنده مقاله انجام داده است، اجرای چند کوئری مشخص روی معماری ها و دیتابیس های مختلف است به گونه ای که کاربر بتواند آنها را با هم مقایسه کند. نحوه تنظیم و بارگذاری داده ها در هریک و نیز محدودیت ها و معایب هر کدام با توضیحات کامل مشخص شده است .

برخی از مقالات، به صورت فهرست وار از قرار زیر هستند :

  1. A Billion Taxi Rides on Amazon EMR running Spark

  2. A Billion Taxi Rides in Elasticsearch

  3. A Billion Taxi Rides on Google’s BigQuery

  4. A Billion Taxi Rides in PostgreSQL

  5. A Billion Taxi Rides on Google’s Dataproc running Presto (سرویس جدید ابری گوگل)

  6. A Billion Taxi Rides in Hive & Presto

  7. n Redshift

البته مقاله اصلی که الهام بخش این مجموعه مقالات بوده است ، مقاله ایست با عنوان  Analyzing 1.1 Billion NYC Taxi and Uber Trips, with a Vengeance که با استفاده از پستگرس به تحلیل این حجم از داده ها و رسم نمودارها و تحلیل آنها نموده است .

نکته بسیار جالب در رابطه با معماری های مختلف آزمایش شده برای کوئری گرفتن از یک میلیارد داده، سرعت بسیار بالای الاستیک سرچ نسبت به بقیه موارد است که در حد چند ثانیه کوئری ها را جواب داده است و بقیه در حد چند دقیقه . البته به خاطر محدودیت های سخت افزاری ، حجم فیلدهای رکوردها را برای الاستیک پایین آورده بودند اما با این وجود، نتیجه خیلی متفاوت بوده است .

 

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا