پردازش یک میلیارد داده تاکسی های نیویورک
وبلاگ marksblogg اخیراً مجموعه مقالاتی را منتشر کرده است در خصوص پردازش داده های مسیرهای طی شده توسط تاکسی های نیویورک در شش سال گذشته که بالای یک میلیارد رکورد را شامل می شود.
کار بسیار خوبی که نویسنده مقاله انجام داده است، اجرای چند کوئری مشخص روی معماری ها و دیتابیس های مختلف است به گونه ای که کاربر بتواند آنها را با هم مقایسه کند. نحوه تنظیم و بارگذاری داده ها در هریک و نیز محدودیت ها و معایب هر کدام با توضیحات کامل مشخص شده است .
برخی از مقالات، به صورت فهرست وار از قرار زیر هستند :
-
A Billion Taxi Rides on Amazon EMR running Spark
-
A Billion Taxi Rides in Elasticsearch
-
A Billion Taxi Rides on Google’s BigQuery
-
A Billion Taxi Rides in PostgreSQL
-
A Billion Taxi Rides on Google’s Dataproc running Presto (سرویس جدید ابری گوگل)
-
A Billion Taxi Rides in Hive & Presto
-
n Redshift
البته مقاله اصلی که الهام بخش این مجموعه مقالات بوده است ، مقاله ایست با عنوان Analyzing 1.1 Billion NYC Taxi and Uber Trips, with a Vengeance که با استفاده از پستگرس به تحلیل این حجم از داده ها و رسم نمودارها و تحلیل آنها نموده است .
نکته بسیار جالب در رابطه با معماری های مختلف آزمایش شده برای کوئری گرفتن از یک میلیارد داده، سرعت بسیار بالای الاستیک سرچ نسبت به بقیه موارد است که در حد چند ثانیه کوئری ها را جواب داده است و بقیه در حد چند دقیقه . البته به خاطر محدودیت های سخت افزاری ، حجم فیلدهای رکوردها را برای الاستیک پایین آورده بودند اما با این وجود، نتیجه خیلی متفاوت بوده است .