چالشها و فرصت ها در پردازش کلان دادههای جغرافیایی
این مقاله از نوشتاری در ویژه نامه کلان داده ماهنامه پیوست با همین عنوان و با قلم علیرضا کاشانیان ،با هدف جمع آوری مطالب مفید حوزه کلان داده، عیناً بازنشر شده است.
دادههای کلان در یک دهه اخیر تبدیل به واژه پرگفتمان در کلیه سطوح تحقیقاتی و تجاری شده است و کنفرانسهای متعدد آکادمیک و تجاری در سطح جهان با محوریت اصلی این موضوع برگزار شده است. به موازات آن حجم زیادی از مقالات علمی برآمده از کارهای تحقیقاتی در دانشگاهها نیز به این حوزه اختصاص داده شده است که نشان از اهمیت آن در آینده دنیای پردازش اطلاعات دارد. اما دادههای کلان واقعاً چه هستند و چرا تا این حد اهمیت پیدا کردهاند؟ واژه داده کلان به طور مفهومی به بانکهای اطلاعاتی اطلاق میشود که دارای حجم رکوردهای انبوهی است که با روشهای سنتی و مکانیسمهای عادی در نرمافزارهای مدیریت بانکهای اطلاعاتی قادر به پردازش آنها نیستیم. تولید حجم انبوه رکوردهای اطلاعات، چالشهای فراوانی پیش روی ما قرار خواهد داد از جمله در زمینه شیوه جمعآوری دادهها، ذخیرهسازی آنها، پردازش، جستوجو، تقسیم با دیگران، انتقال، تولید نمودارهای آماری مناسب، کوئری گرفتن در سطح بانک اطلاعاتی، بهروزرسانی رکوردها و حتی حفظ حریم خصوصی افراد. واژه داده کلان، به خصوص زمانی که بحث از آنالیز دادههای انبوه برای استخراج و استنتاج اطلاعات مفید و کاربردی باشد، اهمیت خود را دوچندان نشان میدهد. درک صحیح از مفهوم داده کلان برای فهم چرایی سختی پردازش آن بسیار مهم است. تصور کنید یک تصویر دیجیتالی از یک دوربین مداربسته دارای ۱۰ میلیون پیکسل باشد. اگر پردازش این تصویر برای شناسایی چهره یک فرد چیزی حدود یک ثانیه برای یک پردازشگر قوی زمانبر باشد، آنگاه اگر در یک تصویر ویدئویی لحظهای ۳۶ فریم تصویر در یک ثانیه موجود باشد، میفهمیم که باید حدود ۳۶ کامپیوتر همزمان ۳۶ تصویر را پردازش کنند تا درلحظه قادر باشند چهره یک فرد در یک ویدئو را شناسایی کنند. اگر ما در سطح شهر تهران در نقاطی مانند ایستگاههای مترو و معابر مهم شهری، حدود ۱۰ هزار دوربین مداربسته نصب کنیم که همه آنها ۳۶ فریم در ثانیه تصویر تولید کنند، برای شناسایی احتمالی چهره یک مجرم، باید حدود ۳۶۰ هزار عدد کامپیوتر به طور همزمان این حجم وسیع اطلاعات را در هر ثانیه تحلیل کنند، تا اگر با احتمال اندکی چهره فرد مجرم در تصاویر شناسایی شد، نیروهای امنیتی بتوانند سریع اقدام کنند. این موضوع فقط یک مثال ساده از تولید حجم زیادی از دادههاست که گاه تحلیل و پردازش آنها هنوز با ابزار و روشهای موجود امکانپذیر یا اقتصادی نیست. تحلیل دادههای کلان، کاربردهای موثری در حل مشکلات بشری یا خلق ثروت نیز دارند. به عنوان مثال با شناسایی روندهای صعودی و نزولی از طریق تحلیل حجم زیادی از تراکنشهای مالی در بازار خرید و فروش ارزهای رایج در جهان (Forex)، میتوان فرصتهای سرمایهگذاری در هر لحظه و ثانیه را شناسایی کرد. به عنوان نمونهای دیگر، تحلیل حجم زیادی از دادههای محیطی مانند میزان آلایندهها در هوا به همراه میزان سرعت وزش باد و ترکیب آن با میزان تابش نور خورشید در هر نقطه جغرافیایی از شهر میتواند در تشخیص فوری یک بیماری واگیردار همگانی موثر واقع شود.
دانشمندان، شرکتهای تجاری بزرگ و دولتهای محلی، از جمله گروههایی هستند که برای پیشبرد اهداف بلندمرتبه خود باید توان خود را برای تحلیل دادههای کلان توسعه دهند که البته سرعت رشد تولید این دادهها امروزه فراتر از سرعت رشد فناوریهای جدید برای پردازش آنهاست و به همین دلیل محققان اعتقاد دارند که توجه بیش از پیش به روشهای موثر در پردازش فوری دادههای تولیدی در هر لحظه از زمان، بسیار حائز اهمیت شده است، چه بسا تحلیلی که در دادههای امروز در همین ساعت خاص از روز انجام شود، برای مدیریت تصمیمی در چند ساعت آینده بسیار مفید باشد اما همین داده برای دو روز آینده دیگر کاربردی نداشته باشد. با این نگاه میتوان حدس زد که در هر ثانیه از شبانهروز حجم زیادی از اطلاعاتی که میتوانند منجر به تصمیمسازیهای بهینه و تغییر سرنوشت شوند ارزش خود را از دست میدهند و تنها میتوانند به عنوان دادههای آرشیو در تحلیلهای بعدی مورد استفاده قرار گیرند.
در حوزه دادههای جغرافیایی، تولید و پردازش لحظهای دادههای مکانمحور نیز مورد توجه فراوان قرار گرفته است.
امروزه صدها میلیون نفر با حمل تلفنهای همراه هوشمند خود، تبدیل به سنسورهای متحرکی شدهاند که در هر لحظه از شبانهروز دادههای مکانی جدیدی را تولید میکنند. در متون آکادمیک این اتفاق جدید را به عنوان هر شهروند یک سنسور مینامند (Citizens as Sensors) که به مفهوم یک فرصت بکر برای بهرهگیری از مکان افراد به عنوان سنسورهای اطلاعاتی است.
شرکت گوگل و Waze به عنوان نمونه از جمله پیشتازانی هستند که با اندازهگیری سرعت حرکت کاربران تلفن همراه، که نرمافزار نقشه آنها را نصب کردهاند، پی به میزان انباشتگی جمعیت در سطح معابر یا میزان سرعت میانگین حرکت خودروها میبرند، از این رو به سادگی میتوانند تحلیل دقیقی از ترافیک شبکه معابر شهری تولید کنند. با این تحلیل لحظهای، صدها هزار شهروند به راحتی میتوانند مسیرهایی را پیدا کنند که کمترین میزان ترافیک را دارد و این یعنی کمک به جلوگیری از اتلاف بیش از حد مصرف بنزین و صرفهجویی روزانه صدها هزار ساعت از زمان سفر شهری برای همه شهروندان. روش سنتی جمعآوری داده ترافیکی استفاده از سنسورهای متعدد سرعتسنج در کلیه شبکه معابر شهری است که معمولاً هزینه نگهداری و نصب این حجم از سنسورها برای بالغ بر ۳۰ هزار معبر مهم در یک شهر بزرگ مانند تهران بسیار طاقتفرساست. گوشیهای تلفن همراه تنها یک نمونه از سنسورهای موثر در جمعآوری دادههای مکانی هستند که هر لحظه مختصات جغرافیایی یک شهروند را ذخیره و به سرورهای پردازشگر اصلی ارسال میکنند. سنسورهای متعدد دیگری نیز امروزه در سطح شهرها و ساختمانها نصب شدهاند که عمدتاً برای مدیریت و هوشمندسازی زندگی شهری به کار گرفته میشوند. به عنوان نمونه دوربینهای سنجش سرعت خودروها، سنسورهای سنجنده آلودگی هوا و سنسورهای عبور و مرور افراد به داخل ساختمانها از این دسته به شمار میروند. این سنسورها عموماً یک مقدار از یک رویداد خاص را در یک مکان ویژه اندازهگیری میکنند و چون المان مکان جغرافیایی در تحلیل عامل مهمی است، این دادههای انبوه در گستره دادههای مکانی کلان (GeoSpatial Big Data or GBD) مورد بررسی قرار میگیرند. به عنوان نمونه اینکه سرعت میانگین خودروها قبل از ورود به تونل رسالت و بعد از خروج از آن در تهران چه میزان است، بیشتر به عنوان یک المان تحلیلی برای سنجش طراحی عرض معبر ورود و خروج تونل اهمیت دارد تا سرعت لحظهای عبور خودروها در یک مکان نامعین. امروزه به غیر از سنسورهای زمینی حجم متنوعی از سنسورهای هوایی و فضایی نیز مورد استفاده قرار میگیرند. به عنوان نمونه با استفاده از هواپیماهای بدون سرنشین (Drones) میتوان با نصب سنسورهای لیزری روی آنها، اسکنهای لحظهای از یک سطح جغرافیایی گسترده یا محدود به دست آورد که این دادههای به شکل ابر نقطهای، میلیاردها نقطه دارای مختصات (X,Y,Z) را شامل میشود و میتوان با تحلیل فرکانس رنگ هر نقطه، یک پترن خاص از یک جسم فیزیکی و رویداد حرکتی اجسام را شناسایی کرد. در سطوح فضایی بالاتر میتوان سنسورهای متعددی را برای سنجش میزان گرما در هر نقطه روی زمین بر اساس محور زمان به دست آورد یا تصاویر هوایی و فضایی کمک میکنند که تغییرات ناگهانی وضعیت اجسام در روی زمین تحت تاثیر آتشسوزی یا سیل شناسایی شوند. در این رابطه در کشور استرالیا، که هرساله در معرض آتش گرفتن جنگلها به دلیل افزایش حرارت به درجات بالاتر از ۴۵ است، از تصاویر فضایی لحظهای استفاده موثری میشود. با این توصیفها میتوان پی برد در حوزه اطلاعات جغرافیایی، استفاده از سنسورهای زمینی و هوایی به طور جدی مورد توجه محققان قرار گرفته است تا جایی که موسسات و شرکتهای خصوصی مهمی در دنیا به شکل اختصاصی در زمینه تحلیل دادههای سنسوری جغرافیایی فعالیت میکنند و نتایج خروجیهای خود را برای مدیریت ساخت و سازهای شهری یا مدیریت فضای سبز یا طراحیهای توسعه مسکن شهری به شهرداریها و دولتهای محلی میفروشند.
دادههای جغرافیایی کلان تنها از طریق سنسورهای فیزیکی نصبشده روی زمین یا ماهوارهها تولید نمیشوند، بلکه حجم زیادی از دادههای مهم تولیدشده در شبکههای اجتماعی مانند توییتر و اینستاگرام دارای مختصات جغرافیایی دقیق یا نیمه دقیق (تنها محدوده شهر یا کشور) هستند که توسط جیپیاس گوشیهای همراه به عنوان یک فیلد اطلاعات اضافه به تصاویر و نوشتههای تولیدی چسبیده است. این فیلد اطلاعاتی کوچک به عنوان کمکی بزرگ برای شناسایی یک حادثه یا رویداد خاص روی زمین میتواند مورد استفاده قرار گیرد. جالب است بدانید در سالهای اخیر تحقیقات دانشگاهی موثری برای مطالعه مکان توییتها در توییتر یا مکان تصاویر در اینستاگرام انجام شده که نتایج اولیه آنها قابل توجه است. به عنوان مثال بررسی هزاران توییت تولیدشده در لحظات اولیه یک حادثه فراگیر مانند سیل و زلزله در یک منطقه خاص، به مراتب سریعتر از انتشار رسمی اخبار در رسانهها و حتی سایتهای اورژانس کشورهاست. این فاصله زمانی به خصوص برای کمکرسانی به آسیبدیدگان اهمیت زیادی دارد، زیرا دقایق اول پس از رخداد حادثه در نجات جان انسان نقش کلیدی دارند. در حال حاضر پلتفرمهایی در دنیا روی اینترنت توسعه داده شدهاند که رویدادهای گزارششده در توییتها را تحلیل و سپس بر اساس هشتگهای معروف آنها را دستهبندی میکنند و روی نقشه نشان میدهند. نمونهای از این پلتفرمها در تصویر زیر دیده میشود که از سایت trendsmap.com استخراج شده است:
اگر علاقهمند به کار با دادههای کلان باشید، ابزارهای متعددی در حوزه بانکهای اطلاعات برای ذخیره موثر یا گرفتن کوئری فوق سریع توسعه داده شدهاند که تعدادی از بهترینها در لیست زیر آمده است:
http://hadoop.apache.org
http://cassandra.apache.org
https://plot.ly
http://bokeh.pydata.org/en/latest
https://neo4j.com
http://www.cloudera.com
http://openrefine.org
http://storm.apache.org
http://www.wolframalpha.com
https://rapidminer.com
آن دسته از افرادی که علاقه دارند به بانکهای حجیم و کاربردی دسترسی داشته باشند، کافی است در اینترنت Open Big Data را جستوجو کنند. به عنوان نمونه، در سال ۲۰۱۴ شرکت مخابراتی تلکام ایتالیا اولین دور از مسابقات نوآوری در زمینه کاربرد دادههای کلان را برگزار کرد.
در این مسابقات بانکهای اطلاعات حجیمی، به خصوص در زمینه شیوه استفاده شهروندان ایتالیایی، از سرویسهای مخابراتی مانند پیامک و مکالمه در اختیار شرکتکنندگان قرار گرفت، به دلیل استقبال عمومی زیاد این دادهها به صورت داده باز (Open Big Data) در اختیار عموم قرار گرفت که میتوانید در آدرس dandelion.eu/datamine/open-big-data به آنها دسترسی پیدا کنید. به عنوان نمونه فکر کنید آیا میتوان بین مکان جغرافیایی افرادی که در یک شهر زندگی میکنند و میزان دقایق مکالمه تلفنی ارتباط موثری پیدا کرد؟ آیا میتوان فهمید افرادی که پیامک زیادی ارسال میکنند، معمولاً مکالمات طولانی روزانه هم دارند؟ آیا میزان گرمای هوا در میزان مکالمه تلفنی در روزهای مختلف سال موثر است و پرسشهایی از این دست
* علیرضا کاشیان کارشناس ارشد فناوری اطلاعات و دانشجوی دکترا در گرایش پردازش دادههای باز جغرافیایی در دانشگاه ملبورن است که در زمینه سنجش کیفیت موقعیت جغرافیایی دادههای Points of Interest در پروژه جهانی OpenStreetMap فعالیت میکند. برای بررسی بیشتر فعالیتهای ایشان میتوانید به سایت
http://openstreetmap.me مراجعه کنید.