کاربردها

چالش‌ها و فرصت ها در پردازش کلان داده‌های جغرافیایی

این مقاله از نوشتاری در ویژه نامه کلان داده  ماهنامه پیوست با همین عنوان و با قلم علیرضا کاشانیان ،با هدف جمع آوری مطالب مفید حوزه کلان داده، عیناً بازنشر شده است.

داده‌های کلان در یک دهه اخیر تبدیل به واژه پرگفتمان در کلیه سطوح تحقیقاتی و تجاری شده است و کنفرانس‌های متعدد آکادمیک و تجاری در سطح جهان با محوریت اصلی این موضوع برگزار شده است. به موازات آن حجم زیادی از مقالات علمی برآمده از کارهای تحقیقاتی در دانشگاه‌ها نیز به این حوزه اختصاص داده شده است که نشان از اهمیت آن در آینده دنیای پردازش اطلاعات دارد. اما داده‌های کلان واقعاً چه هستند و چرا تا این حد اهمیت پیدا کرده‌اند؟ واژه داده کلان به طور مفهومی به بانک‌های اطلاعاتی اطلاق می‌شود که دارای حجم رکوردهای انبوهی است که با روش‌های سنتی و مکانیسم‌های عادی در نرم‌افزارهای مدیریت بانک‌های اطلاعاتی قادر به پردازش آنها نیستیم. تولید حجم انبوه رکوردهای اطلاعات، چالش‌های فراوانی پیش روی ما قرار خواهد داد از جمله در زمینه شیوه جمع‌آوری داده‌ها، ذخیره‌سازی آنها، پردازش، جست‌وجو، تقسیم با دیگران، انتقال، تولید نمودارهای آماری مناسب، کوئری گرفتن در سطح بانک اطلاعاتی، به‌روزرسانی رکوردها و حتی حفظ حریم خصوصی افراد. واژه داده کلان، به خصوص زمانی که بحث از آنالیز داده‌های انبوه برای استخراج و استنتاج اطلاعات مفید و کاربردی باشد، اهمیت خود را دوچندان نشان می‌دهد. درک صحیح از مفهوم داده کلان برای فهم چرایی سختی پردازش آن بسیار مهم است. تصور کنید یک تصویر دیجیتالی از یک دوربین مداربسته دارای ۱۰ میلیون پیکسل باشد. اگر پردازش این تصویر برای شناسایی چهره یک فرد چیزی حدود یک ثانیه برای یک پردازشگر قوی زمانبر باشد، آنگاه اگر در یک تصویر ویدئویی لحظه‌ای ۳۶ فریم تصویر در یک ثانیه موجود باشد، می‌فهمیم که باید حدود ۳۶ کامپیوتر همزمان ۳۶ تصویر را پردازش کنند تا درلحظه قادر باشند چهره یک فرد در یک ویدئو را شناسایی کنند. اگر ما در سطح شهر تهران در نقاطی مانند ایستگاه‌های مترو و معابر مهم شهری، حدود ۱۰ هزار دوربین مداربسته نصب کنیم که همه آنها ۳۶ فریم در ثانیه تصویر تولید کنند، برای شناسایی احتمالی چهره یک مجرم، باید حدود ۳۶۰ هزار عدد کامپیوتر به طور همزمان این حجم وسیع اطلاعات را در هر ثانیه تحلیل کنند، تا اگر با احتمال اندکی چهره فرد مجرم در تصاویر شناسایی شد، نیروهای امنیتی بتوانند سریع اقدام کنند. این موضوع فقط یک مثال ساده از تولید حجم زیادی از داده‌هاست که گاه تحلیل و پردازش آنها هنوز با ابزار و روش‌های موجود امکان‌پذیر یا اقتصادی نیست. تحلیل داده‌های کلان، کاربردهای موثری در حل مشکلات بشری یا خلق ثروت نیز دارند. به عنوان مثال با شناسایی روندهای صعودی و نزولی از طریق تحلیل حجم زیادی از تراکنش‌های مالی در بازار خرید و فروش ارزهای رایج در جهان (Forex)، می‌توان فرصت‌های سرمایه‌گذاری در هر لحظه و ثانیه را شناسایی کرد. به عنوان نمونه‌ای دیگر، تحلیل حجم زیادی از داده‌های محیطی مانند میزان آلاینده‌ها در هوا به همراه میزان سرعت وزش باد و ترکیب آن با میزان تابش نور خورشید در هر نقطه جغرافیایی از شهر می‌تواند در تشخیص فوری یک بیماری واگیردار همگانی موثر واقع شود.
دانشمندان، شرکت‌های تجاری بزرگ و دولت‌های محلی، از جمله گروه‌هایی هستند که برای پیشبرد اهداف بلندمرتبه خود باید توان خود را برای تحلیل داده‌های کلان توسعه دهند که البته سرعت رشد تولید این داده‌ها امروزه فراتر از سرعت رشد فناوری‌های جدید برای پردازش آنهاست و به همین دلیل محققان اعتقاد دارند که توجه بیش از پیش به روش‌های موثر در پردازش فوری داده‌های تولیدی در هر لحظه از زمان‌، بسیار حائز اهمیت شده است، چه بسا تحلیلی که در داده‌های امروز در همین ساعت خاص از روز انجام شود، برای مدیریت تصمیمی در چند ساعت آینده بسیار مفید باشد اما همین داده برای دو روز آینده دیگر کاربردی نداشته باشد. با این نگاه می‌توان حدس زد که در هر ثانیه از شبانه‌روز حجم زیادی از اطلاعاتی که می‌توانند منجر به تصمیم‌سازی‌های بهینه و تغییر سرنوشت شوند ارزش خود را از دست می‌دهند و تنها می‌توانند به عنوان داده‌های آرشیو در تحلیل‌های بعدی مورد استفاده قرار گیرند.
در حوزه داده‌های جغرافیایی، تولید و پردازش لحظه‌ای داده‌های مکان‌محور نیز مورد توجه فراوان قرار گرفته است.

امروزه صدها میلیون نفر با حمل تلفن‌های همراه هوشمند خود، تبدیل به سنسورهای متحرکی شده‌اند که در هر لحظه از شبانه‌روز داده‌های مکانی جدیدی را تولید می‌کنند. در متون آکادمیک این اتفاق جدید را به عنوان هر شهروند یک سنسور می‌نامند (Citizens as Sensors) که به مفهوم یک فرصت بکر برای بهره‌گیری از مکان افراد به عنوان سنسورهای اطلاعاتی است.

شرکت گوگل و Waze به عنوان نمونه از جمله پیشتازانی هستند که با اندازه‌گیری سرعت حرکت کاربران تلفن همراه، که نرم‌افزار نقشه آنها را نصب کرده‌اند، پی به میزان انباشتگی جمعیت در سطح معابر یا میزان سرعت میانگین حرکت خودروها می‌برند، از این رو به سادگی می‌توانند تحلیل دقیقی از ترافیک شبکه معابر شهری تولید کنند. با این تحلیل لحظه‌ای، صدها هزار شهروند به راحتی می‌توانند مسیرهایی را پیدا کنند که کمترین میزان ترافیک را دارد و این یعنی کمک به جلوگیری از اتلاف بیش از حد مصرف بنزین و صرفه‌جویی روزانه صدها هزار ساعت از زمان سفر شهری برای همه شهروندان. روش سنتی جمع‌آوری داده ترافیکی استفاده از سنسورهای متعدد سرعت‌سنج در کلیه شبکه معابر شهری است که معمولاً هزینه نگهداری و نصب این حجم از سنسورها برای بالغ بر ۳۰ هزار معبر مهم در یک شهر بزرگ مانند تهران بسیار طاقت‌فرساست. گوشی‌های تلفن همراه تنها یک نمونه از سنسورهای موثر در جمع‌آوری داده‌های مکانی هستند که هر لحظه مختصات جغرافیایی یک شهروند را ذخیره و به سرورهای پردازشگر اصلی ارسال می‌کنند. سنسورهای متعدد دیگری نیز امروزه در سطح شهرها و ساختمان‌ها نصب شده‌اند که عمدتاً برای مدیریت و هوشمندسازی زندگی شهری به کار گرفته می‌شوند. به عنوان نمونه دوربین‌های سنجش سرعت خودروها، سنسورهای سنجنده آلودگی هوا و سنسورهای عبور و مرور افراد به داخل ساختمان‌ها از این دسته به شمار می‌روند. این سنسورها عموماً یک مقدار از یک رویداد خاص را در یک مکان ویژه اندازه‌گیری می‌کنند و چون المان مکان جغرافیایی در تحلیل عامل مهمی است، این داده‌های انبوه در گستره داده‌های مکانی کلان (GeoSpatial Big Data or GBD) مورد بررسی قرار می‌گیرند. به عنوان نمونه اینکه سرعت میانگین خودروها قبل از ورود به تونل رسالت و بعد از خروج از آن در تهران چه میزان است، بیشتر به عنوان یک المان تحلیلی برای سنجش طراحی عرض معبر ورود و خروج تونل اهمیت دارد تا سرعت لحظه‌ای عبور خودروها در یک مکان نامعین. امروزه به غیر از سنسورهای زمینی حجم متنوعی از سنسورهای هوایی و فضایی نیز مورد استفاده قرار می‌گیرند. به عنوان نمونه با استفاده از هواپیماهای بدون سرنشین (Drones) می‌توان با نصب سنسورهای لیزری روی آنها، اسکن‌های لحظه‌ای از یک سطح جغرافیایی گسترده یا محدود به دست آورد که این داده‌های به شکل ابر نقطه‌ای، میلیاردها نقطه دارای مختصات (X,Y,Z) را شامل می‌شود و می‌توان با تحلیل فرکانس رنگ هر نقطه، یک پترن خاص از یک جسم فیزیکی و رویداد حرکتی اجسام را شناسایی کرد. در سطوح فضایی بالاتر می‌توان سنسورهای متعددی را برای سنجش میزان گرما در هر نقطه روی زمین بر اساس محور زمان به دست آورد یا تصاویر هوایی و فضایی کمک می‌کنند که تغییرات ناگهانی وضعیت اجسام در روی زمین تحت تاثیر آتش‌سوزی یا سیل شناسایی شوند. در این رابطه در کشور استرالیا، که هرساله در معرض آتش گرفتن جنگل‌ها به دلیل افزایش حرارت به درجات بالاتر از ۴۵ است، از تصاویر فضایی لحظه‌ای استفاده موثری می‌شود. با این توصیف‌ها می‌توان پی برد در حوزه اطلاعات جغرافیایی، استفاده از سنسورهای زمینی و هوایی به طور جدی مورد توجه محققان قرار گرفته است تا جایی که موسسات و شرکت‌های خصوصی مهمی در دنیا به شکل اختصاصی در زمینه تحلیل داده‌های سنسوری جغرافیایی فعالیت می‌کنند و نتایج خروجی‌های خود را برای مدیریت ساخت و سازهای شهری یا مدیریت فضای سبز یا طراحی‌های توسعه مسکن شهری به شهرداری‌ها و دولت‌های محلی می‌فروشند.

 

داده‌های جغرافیایی کلان تنها از طریق سنسورهای فیزیکی نصب‌شده روی زمین یا ماهواره‌ها تولید نمی‌شوند، بلکه حجم زیادی از داده‌های مهم تولیدشده در شبکه‌های اجتماعی مانند توییتر و اینستاگرام دارای مختصات جغرافیایی دقیق یا نیمه دقیق (تنها محدوده شهر یا کشور) هستند که توسط جی‌پی‌اس گوشی‌های همراه به عنوان یک فیلد اطلاعات اضافه به تصاویر و نوشته‌های تولیدی چسبیده است. این فیلد اطلاعاتی کوچک به عنوان کمکی بزرگ برای شناسایی یک حادثه یا رویداد خاص روی زمین می‌تواند مورد استفاده قرار گیرد. جالب است بدانید در سال‌های اخیر تحقیقات دانشگاهی موثری برای مطالعه مکان توییت‌ها در توییتر یا مکان تصاویر در اینستاگرام انجام شده که نتایج اولیه آنها قابل توجه است. به عنوان مثال بررسی هزاران توییت تولیدشده در لحظات اولیه یک حادثه فراگیر مانند سیل و زلزله در یک منطقه خاص، به مراتب سریع‌تر از انتشار رسمی اخبار در رسانه‌ها و حتی سایت‌های اورژانس کشورهاست. این فاصله زمانی به خصوص برای کمک‌رسانی به آسیب‌دیدگان اهمیت زیادی دارد، زیرا دقایق اول پس از رخداد حادثه در نجات جان انسان نقش کلیدی دارند. در حال حاضر پلتفرم‌هایی در دنیا روی اینترنت توسعه داده شده‌اند که رویدادهای گزارش‌شده در توییت‌ها را تحلیل و سپس بر اساس هشتگ‌های معروف آنها را دسته‌بندی می‌کنند و روی نقشه نشان می‌دهند. نمونه‌ای از این پلتفرم‌ها در تصویر زیر دیده می‌شود که از سایت trendsmap.com استخراج شده است:
اگر علاقه‌مند به کار با داده‌های کلان باشید، ابزارهای متعددی در حوزه بانک‌های اطلاعات برای ذخیره موثر یا گرفتن کوئری فوق سریع توسعه داده شده‌اند که تعدادی از بهترین‌ها در لیست زیر آمده است:
http://hadoop.apache.org
http://cassandra.apache.org
https://plot.ly
http://bokeh.pydata.org/en/latest
https://neo4j.com
http://www.cloudera.com
http://openrefine.org
http://storm.apache.org
http://www.wolframalpha.com
https://rapidminer.com
آن دسته از افرادی که علاقه دارند به بانک‌های حجیم و کاربردی دسترسی داشته باشند، کافی است در اینترنت Open Big Data را جست‌وجو کنند. به عنوان نمونه، در سال ۲۰۱۴ شرکت مخابراتی تلکام ایتالیا اولین دور از مسابقات نوآوری در زمینه کاربرد داده‌های کلان را برگزار کرد.
در این مسابقات بانک‌های اطلاعات حجیمی، به خصوص در زمینه شیوه استفاده شهروندان ایتالیایی، از سرویس‌های مخابراتی مانند پیامک و مکالمه در اختیار شرکت‌کنندگان قرار گرفت، به دلیل استقبال عمومی زیاد این داده‌ها به صورت داده باز (Open Big Data) در اختیار عموم قرار گرفت که می‌توانید در آدرس dandelion.eu/datamine/open-big-data به آنها دسترسی پیدا کنید. به عنوان نمونه فکر کنید آیا می‌توان بین مکان جغرافیایی افرادی که در یک شهر زندگی می‌کنند و میزان دقایق مکالمه تلفنی ارتباط موثری پیدا کرد؟ آیا می‌توان فهمید افرادی که پیامک زیادی ارسال می‌کنند، معمولاً مکالمات طولانی روزانه هم دارند؟ آیا میزان گرمای هوا در میزان مکالمه تلفنی در روزهای مختلف سال موثر است و پرسش‌هایی از این دست

* علیرضا کاشیان کارشناس ارشد فناوری اطلاعات و دانشجوی دکترا در گرایش پردازش داده‌های باز جغرافیایی در دانشگاه ملبورن است که در زمینه سنجش کیفیت موقعیت جغرافیایی داده‌های Points of Interest در پروژه جهانی OpenStreetMap فعالیت می‌کند. برای بررسی بیشتر فعالیت‌های ایشان می‌توانید به سایت
http://openstreetmap.me مراجعه کنید.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا