وضعیت کلان داده در بازار ایران
این مقاله از نوشتاری در ویژه نامه کلان داده ماهنامه پیوست با عنوان «انفجاری کوچک برای داده های بزرگ» و با قلم مینا نوبهار ،با هدف جمع آوری مطالب مفید حوزه کلان داده، عیناً بازنشر شده است.
نتیجه انتخابات ریاست جمهوری آمریکا که اعلام شد بسیاری از افراد حتی تحلیلگران زبردست عالم سیاست حیرتزده بودند. برخی نتیجه را به هک شدن سیستمهای کامپیوتری انتخابات از سوی روسیه نسبت میدادند. کار به جایی رسید که خود کاندیدای مغلوب هم به زبان آمد و صراحتاً اعلام کرد:«مداخلات روسیه و تصمیمات تاملبرانگیز FBI بر نتیجه این انتخابات تاثیر گذاشته است.» در این میان عدهای هم علت ماجرا را کمی تقلیل دادند و معتقد بودند روسیه تنها با هدایت افکار عمومی آمریکا آن هم از طریق نشر اخبار جعلی موفق به چنین کاری شده است. صرف نظر از اینکه چقدر این دلایل داییجان ناپلئونی به نظر میآیند، تمام این قیلوقالها نشان از یک واقعیت انکارناپذیر داشت: اینکه دسترسی به اطلاعات تا چه اندازه میتواند مهم باشد آن هم در حد تعیین سرنوشت انتخابات ریاست جمهوری بزرگترین ابرقدرت دنیا.
بدون شک اهمیت دسترسی به اطلاعات در گذشته نیز کمتر از امروز نبوده و بودجههای کلانی از دیرباز صرف این موضوع میشود، اما امکانات دنیای دیجیتالی، سرعت و حجم دسترسی به اطلاعات را تا حدی بالا برده است که نه تنها کنترل آن با چالش مواجه شده بلکه تجارت شگفتانگیزی نیز در دنیای دادهها به جریان افتاده است. جایی که اگر شما بتوانید دادههای کافی را جمع و آن را تحلیل کنید، تقریباً توان هر اقدامی را خواهید داشت. جدا از این افشاگریهای روز سیل دادهها به ایران نیز رسیده و اهمیت آن تا حدودی برای سیاستگذاران و دستاندرکاران حوزه آیتی مشخص شده است. تا جایی که در خرداد سال ۹۴ مرکز پژوهشهای مجلس گزارشی با عنوان فناوری دادههای عظیم و الزامات قانونی آن در ۲۴ صفحه ارائه کرد، گزارشی که بیشتر مروری بر الزامات و نیازمندیهای دولت ایران به استفاده از دادهها و فناوریهای نوین پردازشی مرتبط با آن بود. پژوهشگاه ارتباطات و فناروی اطلاعات نیز از یک طرف به دنبال تدوین نقشه راه کلاندادههاست و از سوی دیگر اقدام به برگزاری رویدادهایی در زمینه این صنعت پویا کرده که اغلب با بیمهری از سوی مقامات سیاسی تراز اول کشور روبهرو شده. لازم نبود برای دیدن این بیمهریها چندان به عقب بازگردیم.
نیازها را بشناسیم
هفته اول اردیبهشتماه بود که هتل اسپیناس پالاس میزبانی کنگره بینالمللی TOPHPC ۲۰۱۷ را بر عهده داشت، کنگرهای که به عنوان تنها رویداد مشترک بین اروپا و آسیا منحصراً بر موضوعات رایانش با کارایی بالا (HPC) و دادههای عظیم متمرکز اختصاص داشت و در ۲۱ دوره قبلی در کشور ایتالیا برگزار شده است. این کنگره حالا برای اولین بار در ایران با هدف فراهم آوردن فرصتی برای خبرگان بخشهای دولتی و صنعت و دانشگاهیان برای بحث و تبادل نظر به منظور شکلدهی آینده محاسبات پیشرفته موازی (HPC) و دادههای عظیم برگزار شد.
هرچند مهمانان داخلی و خارجی بسیاری در این رویداد حضور داشتند، اما این صحبتهای پروفسور پاسکوچی از دانشگاه گوتای آمریکا بود که واقعیت تلخی را دستکم برای بازار دادههای عظیم در ایران آشکار کرد. پاسکوچی حجم وسیعی از دادهها را نشان داد و از مباحث کاربردی مختلفی صحبت کرد که از بستر کلاندادهها استفاده میکنند، کاربردهایی از جمله پزشکی، شبکههای اجتماعی، بیمه، امور مالی و بازاریابی. سخنان پاسکوچی به خوبی نشان میداد رویکرد آنها در رابطه با کلاندادهها کاملاً تعریف شده است. مشخص بود دادهها واقعاً معنای سرمایههایی را دارند که برای نقد شدن نیازمند تحلیل هستند. همه کشورها و صنایع هم به نتایج این تحلیل نیاز دارند؛ مثلاً نتایج بخشی از آن تحلیلها برای بخش بهداشت و درمان مورد نیاز بوده و حتی ورای سیاست یا اقتصاد میتواند منجر به نیاز انسانها شود. اما چیزی که از سمت کسبوکارهای حوزه دادهها در ایران شنیده میشود این است که هنوز ارگانها و سازمانهای بزرگ به درک درستی درباره دادهها و نیاز به کلاندادهها نرسیدهاند. اغلب آنها نگاه امنیتی نسبت به این موضوع دارند و نمیخواهند اطلاعات خود را در اختیار اشخاص سومی قرار دهند. دادههای خود را به مثابه طلا تلقی میکنند و گمان میبرند اگر آنها را از دست بدهند چیزی برای رقابت نخواهند داشت. با این حال راهکارهایی برای این نوع دغدغهها وجود دارد. از طریق قانونگذاری در مقوله حریم خصوصی و امنیت اطلاعات و ترویج فرهنگ استفاده از دادهها، شرکتها و سازمانها میتوانند ضمن رفع این دغدغهها، از دادههای تلنبارشده خود درآمدزایی کنند. برای دیدن آن چند شرکتی که توانستهاند کمی به این مخزن طلا نقب بزنند لازم نبود خیلی راه درازی برویم. با یک توییت در توییتر چند نمونه جالب ایرانی پیدا شد. با شرکت اول که تماس میگیرم صدای جوانی از پشت تلفن پاسخ میدهد.
فراتر از تئوری
شرکت فرافکر یکی از شرکتهای ارائهدهنده خدمات کلانداده در کشور است که با شرکتهای زیرساخت مخابراتی، نفت و گاز و بانکهای گوناگونی همچون تجارت، ملی و آینده همکاری دارد و به دانشگاهها و شرکتها در زمینه کلاندادهها مشاوره میدهد. مبین رنجبر، رئیس هیات مدیره این شرکت، دلیل بیرغبتی سازمانها به مقوله کلاندادهها را در نشناختن نیاز آنها میداند. به گفته او «آنها فقط یکسری مقوله تحت عنوان کلاندادهها را خواندهاند، آن را فقط یک مبحث تئوری میبینند و نمیدانند این صنعت میتواند به آنها چه کمکی بکند. در این میان نهادهای دولتی کمتر ریسک میکنند و خیلی سختتر از سایر شرکتها بحث تحقیق و توسعه را در پیش میگیرند. آنها به خدماتدهندگان کلاندادهها زمانی نمیدهند تا نیازشان را بشناسند و متناسب با آن پیشنهادی ارائه کنند. نگاهشان به کلانداده به شکل محصول است و از شرکتها محصول آماده عرضه میخواهند تا نیازشان را رفع کند. خدمات راهاندازی پلتفرمهای کلانداده ما برای سیستمهای بانکی نیز یک محصول آماده نیست بلکه با کمک بانک آن را میسازیم. این کمک در شرکتهای دولتی کمرنگتر است چون اقناع مدیران سطوح مختلف کار مشکلی است».
شرکت آریا همراه سامانه از دیگر شرکتهایی است که در حوزه کلاندادهها فعالیتهایی داشته و پروژههایی برای برخی از سازمانها مانند ایرانسل و شهرداریهای کلانشهرها انجام داده است. مهدی نصیری، مدیر واحد علمدادههای این شرکت که خود یکی از بزرگترین و معتمدترین پیمانکاران مخابراتی و ارتباطی ایران است، علت بیرغبتی سازمانها به مقوله کلاندادهها را در عوامل مختلفی میبیند، با این حال تاکید میکند:«مشتری اصلی بسیاری از پروژههای کلاندادهها، سازمانهای دولتی و خصولتی هستند و تعداد اندکی سازمان خصوصی بزرگ وجود دارد که نیاز به استفاده از دادهکاوی داشته باشد.» به باور او: «وقتی امکانات و زیرساختهای اولیه در سازمان وجود ندارد کلانداده در آن سازمان فقط یک شعار میشود. در برخی سازمانها هم درگیری در مسائل روزمره وجود دارد و کسانی متولی این کار میشوند که اولویت اول آنها پاسخ به مسائل روزمره است، در نتیجه توجه به کلاندادهها عقب میماند. البته در چند سازمان محدود این کار به خوبی انجام شده یا در حال انجام است. شاید مهمترین دلیل موفقیت آنها متخصص بودن انجامدهندگان و درست تعریف کردن پروژه توسط سازمان مربوطه برای درونسپاری و برونسپاری تیم متخصص و حرفهای و همچنین تیم اجراکننده باشد. اگر فعالان این بازار تا این حد از توسعه آن در دولت یا بخش خصوصی ناامید هستند ما چه وضعیتی در کل کشور داریم؟»
این دادههای ملی
مطابق دادههای بینالمللی پتانسیل قابل توجهی برای بازار کلاندادهها در ایران وجود دارد. هرچند این بازار در ایران نوپا محسوب میشود و چالشهایی در آن وجود دارد، اما در آینده نهچندان دور بازار بسیار داغی برای آن پیشبینی میکنند. بر اساس نتایج تحقیقات شرکت نوبونوس درباره بازار کلاندادهها در خاورمیانه، بعد از امارات متحده عربی، ایران تا سال۲۰۲۰ بزرگترین سهم بازار کلاندادهها را خواهد داشت. از زمستان سال ۹۵ کمیسیون بیگدیتا و اینترنت اشیا در سازمان نظام صنفی رایانهای تشکیل و کارگروههای فناوری، توسعه کسبوکار، حقوقی و مقررات و استاندارد برای آن تعیین شده است. با این حال هنوز آمار دقیقی از تعداد شرکتهای فعال در حوزه کلاندادهها وجود ندارد. آنگونه که آزاد معروفی دبیر این کمیسیون میگوید:«سازمان نظام صنفی رایانهای به دنبال جمعآوری اطلاعات مربوط به آنهاست اما آنچه در کمیسیون مطرح شده این است که در حدود ۷۰ شرکت و فرد در بخشی از مقوله کلاندادهها فعالیت دارند. باید فعالیت در حوزه کلاندادهها هم به لیست خوداظهاری شرکتها اضافه شود تا این آمار دقیقتر شود.»
با وجود اینکه آمار دقیقی از تعداد فعالان صنعت کلاندادهها وجود ندارد، اما حوزههایی که از بستر کلاندادهها استفاده میکنند تا حدودی در ایران مشخص هستند؛ از حوزه حملونقل و بانکی گرفته تا مراکز محاسباتی داده و هوش تجاری، حوزههای کاربردی مختلفی برای کلاندادهها وجود دارد.
سامانههای تشخیص تقلب
در میان کاربردهای متعدد کلاندادهها در کشور به نظر میرسد حوزه بانکی سابقه و تجربه بیشتری در استفاده از کلاندادهها داشته باشد، چون از میان سازمانها و شرکتهای مختلف، بانکها توجه و تقاضای بیشتری برای مقوله کلاندادهها دارند و بیشترین نیاز آنها به کلاندادهها در زمینه تشخیص تقلب است. اهمیت این موضوع تا اندازهای است که بانک مرکزی و شرکت خدمات انفورماتیک به عنوان بازوی اجرایی آن، سامانه تشخیص تقلب پایا را راهاندازی کردهاند. این سامانه با استفاده از الگوریتمهای متنوع بر بستر کلانداده و استفاده از رفتار پیشینه و سوابق مالی افراد یا بانکها به بررسی و تشخیص موارد مشکوک میپردازد. علاوه بر این سیستم، شرکتهای خصوصی متعددی نیز وجود دارند که در این زمینه به بانکها خدمترسانی میکنند؛ مثلاً شرکت دادهکاوان هوشمند توسن یا شرکت فرافکر. با در نظر گرفتن گسترش این بازار در برخی زمینهها جای خالی زیرساختی که بتواند واقعاً دادههایی در این سطح را پردازش و تحلیل کند بیشتر خود را نشان میدهد.
نیاز به پردازش
یکی از کاربردهای کلاندادهها در حوزه مراکز محاسباتی کلانداده عمدتاً در دانشگاهها است که با پروژه گرید ابعاد وسیعتری نیز پیدا خواهد کرد. در مراسم اختتامیه کنگره بینالمللی محاسبات کلانداده بود که وحید احمدی، معاون پژوهش و فناوری وزیر علوم، تحقیقات و فناوری، از راهاندازی مرکز ملی محاسبات پیشرفته در کشور خبر داد و گفت:«این شبکه با همکاری دانشگاههای داخلی و خارجی راهاندازی میشود.» به گفته احمدی «محاسبات کلانداده یک رشته فرارشتهای و میانرشتهای است، به تخصص همه رشتههای علمی نیاز دارد و از لحاظ کمی و ظرفیت نقش مهمی در توسعه فناوری و رشتههای دانشگاهی ایفا میکند. در ایران دانشگاههای امیرکبیر، اصفهان، شریف، رازی، تهران و پژوهشگاه دانشهای بنیادی اقدام به راهاندازی مراکز دادههای محاسباتی سریع کردهاند و بزرگترین این مراکز در دانشگاههای امیرکبیر، اصفهان و پژوهشگاه دانشهای بنیادی راهاندازی شده است». یکی از سیاستهای مهم وزارت علوم، توسعه شبکه گرید در کشور بوده است. معاون پژوهش و فناوری این وزارتخانه هدف اصلی از این شبکه را مانیتورینگ مراکز محاسبات کلان موجود در کشور و ایجاد اکوسیستمی مناسب برای حضور و ارائه خدمات علمی، محاسباتی و فناوری ذکر کرد. این پروژه از سال گذشته به پژوهشگاه دانشهای بنیادی واگذار شده و پژوهشگاه قرار است با تولید نرمافزارهای مورد نیاز شبکه ارتباطی میان مراکز دادههای کلان ایجاد کند. به گفته احمدی «اضافه کردن مراکز محاسباتی کلانداده از دیگر برنامههای وزارت علوم است و در حال حاضر ۱۲ مرکز محاسباتی فوق سریع در کشور راهاندازی شده که باید از لحاظ سختافزاری و نرمافزاری ارتقا پیدا کنند».
پروژه جینف
برخی به دلیل حجم دادههایی که در این سیستم ذخیره شده است یعنی ۴۶ میلیون رکورد اطلاعات استاتیک ساده بر سر اینکه اساساً جینف را پروژهای در راستای کلاندادهها تلقی کنند تردید دارند، اما با توجه به کاربردهایی که این پروژه میتواند برای حوزههای امدادی یا انتظامی و به طور کلی سیستمهایی که با مکان سر و کار دارند داشته باشد، با قدری تسامح میتوان آن را از جمله پروژههای کلانداده تلقی کرد.
جینف GNAF به زبان ساده سیستم نشانیدهی بر اساس اطلاعات جغرافیایی و پروژه بسیار بزرگی است که گفته میشود حدود ۶۰۰ میلیارد تومان بودجه اقتصاد مقاومتی به آن تعلق گرفته است. به تازگی مجتبی نصیری، معاون برنامهریزی و توسعه شرکت پست، اعلام کرده است:«تا پایان سال گذشته ۹۰ درصد پروژه به اتمام رسیده و ۱۰ درصد باقیمانده نیز تا پایان اردیبهشتماه امسال به پایان میرسد.» با تکمیل پروژه جینف پیشبینی میشود کاربردهای متعددی بتوان برای آن در نظر گرفت. آنگونه که مجتبی نصیری میگوید:«وقتی فایل نشانی مبتنی بر GNAF شود، نشانیها مبتنی بر نقشه میشود، در حالی که تا قبل از این نشانیها متن بود. با اجرای این طرح میتوانیم هر نشانی با شماره کدپستی را روی نقشه نشان دهیم. اگر دستگاههای امدادی و انتظامی از این سیستم استفاده کنند، میتوانند از محل تلفن مکان را تشخیص دهند. دستگاههایی که با مکان سر و کار دارند میتوانند از این سیستم محل مورد نظر را بر اساس کدپستی تعیین کنند. از آنجا که کلید مشترک بانکهای اطلاعاتی کدپستی است GNAF کلید ورود به دولت الکترونیکی در حوزه ملک نیز هست.»
دادههای بزرگ برای تاثیری بزرگ
شاید با اندکی تسامح بتوان شعار امسال اتحادیه جهانی مخابرات، «دادههای بزرگ برای تاثیری بزرگ»، را بهترین تعبیر برای نمایش قدرت این صنعت پویا تلقی کرد. با کلاندادهها میتوان فرصتهای تبدیل مقادیر بیسابقه داده را به اطلاعات مورد نیاز برای حرکت به سوی پیشرفت و توسعه آزمود و آنها را عملی کرد. این پیشرفت نه تنها در ابعاد اقتصادی مفید واقع میشود بلکه میتواند ابزار قدرتمندی برای تحقق اهداف متنوعی باشد. مثلاً در انتخابات ریاست جمهوری سال ۲۰۰۸ ستاد اوباما تیمی از دانشمندان دادهکاو را برای تحلیل فضای انتخاباتی به کار گرفته بود و این باعث شد با هوشمندی در برنامهریزی و تخصیص منابع بتواند پیام خود را به رأیدهندگان بیشتری منتقل کند و درصد بالاتری از آنها را مجاب به حمایت از خود کند. شیوهای که نامزدهای دوازدهمین دوره انتخابات ریاست جهوری ایران هم به آن متوسل شدند و با رصد و تحلیل رفتار کاربران فضای مجازی و از طریق انتشار نظرسنجیهای مختلف سعی کردند ضمن پیدا کردن ترندها، متناسب با آنها برای بازاریابی محتوایی خود برنامهریزی کنند. نتیجه آن هم سیل دادههایی بود که از طریق چندین کانال تلگرامی و صفحات اینستاگرامی به دست کاربران میرسید تا شاید نتیجه انتخابات را به نفع یکی از این کاندیداها تغییر دهد