کلان داده، انقلابی که الگوی زندگی، کار و اندیشه ما را تغییر میدهد
این مقاله از نوشتاری در ویژه نامه کلان داده ماهنامه پیوست با همین عنوان و با قلم جاوید سرایی ،با هدف جمع آوری مطالب مفید حوزه کلان داده، عیناً بازنشر شده است.
تیم بسکتبال کلیولند کاوالیرز (Cleveland Cavaliers) با قهرمانی در مسابقات بسکتبال حرفهای ایالات متحده در سال ۲۰۱۶ تاریخساز شد. این نخستین قهرمانی تیم در تاریخ مسابقات بود و باعث شگفتی طرفداران این رشته ورزشی و حتی بازیکنان و مربیان این حرفه در ایالات متحده شد. درآمد تیم کاوالیرز ناگهان به بیش از ۸۰ برابر رسید. چه اتفاقی افتاده بود؟ چگونه یک تیم ضعیف لیگ بسکتبال حرفهای ناگاه به بهترین تیم تبدیل شد؟ جواب حیرتانگیز بود: استفاده از الگوهای جدید جمعآوری و تحلیل مستمر دادهها! کمتر از دو سال قبل یک فارغالتحصیل دکترای فیزیک دانشگاه یوتا الگویی جدید برای درک و تحلیل وضعیت فیزیکی و کیفیت روانی بازیکنان به باشگاه پیشنهاد داد. او به گروه آنالیز تیم اضافه شد و پس از چند ماه مدیریت تیم آنالیز را بر عهده گرفت و انقلابی در تیم پدید آورد. جمعآوری و ذخیرهسازی مستمر اطلاعات بدنی و عملکرد تکتک بازیکنان در تمرینها و مسابقات و تحلیل در لحظهی آن، با تکیه بر الگوهای جدید کلانداده و دادهکاوی صورت میگرفت. نتیجه، تصمیمگیری سریع مربیان در تغییر تاکتیکهای تیمی و تعویض بازیکنان بود که در واقع مزیت رقابتی برای تیم به وجود آورده بود. به نظر میرسد آنچه انقلاب کلانداده (Big Data) مینامند به ورزش هم رسیده است.
دانا بوید (Danah Boyd) پژوهشگر حوزه کلانداده و دانش دادهکاوی و دوست صمیمی تد جفریز در تیم کاوالیرز پس از قهرمانی شگفتانگیز این تیم در مقالهای نوشت:«کلانداده در مسیر تغییر معرفتشناسانه جهان است، به گونهای که ما را در مسیر دومین انقلاب فناوری اطلاعات و ارتباطات قرار داده است.» او به کتاب «پایان اینترنت» جاناتان زیترین اشاره میکند و کلانداده را ابزار دومین تحول در فضای مجازی میداند.
زیترین طی سالهای اخیر در چند مقاله و دو کتاب نشان میدهد اینترنت به مفهوم متداول به پایان راه خود رسیده و از حدود سال ۲۰۰۷ به بعد ما در نوعی «وضعیت توقف و تعلیق» قرار داریم و همه شرایط برای یک «جهش تکاملی در فضای مجازی» مهیاست. مرور تاریخ فناوری در چند هزار سال اخیر بیانگر دورههای ظهور فناوری جدید و دورههای سکون بعدی است. هر فناوری جدید منجر به تحولات عمیق اجتماعی، فرهنگی، سیاسی و اقتصادی میشود. این تحولات به تدریج (از چند صد سال پس از فناوری چرخ تا چند سال پس از فناوری اینترنت) همهگیر و متداول میشود و عملاً الگوی اندیشه و زیست روزمره را تغییر میدهد. در این مسیر ما با سکونی طولانی مواجه هستیم، گویی نیرویی به تدریج در حال انباشت است تا در نهایت بتواند جهش فناورانه بعدی را پدیدار کند، رویدادی که زیترین از آن با تعبیر «جهش تکاملی در فضای مجازی» یاد میکند.
دانا بوید میگوید:«زلزلهای در راه است؛ اگر سال ۲۰۰۲ میلادی را آغاز عصر دیجیتالی و پایان دوران ذخیرهسازی آنالوگ بدانیم، به نظر میرسد میتوان سال ۲۰۰۷ میلادی را آغاز عصر کلانداده دانست. عصری که همه تحولات خرد و کلان با تکیه بر «کلانداده» به همافزایی میرسند و جهش بعدی را به دنبال دارد.» تحولات سریع در حوزه سیاست، امنیت، کسب و کار، بازارهای مالی، بهداشت و درمان، ورزش و… همگی حول موضع کلانداده و دادهکاوی بروز میکند. با مرور نظریههای کلیدی چند سال اخیر همچون «جامعه نظارتی»، «پایان اینترنت»، «جامعه شیشهای»، «پارازیت همبستگی» و… تصویر تاثیر کلان داده بر جهان محتمل پیش رو واضحتر میشود.
کلانداده
کلانداده (Big Data) اصطلاحی است که برای تعریف دادهها در حجم انبوه استفاده میشود: حجم بزرگ یا پیچیدهای از دادهها که ابزارهای متداول پردازش دادهها برای تحلیل و کاوش آن ناتوان باشد. «کلانداده داراییهای اطلاعاتی را شامل میشود که ویژگیهایی همچون حجم بسیار زیاد و سرعت و تنوع دارد و نیازمند روشهای متمایز دادهکاوی برای حصول به ارزش است.» (گارتنر)
متداول شدن استفاده از اینترنت و تسلط فناوری اطلاعات و ارتباطات در دو دهه اخیر باعث شده امکان جمعآوری اطلاعات و ذخیرهسازی آن در حجم شگفتآوری افزایش یابد. همچنین امکان تولید اطلاعات و به اشتراک گذاشتن آن بسیار بیشتر شده است. آنچه اکنون اهمیت یافته این است که دادهی درست، در زمان درست، در اختیار افراد مناسب قرار گیرد. بدین ترتیب «دانش کلانداده» یک الگوی عملگرایانه از مطالعات ترکیبی در فضای سیاست، کسب و کار، ورزش و… است که به ویژه از ابزارهای فناورانه استفاده میکند و در نهایت این هدف را دنبال میکند که «چه اطلاعاتی را در زمان مناسب در اختیار چه کسی قرار دهیم تا درستترین تصمیم را بگیرد» (Stanier,2017).
همه افراد به کمک حواس خود و از طریق منابع مختلف اقدام به جمعآوری دادهها، پاکسازی دادهها، ذخیرهسازی دادهها، و تحلیل مبتنی بر این دادهها میکنند و بر اساس این تحلیلها به اتفاقات واکنش نشان میدهند یا کنشی جدید بروز میدهند. این فرایند همواره انجام شده و میشود. اما اگر حجم یا پیچیدگی دادهها ناگهان زیاد شود، عملکرد ذهن ما مختل میشود و در رفتار روزمره خویش دچار اشتباه میشویم. این شرایط باعث میشود نیازمند ابزارهای کمکی برای جمعآوری و نگهداری و تحلیل دادهها باشیم.
چند دهه پیش در هر محله یک بقالی وجود داشت. من به عنوان فروشنده با حدود ۵۰ خانواده در ارتباط بودم. هر مشتری را به چهره میشناختم و میدانستم هر کدام معمولاً چه خریدهای ثابت هفتگیای دارند و با تکیه بر این دادهها میتوانستم اجناس مورد نیاز اهالی محل را بیاورم، جنس کمتری را به تولیدکننده پس بفرستم، هزینه انبارداری کمتری داشته باشم و مشتریهایم از من راضیتر باشند. به تدریج با تغییر الگوی زندگی شهری مغازهام را بزرگتر میکنم و محصولات متنوعتری ارائه میدهم. بافت محله تغییر کرده است و افراد با سبکهای زندگی مختلف و سلایق متنوع به من مراجعه میکنند. حالا از یک نرم انبارداری و یک نرمافزار حسابداری استفاده میکنم. تعداد اجناس، تعداد مشتریها و الگوی خرید مشتریها «بیشتر» و «متنوعتر» شده است.
با سرمایهگذاری بیشتر، فروشگاه خود را به دهها شعبه در سراسر شهر افزایش میدهم. حالا با انبوه متنوعی از مشتریها روبهرو هستم که هر یک سلیقههای گوناگونی دارند. از سویی چند رقیب تجاری دارم که آنها هم فروشگاههای زنجیرهای مشابه دارند. اکنون مزیت رقابتی در شناخت مشتریها و نیازهای روزمره آنان است؛ در واقع باید به الگوی مغازهی محلهای و شناخت چهره به چهره بازگردم تا بتوانم نسبت به رقبایم موفقتر باشم، اما این امر به شیوه گذشته ناممکن است. پس با استفاده از فناوری جدید شکلی متفاوت از آشنایی چهره به چهره را خلق میکنم. بدین معنی که هر حرکت، توقف، برداشت کالا، خرید و… دادههای تکتک مشتریهایم را جمعآوری میکنم. اگر بتوانم دادههای مربوط به ویژگیهای شخصی (سن، جنس، قد، وزن و…) و خصوصیات رفتاری و ارتباطی او را هم داشته باشم، با تحلیل این دادهها میتوانم بفهمم مشتریهای من چه نیازهایی دارند و در صورت تغییر به آنها پیشنهادهای بهتری بدهم. در این صورت میتوانم مشتری را به مشترک درازمدت تبدیل کنم، اما باید بتوانم از طریق ابزارهای متنوع به طور مستمر این دادهها را جمعآوری و ذخیره و در لحظه تحلیل کنم و به سرعت واکنش نشان دهم. این فرایند اهمیت کلاندادهها و دانش دادهکاوی را آشکار میکند.
به زبان ساده، فرایندی که در طول چند هزار سال زیست بشر بیشتر به صورت غیرآگاهانه در رفتارها و تعاملات روزانه انجام میشد اکنون نیازمند الگو و شیوهای جدید مبتنی بر «کلانداده» است. با تکیه بر کلاندادهها قادر خواهیم بود به دقت از محیط تاثیر بگیریم، با تحلیل این تاثیر و واکنش به موقع بر محیط تاثیر بگذاریم و در این فرایند اثرپذیری-اثرگذاری بیاموزیم. کلانداده اغلب محصول بیهزینه تعاملات دیجیتالی است که میتواند «ارزش» تولید کند.
تا چند سال پیش «کلانداده» و «هوشمندی کسب و کار» را یکسان فرض میکردند و از جمعآوری، پالایش و تحلیل کلاندادهها در حوزه کسب و کار و بازارهای مالی استفاده میکردند و آن را «جمعآوری اطلاعات انبوه از محیط برای شناسایی الگوی کسب و کار بر اساس هدف سازمان» مینامیدند. اکنون این دو مفهوم به تدریج از هم متمایز میشود و استفاده از کلانداده در حوزههای متنوع سیاسی، اجتماعی، اقتصادی و فرهنگی همهگیر شده است. در «هوشمندی کسب و کار» به واسطه آمار توصیفی از دادههای با حجم زیاد برای اندازهگیری و تشخیص روندهای کسب و کار استفاده میشود؛ یعنی میدانم چه دادههایی را نیاز دارم و صرفاً این دادهها را جمعآوری میکنم. اما در «کلانداده» به واسطه آمار استقرایی حاصل از سیستمهای شناسایی غیرخطی قوانین استنباطی کشف میشود. بدین ترتیب از مجموعههای بزرگداده با چگالی کم استفاده میشود تا بتوان روابط و وابستگیها را تشخیص داد و خروجیها و رفتارها را پیشبینی کرد. برخلاف هوشمندی کسب و کار، در کلانداده نمیدانم کدام دادهها در راستای اهداف من به درد میخورد، پس همه چیز را جمع میکنم و تحلیل میکنم تا روابط و وابستگیها را کشف کنم. در نهایت، برای تحلیل هر دو مورد از «دانش دادهکاوی» استفاده میکنم.
ویژگیها و اهمیت کلانداده
در بیشتر کتابها و مقالات ویژگیهای مشخصی به «کلانداده» نسبت میدهند. فرناندو لافرات در کتاب «از کلانداده تا داده هوشمند»، که سال ۲۰۱۵ میلادی منتشر شد، کلانداده را با ویژگیهای ثابتی توصیف میکند:
حجم (Volume) تولید و ذخیرهسازی دادهها، تعیین میکند که آیا مجموعهای از دادهها را میتوان کلانداده دانست یا خیر. در هوشمندی کسب و کار حجم دادهها میتواند به اندازه کلانداده انبوه نباشد.
تنوع (Variety) به معنای نوع و ماهیت دادهها، به تحلیلگر کمک میکند تا تلقی دقیقتری داشته باشد. هرچه منابع داده و نوع داده متنوعتر باشد به مفهوم کلانداده نزدیکتر میشویم. در ویژگی تنوع باید به «درستی» دادههای جمعآوریشده دقت داشت.
تغییرپذیری (Variability) بیانگر ناسازگاری گروههای داده جمعآوری شده است. تغییرپذیری بیانگر تولید سریع و پرحجم و در لحظهی دادههاست. هرچه چگالی دادهها بیشتر باشد به مفهوم هوشمندی کسب و کار نزدیکتر میشویم. کلاندادهها از منابع متنوع تصویری، صوتی، متنی و… به دست میآید که دائماً در حال تغییرند.
سرعت (Velocity) سرعتی که دادهها تولید و ذخیرهسازی و پردازش میشود. هرچه سرعت جمعآوری و تحلیل دادهها بیشتر باشد، واکنش به تغییرات پرسرعتتر است و «ارزش» بیشتری تولید میشود. دادهها در یک لحظه در دسترس است و در همان لحظه باید تحلیل شود و در همان لحظه با تکیه به تحلیلها اقدام عملی صورت گیرد.
جولیا لیتون (Julia Layton) در مقاله «فناوری آمازون» به اهمیت فناوری و تحولات اخیر اشاره میکند. «فناوری جدید و فضای مجازی این امکان را فراهم آورده تا هر کنش فردی را بتوان به عنوان داده ذخیرهسازی کرد. عضو هر شبکه اجتماعی یا ارتباطی هستید، هر کلیک شما یک داده است. زمان توقف شما بر هر موضوع، هر تایید و مطلبی که مینویسید، هر ارتباطی که دارید، هر خریدی که انجام میدهید، اینکه چگونه خرید میکنید، چه رنگی را بیشتر دوست دارید، چه وابستگیهای حزبیای دارید، از کدام نهادهای غیردولتی پشتیبانی میکنید، چه زمانهایی متصل هستید، سلایق دوستانتان و هر آنچه بتوانید تصور کنید یک داده است که به سرعت ذخیرهسازی و تحلیل میشود و در نهایت الگوهای مشخص رفتاری استخراج میشود که میتوان با تکیه بر این تحلیلها رفتارهای آتی کاربر-فرد را پیشبینی کرد و با اقدامات عملگرایانه او را در راستای کنش مورد نظر سوق داد… بدیهی است این موضوع یاعث شده کلانداده ارزش هنگفتی داشته باشد و بر اساس تحلیلهای غیررسمی پرسودترین تجارت جهان از سال ۲۰۱۸ فروش کلاندادههاست.»
کلانداده در زندگی روزمره
امروزه «کلانداده» و «دادهکاوی» در حال تغییر کنشهای ارتباطی در جهان است. حجم تولید دادهها و قابلیت تحلیل سریع دادههای بزرگ با چگالی زیاد تحولاتی جدی در کسب و کار، سیاست، امنیت و سبک زندگی به دنبال خواهد داشت. درچند سال اخیر نمونههای موفق استفاده از کلانداده را در سیاست و خردهفروشی دیدهایم که نهادهای امنیتی جهان را به خرید کلانداده از شبکههای اجتماعی و ارتباطی تشویق کرده است.
جاناتان برول (Jonathan D. Breul) در کتاب «جامعه مجازی، کلانداده و ارزشیابی»، که چند ماه پیش منتشر شد، به نقش کلانداده در زندگی روزمره و تاثیر آن بر تحولات اجتماعی میپردازد. او با مروری بر تحولات حوزههای سیاست، بانکداری و سهام و بیمهها، تولید، فروشگاههای زنجیرهای، ورزش، بهداشت و درمان و علم (ژنتیک و نجوم) به این نتیجه میرسد که جهان امروز «جهان تحلیل در لحظهی انبوه دادههای جمعآوریشده و واکنش لحظهای به تغییرات است». نمونههای جذابی که او از کاربرد کلانداده و دادهکاوی در بانکداری، سیاست، مدیریت شهری، بهداشت و درمان، علم ژنتیک، نجوم، خردهفروشی، تبلیغات، پژوهشهای زیستمحیطی (تحلیل کنش گونههای مختلف گیاهی و جانوری)، آموزش و… عنوان کرده، خواندنی است.
به اعتقاد او «در سالهای اخیر سیاستمداران و مدیران تجاری یاد گرفتهاند که ارزش در دادههاست و باید بتوانند از انبوه دادههایی که از طریق تعاملات مجازی تولید میشود، در راستای استراتژی خود استفاده کنند و حتی در مواردی با تکیه بر تحلیل همین کلاندادهها استراتژی خود را تغییر دهند. این امر باعث چابکی هرچه بیشتر نهادهای اقتصادی، مالی، امنیتی و سیاسی شده است و به تدریج مصداق این جمله مشهور که: کوچک زیباست. او مثالهای متنوعی در حوزههای مختلف مطرح میکند. برای مثال حوزه سیاست و خردهفروشی:
استفاده از «کلانداده» توسط تیم انتخاباتی باراک اوباما نقش کلیدی در موفقیت او در مبارزات انتخاباتی سال ۲۰۱۲ میلادی داشت که منجر به انتخاب مجدد او به ریاست جمهوری ایالات متحده شد. چند ماه بعد اوباما بودجه مشخصی برای طرح «تحقیق و توسعه کلانداده» اجرایی کرد. سال ۲۰۱۶ میلادی آژانس امنیت ملی ایالات متحده مرکز داده یوتا (Utah Data Center) را با هدف ذخیرهسازی و تحلیل مستمر کلاندادهها از سراسر جهان تاسیس کرد که عملاً بیش از هشت ماه است کلیه اطلاعات تولیدشده در فضای مجازی را جمعآوری، دستهبندی و تحلیل میکند و بزرگترین خریدار اطلاعات از شبکههای اجتماعی و ارتباطی مانند فیسبوک و توییتر و اینستاگرام و موتور جستوجوی گوگل به شمار میرود.
فروشگاههای والمارت از ماه پایانی سال ۲۰۱۵ میلادی طرحی را در اغلب شعبهها اجرایی کرده که در هر ساعت اطلاعات مربوط به حدود یک میلیون مشتری را تحلیل میکند و در چند شعبه برای هر مشتری خاص، خدماتی مطابق با خواست و سلیقه او ارائه میدهد. بدین ترتیب با تحلیل مستمر مشتریها، الگوی رفتاری و خرید و سلایق و سبک زندگی هر مشتری را تحلیل میکند و در هر لحظه واکنشی مطابق خواست مشتری به او نشان میدهد. بر اساس این الگوی تحلیلی کلانداده، حتی میتوان به هر مشتری در لحظه تخفیف مربوط به اجناس مورد علاقهاش را ارائه کرد. هدف والمارت تحول خردهفروشی از یک مجموعه محصولمدار به یک ابرمجموعه مشتریمدار است تا بتواند با تکیه بر انبوه دادههایی که در هر لحظه از مشتریهایش جمعآوری، ذخیرهسازی، پالایش و تحلیل میکند مدام در راستای خواستههای جدید و در حال تغییر مشتریها قرار داشته باشد. والمارت الگویی شخصی برای دنبال کردن رفتار مشتریها از طریق «کلانداده» دارد.
جهان فردا
در حالی که حجم دادهها هر لحظه بیشتر میشود، رقابت بین مراکز تحلیل دادهها جدیتر میشود. در سال ۲۰۱۷ هر روز حدود چهار اگزابایت داده تولید میشود که تا ۱۰ سال پیش غیرقابل تصور بود. بدین ترتیب نقش Data Scientistها به سرعت در حال تغییر است. فارغالتحصیلان برجسته جهان در رشتههای جامعهشناسی، مدیریت، آمار، فیزیک و… به عنوان تحلیلگر و دادهکاو در حال فعالیت در شرکتهای مالی، تجاری و امنیتی هستند. بنا بر مطالعه استیون وبر (استاد مدرسه فناوری برکلی) با توجه به اهمیت کلاندادهها و توجه ویژه به دادهکاوی، در نیمه دوم سال ۲۰۱۷ میلادی، فقط در ایالات متحده به بیش از ۸۵۰ هزار متخصص (Data scientist) دیگر نیاز است.
این دادهها از منابع مختلفی جمعآوری، در پایگاههای داده ذخیرهسازی و به سرعت پالایش و تحلیل میشود. الگوهای تبلیغات، چارچوب نظارتی نهادهای امنیتی، شیوههای کسب و کار، بازارهای مالی و بیمهای و اغلب وجوه زندگی در نتیجهی «کلانداده» در حال تغییر هستند. این تغییرات هم جنبههای مثبت و هم جنبههای منفی گریزناپذیری دارد که درک آن برای ما ضروری است. «کلانداده» تاثیر کلیدی بر تصمیمگیریهای آینده سازمانها و نهادها و بنگاهها خواهد گذاشت و ارزش داده را هرچه پررنگتر میکند. همچنین مزیت رقابتی برای هر تحلیلگر، شرکت و کشور است.
در نتیجهی «کلانداده» و «علم دادهکاوی» مدلهای جدید کسب و کار خلق میشود، امکان ارتقای سلامت عمومی جامعه فراهم میشود، کیفیت خدمات پزشکی ارتقا مییابد، هزینههای مدیریت شهری کاهش پیدا میکند و کیفیت خدمات بهتر میشود، رقابتهای ورزشی پیچیدهتر میشود، زمان تولید محصول کاهش مییابد، امکان طراحی بهینه خط تولید فراهم میشود، و تبلیغات و بازاریابی عمیقاً متحول میشود. اما این سکه روی دیگری هم دارد که بسیار دردناک است: جهان به سمت یک حباب شیشهای در حال حرکت است که اغلب کنشهای انسانها قابل پیشبینی خواهد بود و میتوان نسبت به تغییر علائق و سلایق انسانها در زمانهای مختلف برنامهریزی کرد.
چند سال پیش دیوید لیون نظریهای تحت عنوان جامعه نظارتی مطرح کرد. او با تحلیل عملکرد نهادهای امنیتی و مالی و تحولات ابزارهای دیجیتالی در جمعآوری اطلاعات به این نتیجه رسید که ما در حال گذار از جامعه شبکهای به جامعه نظارتی هستیم. لیون در ۲۸ مارس ۲۰۱۴ در مقالهای تحت عنوان «کلانداده: آیا ما دچار خطای کلیدی شدهایم؟» در فایننشال تایمز به شدت مسیری را که مبتنی بر کلان داده و دادهکاوی است نقد میکند و آن را هولناک میداند.
ری سولنیک (Ray Solnik) با پیگیری نظریه لیون، در سالهای اخیر تلاش کرده نهادهای مدنی را به قانونمند کردن شیوه جمعآوری و تحلیل اطلاعات ترغیب کند و شبکههای ارتباطی و اجتماعی را تحت فشار قرار دهد تا در مورد فروش کلانداده به شرکتها و نهادهای مالی و امنیتی کشورهای مختلف شفاف عمل کنند. «کلانداده در حال تغییر الگوی کار مشترک افراد در سازمانهاست. منجر به خلق فرهنگ کسب و کار متفاوتی شده است که بر استفاده از ارزش دادهها مبتنی است. سبب تصمیمگیری بهتر، تعامل بیشتر با مشتری، ارتقای کیفیت تولید، پیشگیری از بزه رفتاری و نظارت دقیقتر نهادهای امنیتی شده است. اما این فرایند باید محدود شود و مورد نظارت قرار گیرد. در غیر این صورت همه ما به عروسکهایی تبدیل میشویم که در اتاقکی شیشهای واکنشی را از خود نشان میدهیم که برایمان تصمیم گرفتهاند.»