چگونه بازماندگان شما را فریب می دهند – معرفی سایت آنالیکا

۰ 453 زمان تقریبی مطالعه 8 دقیقه

با رشد شبکه های اجتماعی تلفن همراه در کشور و بخصوص با راه افتادن امکان ایجاد کانال در تلگرام، شاهد افت وب سایتهای تخصصی و مقالات به روز و حرفه ای در حوزه های مختلف و بخصوص فناوری اطلاعات هستیم. هر چند وب سایتهایی مانند دیجیاتو و ماهنامه شبکه و سایر سایتهای خبری، بسیار پررنگ ظاهر شده اند اما سایتهایی که به طور تخصصی روی موضوعی کار کنند و کار ادامه داری را دنبال نمایند، در چند سال اخیر کمتر مشاهده کرده ام. وب سایت آنالیکا یکی از سایتهایی است که با رویکردی تخصصی و حرفه ای و با کادری متخصص، به تشریح مفاهیم مختلف حوزه هوش تجاری و تحلیل کسب و کار می پردازد. برای این دوستان ، آرزوی موفقیت و دوام فعالیتهایشان را دارم. مقاله زیر عیناً از این وب سایت و با هدف آشنایی با نحوه نگارش آنالیکا در سایت مهندسی داده، بازنشر داده شده است.

در جنگ جهانی دوم، بمباران هوایی یکی از ابزارهای مؤثر متفقین برای از بین بردن زیرساخت‌های صنعتی و نظامی آلمان و درنهایت شکست آن کشور بود؛ اما این رویکرد همراه با تلفات سنگینی برای نیروی هوایی انگلیس و آمریکا بود. برآوردها حاکی است دوره عمر انتظاری خدمه یک بمب‌افکن بین ۱۲ تا ۱۵ مأموریت بود. در یک دوره‌ای از جنگ، اگر شما خلبان یک بمب‌افکن در اروپا بودید، شانس این‌که سالم از مأموریت خود بازگردید، چیزی در حدود ۵۰ درصد بود. رهبران نظامی به این نتیجه رسیده بودند که باید زره تقویتی بیشتری به هواپیماهای خود اضافه کنند تا آن‌ها را در برابر آتش ضدهوایی و جنگنده‌ها حفاظت کند؛ اما افزودن زره به همه قسمت‌های هواپیما امکان‌پذیر نبود و سرعت را بسیار کم و آن را آسیب‌پذیرتر می‌کرد؛ بنابراین آنان باید تصمیم می‌گرفتند که به کدام قسمت‌های هواپیما زره بیفزایند.

به همین دلیل نیروی هوایی جمع‌آوری داده در مورد نقاطی را که هواپیماها آسیب می‌دیدند، شروع کرد. آنان پس از هر مأموریت هواپیماهایی را که بازگشته بودند به‌دقت بررسی می‌کردند و تعداد آسیب‌های ناشی از ترکش‌ها و گلوله‌ها و جای آن‌ها را روی هواپیما مشخص می‌کردند. به‌تدریج مشخص شد الگوی خاصی در توزیع آسیب‌ها روی هواپیما وجود دارد. شکل-۱ نشان می‌دهد که بیشتر آسیب‌ها روی ناحیه بال و بدنه هواپیما بوده است.

بر این اساس کارشناسان نظامی نتیجه‌گیری کردند ازآنجاکه بیشترین گلوله‌ها به نواحی بال و بدنه هواپیما اصابت کرده پس این قسمت‌ها نیازمند زره حفاظتی بیشتر هستند. در نگاه اول این نتیجه‌گیری درست به نظر می‌رسد.

اما آبراهام والد (Abraham Wald) با این نتیجه‌گیری کاملاً مخالف بود. او از جمله ریاضی‌دانانی بود که در جنگ جهانی دوم برای ارتش آمریکا کار می‌کرد. والد نشان داد که خطای مهمی در تحلیل‌ها صورت گرفته چراکه نتیجه‌گیری تنها بر اساس داده‌های هواپیماهایی است که از مأموریت بازگشته‌اند؛ اما در مورد هواپیماهایی که در طول مأموریت سقوط کردند، چه می‌دانیم؟ درواقع نمونه آماری به سمت هواپیماهایی که بازگشته‌اند سوگیری داشته است. والد نشان داد که دقیقاً برعکس، آن قسمت‌هایی از هواپیما نیاز به حفاظت دارند که در شکل-۱ کمترین اصابت را داشته‌اند. درواقع نقاط آسیب در هواپیماهای بازگشتی بیانگر آن است که اگر هواپیما در این نقاط هدف قرار داده شود، با احتمال بیشتری می‌تواند سالم بازگردد. پیشنهاد‌های والد در عمل به بهبود نرخ برگشت هواپیماها کمک کرد.

ازآنجاکه نحوه فکر کردن والد در مورد مسئله گفته‌شده در بالا بسیار جالب است، در ضمیمه این مقاله به شکل کوتاهی به روش محاسباتی او در خصوص میزان آسیب‌پذیری نقاط مختلف هواپیما اشاره خواهم کرد. خوانندگان غیرفنّی می توانند آن را نادیده بگیرند.

سوگیری بازماندگی چیست؟

سوگیری بازماندگی (Survival Bias) یک خطا در استدلال است و زمانی پیش می‌آید که تنها بر روی افراد یا چیزهایی که از یک فرآیند انتخاب گذشته‌اند، تمرکز کنید و آن‌هایی را که نتوانستند عبور کنند، عمدتاً به این خاطر که دیگر قابل‌مشاهده نیستند، نادیده بگیرید.

به‌عنوان نمونه فردی بر اساس تعداد محدودی از دانش‌آموختگان یک دبیرستان که توانسته‌اند در دانشگاه‌های خوب قبول شوند، نتیجه بگیرد که آن دبیرستان خدمات آموزشی برتری ارائه می‌دهد. این ممکن است درست باشد ولی بدون در نظر گرفتن وضعیت قبولی سایر دانش‌آموختگان آن دبیرستان نمی‌توان چنین استدلالی کرد.

به‌عنوان‌مثال دیگر، ساختمان‌های با ساخت مستحکم، معماری زیبا، کاربری خوب و نگهداری مناسب در چندین نسل دوام می‌آورند و باقی می‌مانند. افراد ممکن است تنها با مقایسه ساختمان‌های قدیمی باقی‌مانده با ساختمان‌های امروزی این‌طور نتیجه بگیرند که درگذشته ساختمان‌های بهتری ساخته می‌شده است؛ اما آنان هزاران بنای دیگر را که درگذشته خوب ساخته نشده‌اند و در طول زمان از بین رفته‌اند و دیگر قابل‌مشاهده نیستند، در نتیجه‌گیری خود لحاظ نمی‌کنند. این سوگیری می‌تواند برای آثار هنری برجسته گذشته که در طول زمان از رقابت سربلند بیرون آمده‌اند و مقایسه آن با آثار هنری معاصر مصداق پیدا کند. یکی از دلایل وجود حس نوستالژی نسبت به گذشته این نوع مقایسه‌هاست.

رازهای موفقیت

این روزها کتاب‌های رازهای موفقیت که در آن به عوامل موفقیت کارآفرینان و یا سازمان‌های برتر پرداخته‌اند، طرفداران زیادی دارند. یکی از این نمونه‌ها کتاب از خوب به عالی (Good to Great) اثر جیم کالینز (Jim Collins) است که یکی از پرفروش‌ترین کتاب‌های منتشرشده در حوزه مدیریت هم هست.

او یازده شرکت را از بین ۱۴۳۵ شرکت که توانسته‌اند در چهل سال گذشته در بازار سهام، عملکرد بهتری از متوسط بازار نشان دهند انتخاب کرده و سپس به دنبال ویژگی‌های مشترکی گشته که به باور او این شرکت‌ها را موفق کرده است. لیست این یازده شرکت در زیر آمده است:

Abbott Laboratories	Kimberly-Clark	Pitney Bowes
Circuit City	Kroger	Walgreens
Fannie Mae	Nucor	Wells Fargo
Gillette	Philip Morris

اما مشکل این است که رویکرد گذشته‌نگر (Backward-Looking)، مطالعه کالینز را در معرض سوگیری بازماندگی قرار می‌دهد. کالینز باید با فهرستی از شرکت‌ها در ابتدای دوره زمانی مطالعه شروع می‌کرد و معیارهای پذیرفتنی را برای انتخاب یازده شرکت برتر انتخاب می‌کرد. این معیارها باید به شکل عینی و بی‌طرفانه بدون در نظر گرفتن این‌که این شرکت‌ها در طول چهل سال بعد چطور عمل می‌کنند، اعمال می‌شد. این معنی‌دار نیست که پس‌ازاین که ببینید کدام‌یک از شرکت‌ها در این مدت خوب عمل کردند، پیش‌بینی کنید کدام شرکت‌ها در این مدت خوب عمل خواهند کرد! این پیش‌بینی نیست، بیان تاریخ است.

درواقع سؤال را این‌طور طرح کنید: این احتمال چقدر است که شما تنها در اثر تصادف ۱۱ شرکت را پیدا کنید که ویژگی‌های مشترکی از خود نشان می‌دهند؟ کالینز در کتاب خودپاسخ می‌دهد که این احتمال ۱ در ۱۷ میلیون است؛ اما جواب درست ۱۰۰ درصد است!

فرض کنید فردی برای شماره‌گذاری خودروی خود مراجعه می‌کند و پلاک ۳۳۳س۳۳ را دریافت می‌کند. احتمال دریافت چنین پلاکی چیزی در حدود ۱ در ۲ میلیون است. اگر من قبل از دریافت این پلاک، پیش‌بینی می‌کردم که او می‌تواند این پلاک را دریافت کند، فوق‌العاده بود. ولی وقتی او پلاک را دریافت کرد، احتمالش ۱۰۰ درصد است!

وقتی شما با رویکرد گذشته‌نگر، به هر گروهی از شرکت‌ها نگاه کنید، همیشه یک سری ویژگی مشترک می‌توانید پیدا کنید. برای مثال در لیست بالا همه شرکت‌ها در اسم خود حرف i یا r را دارا هستند. آیا می‌توان گفت وجود این دو حرف در اسم شرکت‌ها باعث موفقیت آنان شده است؟ البته که نه!

پس از انتشار کتاب، با مطالعه سهام این شرکت‌ها بین سال‌های ۲۰۰۱ تا ۲۰۱۲ مشخص شد شش تا از ۱۱ شرکت بالا، عملکرد مالی پایین‌تر از متوسط بازار داشتند. این نشان می‌دهد چرا رویکرد گذشته‌نگر به‌طور سامانمند غلط است.

پیام این بحث برای مدیران چیست؟

این مثال‌ها روشن می‌کند که برای نتیجه‌گیری نیاز دارید تا به همه نمونه‌ها توجه کنید حتی نمونه‌هایی که بلافاصله نمی‌توانید آن‌ها را مشاهده کنید. همین‌طور روشن می‌کند یادگیری از شکست‌ها همواره فرآیند ساده‌ای نیست. یادگیری نیازمند مشاهده و بررسی دقیق و فراتر رفتن از فرضیات سطحی است. وقتی تنها به نمونه‌های موفق نگاه می‌کنید ممکن است از رفتارها و اشتباهات مهلکی که نمونه‌های ناموفق به آن دچار شدند، غفلت کنید. شاید به همین دلیل است وقتی از آن حکیم پرسیدند “ادب از که آموختی؟” پاسخ داد: “از بی‌ادبان”.

برای آشنایی با خطاهای رفتاری در تصمیم‌گیری این مقاله را مرور کنید.

***ضمیمه: مروری بر کارهای والد روی قابلیت مداومت هواپیما (Aircraft Survivability)

والد به این علاقه‌مند بود تا با دانستن توزیع آسیب‌ها روی هواپیماهای بازگشتی بداند کدام بخش‌های هواپیما باید با زره تقویت شوند تا مداومت هواپیما افزایش یابد. توجه داشته باشید که به اطلاعات هواپیماهایی که در طول مأموریت سقوط کرده بودند، دسترسی وجود نداشت.

در نبود چنین داده‌ای، او سعی کرد تا برآورد کند اگر به یک هواپیما که تعداد مشخصی گلوله اصابت کرده، پس از دریافت یک گلوله دیگر با چه احتمالی به پرواز خود می‌تواند ادامه دهد. او همین‌طور تلاش کرد تا احتمال مداومت هواپیما پس از اصابت گلوله به قسمت‌های مختلف را محاسبه کند.

فرض کنید ۴۰۰ هواپیما به یک مأموریت فرستاده‌ شده و ۳۸۰ هواپیما بازگشته‌اند. تعداد هواپیماهایی که $i$ بار مورد اصابت قرارگرفته‌اند $A_{i}$ است. این اطلاعات موجود است:

$A_0=320,A_1=32,A_2=20,A_3=4,A_4=2,A_5=2$

هر هواپیما به چهار بخش تقسیم شده است: ۱) موتورها، ۲) بدنه، ۳) سیستم سوخت و ۴) سایر بخش‌ها. $\gamma(i)$ نشان‌دهنده این است هرکدام از این بخش‌ها چه سطحی از سطح کل هواپیما را اشغال کرده اند. شکل-۲ نشان می‌دهد توزیع برخورد گلوله‌ها روی بخش‌های مختلف هواپیماهای بازگشتی چگونه بوده است ( $N_i$ ).

بر اساس داده‌های موجود می‌توان کسری از هواپیماها را که پس از دریافت $i$ گلوله بازگشته‌اند، به دست آورد ( $a_i=A_i/N$ ). والد فرض کرد که اگر به یک هواپیما از تعداد بیشتری مانند $n$ گلوله اصابت کند، حتماً سقوط خواهد کرد:

$i> n \rightarrow a_i=0$

به‌این‌ترتیب درصد هواپیماهای ازدست‌رفته از رابطه زیر محاسبه می‌شود:

$L=1-\sum_{i=0}^{n} a_{{i}}$

فرض کنید $p_{i}$ نشان‌دهنده احتمال شرطی این است که هواپیما پس از اصابت گلوله $i$ اُم سقوط کند به شرط آنکه $i-1$ گلوله دریافت کرده باشد ولی سقوط نکرده باشد.

همچنین $x_{i}$ نشان‌دهنده کسری از هواپیماهایی است که با دریافت گلوله $i$ اُم سقوط کرده‌اند. فرض می‌شود اگر هواپیمایی مورد اصابت قرار نگیرد، حتماً بازخواهد گشت ( $x_i=0$ ). بنابراین رابطه زیر برقرار است:

$L=\sum_{i=0}^{n} x_{{i}}$

به‌این‌ترتیب کسری از هواپیماها که در اثر اصابت $i$ اُم سقوط می‌کنند از رابطه زیر به دست می‌آید:

$x_{i}=p_{i}*(1-\sum_{{j=0}}^{i-1} a_{j} - \sum_{j=0}^{i-1} x_{{j}})$

هدف این است که از روی اطلاعاتی که قابل‌مشاهده است ( $a_i$ )، احتمالات موردنظر را محاسبه کنیم. می‌توان ثابت کرد که معادله زیر برقرار است:

$\sum_{j=1}^{n} (a_{j}/(q_{1} ... q_{j}))=1-a_{{0}}$

در رابطه بالا $q_{j}$ احتمال شرطی است که هواپیما پس از اصابت گلوله $j$ اُم سقوط نکند به‌شرط آنکه $j-1$ گلوله دریافت کرده و سقوط نکرده باشد ( $q_j=1- p_j$ ). به‌عنوان یک فرض ساده کننده می‌توان در نظر گرفت که این احتمال ثابت است ( $q_j\equiv q$ ). بنابراین برای داده‌های نمونه، رابطه بالا منجر به حل معادله زیر برای یافتن $q$ می‌شود:

$0.08/q+0.05/q^2 +0.01/q^3 +0.005/q^4 +0.005/q^5 =0.2$

با حل معادله بالا، $q=0.851$ می‌شود و می‌توان $x_{i}$ را محاسبه کرد.

$x_1=0.02980,x_2=0.01344,x_3=0.00399,x_4=0.00190,x_5=0.00087$

فرض ثابت بودن $q_{j}$ ممکن است در عمل محدودکننده باشد. والد در ادامه کارهای خود به این پرداخته که چطور بدون در نظر گرفتن این فرض مسئله را حل کند. این بحث خارج از چارچوب این نوشته است.

در قسمتی دیگری، والد به این می‌پردازد که چگونه احتمال آسیب‌پذیری قسمت‌های مختلف هواپیما را محاسبه کند. اگر $\delta(i)$ نشان‌دهنده احتمال این باشد که ناحیه $i$ مورد اصابت قرار گیرد به‌شرط آنکه تنها همان یک گلوله را دریافت کند و سقوط نکند، رابطه زیر برقرار است:

$\delta(i)=\gamma(i)q(i)/\sum_{i=1}^{k} \gamma(i)q(i)$

این رابطه درواقع همان قانون بیز (Bayes’ Law) است. با فرض ثابت بودن $q_{j}$ ، معادله بالا به شکل زیر درمی‌آید:

$q_{i}=\delta(i)*q/\gamma(i)$

$\delta(i)$ نشان‌دهنده نسبت اصابت‌ها به هر بخش به‌کل اصابت‌ها به هواپیماهای بازگشتی است که از روی‌داده‌های موجود محاسبه می‌شود. $\gamma(i)$ احتمال اصابت گلوله به یک بخش هواپیماست که می‌توان آن را معادل سطحی که آن بخش از سطح کل هواپیما اشغال می‌کند در نظر گرفت (شکل-۲). مقادیر $q(i)$ برای بخش‌های مختلف هواپیما در شکل-۳ آمده است.

همان‌طور که مشاهده می‌شود آسیب‌پذیرترین نقطه موتورهای هواپیما است. این نتایج را مقایسه کنید با شکل-۲ که در آن پراکندگی اصابت گلوله آمده است و موتورهای هواپیماهای برگشتی جزء نقاطی است که کمترین اصابت را داشتند.

برچسب ها

مجتبی بنائی 1396/09/23

۰ 453 زمان تقریبی مطالعه 8 دقیقه

دیدگاهتان را بنویسید لغو پاسخ

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

Behnam Yazdanpanahi
مطلب بسیار مفید و‌ارزشمندی هست، ممنون...
مجتبی بنائی
سلام. امروزه خیلی هدوپ به صورت عملی استفاده نمیشه . اگر نیاز...
فاطمه
سلام برای کار با hortonworks در حد ابتدایی و شروع کار باابزا...
اصغر
از خواندن نظرات برخی افراد خیلی تعجب میکنم. متن بسیار کلی، ب...