اخلاق و جامعه

علم داده، جامعه و اخلاق

این مقاله مفید و ضرورت فراموش شده اخلاق در علم داده از وبلاگ دیتااینساتیز، عیناً نقل شده است و امید است با توجه به نوپا بودن علم داده در ایران، مباحث و الزامات اخلاقی آن هم در کنار رشد همه جانبه آن، مد نظر قرار گیرد.

 به عنوان دیتاساینتیست، مهندس یادگیری ماشین یا سایر شغلهایی که با گردآوری، ذخیره و تحلیل داده ها و توسعه الگوریتم ها و مدلهای مبتنی بر داده مرتبط هستند، چقدر به کارکرد درست  الگوریتم و مدل تان فکر می کنید؟ مدلی که توسعه  می دهید، چقدر از پیش داوری های ذهنی تان تاثیر می گیرد؟ آیا جایی برای دریافت بازخورد و اصلاح عملکرد مدلتان در نظر می گیرید؟ اگر مدل خطا داشته باشد، چه تبعاتی ممکن است برای کاربران آن ایجاد شود؟ بعضی معتقدند که ترکیب کلان­ داده­ ها، علم داده و هوش مصنوعی تحول بزرگی در زندگی بشر ایجاد خواهد کرد و نتیجه می­گیرند که لازم است هرچه زودتر خودمان را برای این تحول آماده کنیم. ما قبلا هم تحولاتی ازین دست داشته ایم. مثلا اختراع ماشین بخار و انقلاب صنعتی که حتی شکل شهرها و روستاها و درنهایت زندگی افراد را تغییر داد. آن زمان با ذوق زده شدن در برابر مزایای آنی و ملموسِ صنعتی شدن، خیلی چیزها نادیده گرفته شد. مثلا اثر منفی صنعتی شدن بر طبیعت و تخریب آن! خیلی طول کشید تا مضرات صنعتی شدن بر رودخانه ها، جنگلها و آب و هوا مشخص بشود و هنوز هم خیلی از کشورها از جمله کشور خودمان در این رابطه اقدام موثری انجام نداده­ اند. بسیاری از جمله خانم کتی اونیل نویسنده کتاب سلاح های تخریبی ریاضیاتی، معتقدند که علم داده هم می­تواند تاثیرات منفی ای در این ابعاد، برای جامعه داشته باشد. بنابراین باید مراقب آنها باشیم و قوانین تازه ای برای نظارت بر الگوریتم­های مبتنی بر داده وضع کنیم.

اما آسیب های استفاده از الگوریتم­ها و روشهای هوشمند بر جامعه چه چیزهایی هستند؟ در جواب این سوال ممکن است که امنیت و محرمانگی داده ها به ذهن شما خطور کند، گرچه این یکی از مواردی ست که باید مورد توجه باشد و اخیرا خیلی هم به آن توجه شده اما این چیزی نیست که کتی اونیل از آن بحث می کند. خودش نگرانی­ اش را در این جمله خلاصه می کند که علم داده، آینده را فقط پیش بینی نمی کند، بلکه آینده را رقم می زند.

کتی اونیل اخیرا مهمان پادکست دیتافریمید بود و ضمن معرفی کتابش از این آسیب­ها صحبت کرد. بر اساس گفته­‌های خانم اونیل در حال حاضر در خیلی از تصمیم ­گیری­ های اقتصادی و اجتماعی از الگوریتم های تحلیل داده استفاده می شود، مثلا درپرداخت وام­های بانکی، از الگوریتمی استفاده می­شود که با توجه به مشخصات فرد و سوابق مالی او تصمیم می­گیرد که این فرد با چه احتمالی ممکن است وام را به بانک برگرداند و اگر این احتمال پایین باشد وامی به فرد متقاضی داده نمی شود. یا حتی در آزمونهای استخدامی و بررسی رزومه افراد متقاضی یک شغل هم ازین الگوریتم‌ها استفاده می‌شود و یک الگوریتم تصمیم می­گیرد آیا فرد متقاضی دارای حداقل ویژگی‌­های لازم هست یا نه. یا در دادگاه های امریکا یک الگوریتم با محاسبه ریسک ارتکاب مجدد جرم در تصمیم­‌گیری در مورد میزان دوره محکومیت فرد در زندان تاثیر گذار است. یا موردی که همه ما با آن برخورد داشته ایم، نمایش انتخابی آگهی‌ها در فضای مجازی با توجه به ویژگی ها و رفتار قبلی افراد.

خوب سوالی که ممکن است پیش بیاد این است که همه لین مثالها، نمونه ی خوبی از کاربرد علم داده در زندگی هستند، مشکل کجاست؟ کتی اونیل توضیح می دهد که این الگوریتم ها معمولا بر اساس یک سری پیش داوری (بایاس) عمل می­کنند. مثلا در الگوریتمی که در دادگاه های امریکا، میزان ریسک ارتکاب مجدد جرم را برای متهم محاسبه می کند، این ریسک بر اساس یک پرسشنامه محاسبه می­شود. پرسشنامه‌­ای که با بررسی آن متوجه می­شوید که در واقع طراحان پرسشنامه در پی رسیدن به این هستند که شما فقیر هستید یا نه؟ و رنگین پوست هستید یا نه؟ در واقع اگر متهم یک فرد سیاهپوست باشد که در یک محله فقیرنشین زندگی می کند، ریسک ارتکاب مجدد جرم بیشتر خواهد بود و دوره محکومیت او طولانی تر! سوال این است آیا این تصمیم­گیری اخلاقی و منصفانه است؟ آیا این نوع تصمیم­ گیری روی زندگی افراد تاثیر منفی نخواهد داشت؟ و اساسا این نحوه تصمیم­ گیری چه فرقی با نحوه تصمیم­‌گیری فعلی که آن هم بر اساس پیش­ داوری‌­های ذهنی ماست، دارد؟ بجز اینکه این پیش داوری­ های غلط را آنهم در ابعاد وسیع تقویت می­کند؟

مثال دیگری که کتی اونیل می آورد در مورد استفاده از یک الگوریتم هوشمند در تعدیل معلم هاست. این الگوریتم با هدف ارزیابی عملکرد معلم ها توسعه داده شده بود و سعی داشت به تصمیم گیرندگان کمک کند تا معلم هایی که عملکرد ضعیفتری داشتند را تعدیل کند. اما با بررسی هایی که پس از شکایت کسانی که با تصمیم این سیستم کارشان را از دست داده بودند مشخص شد که روش تصمیم گیری این الگوریتم کاملا خطا بوده است و الگوریتم مورد نظر حتی مثل یک روش رندم هم کار نکرده است! آنچه باعث نگرانی بیشتر است این است که در بسیاری از موارد از الگوریتمهای مشابه استفاده می شود بدون اینکه مردم بدانند و بدون اینکه مشخص باشد این الگوریتم­ها چطور کار می کنند!

یک نکته مهم دیگر در مورد این مدلها این است که این مدلها تفسیرپذیر نیستند و نمی­توانیم دقیقا بگوییم که چرا این پیش­ بینی­ ها را کرده اند! از ین لحاظ همه این مدلها یک جعبه سیاه هستند. و وقتی مثلا یک معلم بر اساس تصمیم این مدل از کار بیکار می شود و می پرسد چرا؟ شما دقیقا نمی توانید پاسخی به او بدهید و از آنجایی که این مشکل در ابعاد بالا اتفاق می افتد این الگوریتمها در مجموع، ناعادلانه خواهند بود.

 بحث پیش­‌داوری­ ناعادلانه در الگوریتم ها، حقوق افرادی که داده آنها جمع آوری شده و .. ، مباحث جدیدی نیستند و افراد و گروه­ های زیادی درباره این موضوع اظهارنظر کرده اند و راه حل های متفاوتی پیشنهاد کرده اند. یکی از آنها دکتر دی.جی پاتیل است که اخیر همراه دو نویسنده دیگر کتابی با عنوان اخلاق و علم داده منتشر کرده ­اند و یک چک لیست برای استفاده در پروژه های مبتنی بر داده ارائه کرده اند. نویسندگان این کتاب استفاده از این چک لیست را روشی ساده و سریع برای اجتناب از اشتباهات و حصول اطمینان از درنظر گرفته شدن تمام جوانب لازم برای ارائه یک محصوب مبتنی بر داده می­دانند.

کتی اونیل اما در برخورد با این مشکلات دو راه­‌حل پیشنهاد میدهد: یکی شفافیت و دیگری نظارت. در مورد شفافیت اونیل معتقد است که باید در مورد اینکه چه چیزی شفاف است خوب فکر کنیم. اینکه مثلا سورس کد مدل را به معلم ها بدهیم و بگوییم که این روشی است که شما با آن ارزیابی شده ­اید. یا این پارامتر یا ضریبی است که در آموزش مدل به آن رسیده­ ایم، فایده­ ای نخواهد داشت. اونیل پیشنهاد می­‌دهد که یک نوع تجزیه و تحلیل میزان حساسیت مدل به فاکتورهای مختلف، اینجا داشته باشیم.  که اگر بخواهیم ساده توضیحش بدهیم این است که اول باید تایید بشود که الگوریتم یا مدل تهیه شده، داده درستی از افراد دارد، بعد توضیح داده شود که اگر در این داده هر یک از مشخصات افراد  کمی تغییر بکند چه اتفاقی می­ افتد؟ اگر فلان بچه توی کلاس این معلم نبود چه می­شد؟ اگر فلان بچه نمره بهتری می­گرفت؟ اگر بجای ۳۰ تا شاگرد، ۲۰  نفر شاگرد توی کلاس بود، اگر این معلم در یک مدرسه دیگر تدریس می کرد  و …

 این روش همه مشکلات را حل نمی کند اما می تواند جلوی خطاها و لغزش های واضح را بگیرد. اگر شما ببینید که نتیجه الگوریتم با یک تغییر کوچک در داده ­ها، تغییر فاحشی داشته باشد می­توانید بفهمید که الگوریتم مشکل دارد.

اما منصف بودن یک الگوریتم را به این صورت و با بررسی یک مورد نمی توان بررسی کرد. انصاف یک مفهوم آماری است و ما باید به صورت جامع رفتار الگوریتم را بررسی کنیم.  بنابراین ایده نظارت و حسابرسی الگوریتم ها را اینجا مطرح می شود.  نظارت با پرسیدن سوالاتی مثل اینکه این الگوریتم برای چه کسانی پاسخگو نیست؟ بیشتر برای سفید پوستان پاسخگو نیست یا رنگین پوستان، مردان یا زنان و … سر و کار دارد. البته با شفافیت و امکان بررسی فرد به فرد نمی­شود به این سوالات جواب داد، بلکه این سوالی است که باید در سطوح بالاتر و با دسترسی بیشتر پرسیده بشود. و نیاز هست که قانون شرکتها را وادار کند که به این نظارت تن بدهند.

در کنار این روشها برخی افراد دیگر مثل کیت استراچنی نویسنده چند کتاب از جمله پیشروان علم داده، پیشنهاد تعریف نقش مدیر ارشد دایره اخلاق را در سازمانها مطرح کرده اند که وظیفه او نظارت بر پیامدهای اخلاقی محصولات داده محور است.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا