ابزار و کتابخانه هامفاهیم پایهنمونه های کاربردی

پیش‌بینی دیابت با استفاده از درخت تصمیم «نرم‌افزار رپیدماینر»

اصل این مقاله به قلم جنابامیر عبداللهی در سایت dataio.ir منتشر شده است و سایت مهندسی داده با هدف جمع آوری مطالب مفید حوزه علم داده به معرفی و بازنشر بخشی از آن پرداخته است.

خلاصه

دیابت نوع ۲ یک بیماری شایع در جهان می‌باشد. امروزه تکنیک‌های تحلیل داده و یادگیری ماشین در زمینه تشخیص پزشکی در حال افزایش است. در این مطلب مدلی برای پیش‌بینی و تشخیص بیماری دیابت نوع ۲ پیشنهاد شده‌است. در مدل پیشنهادی از درخت تصمیم به عنوان یک طبقه‌بند برای طبقه‌بندی داده‌ها استفاده شده‌است. به منظور دستیابی به نتیجه تجربی، ما از مجموعه‌داده‌ pima از مخزن یادگیری ماشین UCI استفاده شده است. نتایج نشان می‌دهد درخت تصمیم مبتنی بر معیار صحت «accuracy» به همراه هرس کردن درخت تصمیم در مقایسه با دیگر روش‌های بررسی شده دقت بالاتری رسیده است. نتایج حاصل از سیستم پیشنهادی برای تکنیک مورد استفاده دقت ۸۱.۴۲٪ به دست آمده است.

مقدمه

دیابت قندی یک سندروم است که با اختلال متابولیک و بیماری‌های متابولیک شناخته می‌شود. این اختلال از افزایش غیرطبیعی غلظت قند خون ناشی از کمبود انسولین، یا حساس بودن بافت‌ها به انسولین کم می‌باشد.دیابت منجر به عوارض جدی یا حتی مرگ نابهنگام می‌شود. با این حال، برای تشخیص دیابت، چندین آزمایش زمان‌بر و تجزیه و تحلیل عوامل بحرانی انجام می‌شود. امروزه الگوریتم‌های یادگیری ماشین برای طبقه‌بندی و تشخیص بیماری‌ها به منظور رفع مشکلات و کاهش هزینه‌های مورد نیاز مورد استفاده قرار می‌گیرند. علاوه‌بر این یادگیری ماشین به تصمیمات معنی‌دار و دقیقی منجر می‌شود.مجموعه داده‌های پزشکی اغلب حاوی اطلاعات نامناسب «نویز» هستند. نویز‌ها معمولا به خاطر خطای انسانی، مشکلات دستگاه، شرایط محیطی حادث می‌شوند. نویز بر نتایج تصمیم‌گیری الگوریتم مورد استفاده تأثیر می‌گذارد.

دانش اولیه

در این بخش به بررسی داده‌کاوی، ابزارها و روش‌های مورد بررسی در این مقاله می‌پردازیم.

داده‌کاوی

ما در جهانی زندگی می‌کنیم که روزانه مقدار زیادی اطلاعات جمع‌آوری می‌شود. روش‌های سنتی تبدیل داده‌ها به دانش، بر تجزیه و تحلیل داده‌ها به صورت دستی متکی است. با افزایش سریع حجم داده‌ها، این فرم تجزیه و تحلیل اطلاعات آهسته، گران و subjective است. روش سنتی در بسیاری از زمینه‌ها کاملا غیرعملی است و نمی‌تواند نیاز به تجزیه و تحلیل داده‌ها را برآورده کند.داده‌کاوی، همچنین به عنوان کشف دانش از داده «KDD» شناخته می‌شود، می‌تواند این نیاز را با ارائه ابزار برای کشف دانش از داده‌ها تامین کند. داده‌کاوی فرآیند کشف الگوهای جالب و دانش از مقادیر زیادی داده است. منابع داده‌ها می‌توانند شامل پایگاه داده‌ها، انباره‌های داده، وب، سایر مخازن اطلاعات یا داده‌هایی باشند که به صورت پویا به سیستم منتقل می‌شوند.در دهه‌های گذشته، داده‌کاوی در زمینه‌های مختلف مانند بازاریابی، مالی «به ویژه سرمایه‌گذاری»، تشخیص تقلب، تولید، مخابرات و بسیاری زمینه‌های علمی، از جمله تجزیه و تحلیل داده‌های پزشکی به‌کار گرفته شده است. همان‌طور که حجم اطلاعات پزشکی به‌طور چشمگیری افزایش می‌یابد، فشار رو به رشد برای تجزیه و تحلیل داده‌های کارآمد برای استخراج اطلاعات مفید و کاربردی از مقادیر بسیار زیاد داده‌ها وجود دارد. چنین اطلاعاتی ممکن است نقش مهمی در تصمیم‌گیری‌های پزشکی آینده ایفا کند.

ابزار‌های داده‌کاوی

برای اجرای مدل پیشنهادی، لازم است از برخی ابزارهای داده کاوی استفاده شود. یک ابزار داده‌کاوی کارآمد می‌تواند به ما در تبدیل داده‌های عظیم به اطلاعات مفید کمک کند. در چند سال گذشته، ابزارهای داده‌کاوی منبع باز و نرم‌افزارهای مختلفی برای استفاده وجود دارد مانند ردپیدماینر، محیط برای تجزیه و تحلیل دانش «WEKA»، «KNIME»، «Orange». همچنین کتابخانه‌های قوی رایگان زیادی برای زبان‌های پایتون و R توسعه داده شده‌است.از جمله این ابزارهای داده‌کاوی، رپیدماینر یکی از ابزارهای محبوب و کاملا کاربردی است. در این بررسی از رپیدماینر به عنوان ابزار استخراج داده استفاده شده‌است. رپیدماینر یکی از ابزارهای مورد استفاده برای کاوش و کشف دانش از جریان داده‌ها می‌باشد. این نرم‌افزار قابلیت تجزیه و تحلیل حجم عظیمی از داده‌ها را با استفاده از اتصال به Hadoop وSpark دارد. این نرم‌افزار از تنوع وظایف استاندارد برای داده‌کاوی از جمله پیش‌پردازش داده‌ها، خوشه‌بندی، طبقه‌بندی، رگرسیون، تجسم و انتخاب ویژگی پشتیبانی می‌کند.

متدهای داده‌کاوی

پیش‌بینی می‌شود که داده‌کاوی یکی از پیشرفت‌های انقلابی دهه‌های آینده باشد. مجله MIT Technology Review، آن را به عنوان یکی از ۱۰ فناوری در حال ظهور انتخاب کرده است که جهان را تغییر خواهد داد«+». محققان به شدت در حال توسعه روش‌های داده‌کاوی جدید هستند. متدولوژی‌های داده‌کاوی باید مواردی مانند عدم اطمینان داده، نویز و ناتمام بودن را در نظر بگیرند. برخی از روش‌های داده‌کاوی، کشف می‌کنند که چگونه می‌توان از معیارهای تعیین شده توسط کاربر برای ارزیابی جالب بودن الگوهای کشف شده و همچنین روند کشف استفاده کرد. در این بخش، یک روش داده‌کاوی عمومی که در مدل پیشنهادی مورد استفاده قرار می‌گیرد مورد بحث قرار می‌گیرد.

الگوریتم درخت تصمیم

در چند سال گذشته الگوریتم‌های زیادی برای دسته‌بندی داده‌ها توسعه پیدا کرده‌اند. درخت تصمیم‌گیری یک الگوریتم طبقه‌بندی مهم در داده‌کاوی است. مزیت اصلی الگوریتم‌های درخت تصمیم‌گیری این است که ساخت آن‌ها آسان هستند و در نتیجه به‌راحتی قابل تفسیر هستند. معمولا در زمینه‌های مختلف استفاده می‌شود. محققان انواع الگوریتم‌های درخت تصمیم‌گیری را برای یک دوره زمانی با افزایش عملکرد و توانایی بکاربردن انواع مختلف داده‌ها توسعه داده‌اند. الگوریتم‌های محبوب درخت تصمیم‌گیری از جمله ID3، CART، C4.5، C5.0، J48 و غیره. C4.5 توسعه یافته است.

مرور روندکلی انجام کار

منبع داده

برای انجام تحقیق، ما از مجموعه داده‌های دیابت Pima استفاده کردیم که از مخزن UCI به صورت عمومی قابل دسترس است. مجموعه داده شامل زنانی است که حداقل ۲۱ ساله از میراث پیمایی (pima) در اطراف فینیکس، آریزونا زندگی می‌کنند«+». در اینجا ۷۶۸ پرونده در مجموعه داده وجود دارد، از جمله ۲۶۸ مورد در کلاس “مثبت برای دیابت آزمایش شده” و ۵۰۰ مورد برای “آزمایش منفی برای دیابت” که ۳۷۶ پرونده حاوی مقادیر گم شده است. هدف از این تحقیق پیش‌بینی اینکه آیا فرد با استفاده از هشت اندازه گیری فیزیولوژیکی و نتایج آزمایش پزشکی داده شده در مجموعه داده، دیابت دارد یا خیر. این یک مساله دو کلاسه با ارزش کلاس «۱» که به عنوان “مثبت برای دیابت آزمایش شده” تفسیر شده است در حالی که ارزش کلاس «۰» به عنوان “منفی برای دیابت آزمایش شده” انتخاب شده است. اطلاعات ویژگی موجود در مجموعه داده‌ها در جدول زیر آورده شده است.

جدول اطلاعات ویژگی‌های موجود در مجموعه داده
جدول اطلاعات ویژگی‌های موجود در مجموعه داده

مدل پیشنهاد شده

به منظور پیش‌بینی، یک مدل پیش‌بینی تعریف شد. اصل کار مدل پیشنهاد شده در شکل زیر نشان داده شده است. این شامل مراحل زیر است:

مدل پیشنهادی
مدل پیشنهادی

۱. آماده‌سازی داده‌ها

  • تعیین نوع داده‌ها و مشخص نمودن متغیر برچسب «Label»

آماده‌سازی داده‌ها در مورد ساخت یک مجموعه داده از یک یا چند منبع داده است که برای اکتشاف و مدل‌سازی استفاده می‌شود. این یک تمرین خوب برای شروع یک مجموعه داده اولیه است تا با داده‌ها آشنا شوید، ابتدا بینش‌های داده‌ها را کشف کنید و درک خوبی از مسائل مربوط به کیفیت داده‌های احتمالی داشته باشید. آماده‌سازی داده‌ها اغلب یک فرایند زمان‌گیر است و به شدت مستعد اشتباهات است. در پروژه‌های علوم داده‌ای که داده‌ها با تعداد زیادی از مقادیر نامعتبر، غریب و از دست‌رفته جمع‌آوری شده است، تجزیه و تحلیل داده‌هایی که به دقت مورد بررسی قرار نگرفته‌اند، می‌تواند نتایج بسیار گمراه کننده‌ای را ایجاد کند. در نتیجه، موفقیت پروژه‌های علوم داده به شدت به کیفیت داده‌های آماده شده بستگی دارد.

برای مشاهده بقیه مقاله به این آدرس مراجعه کنید.

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا