پیشبینی دیابت با استفاده از درخت تصمیم «نرمافزار رپیدماینر»
خلاصه
دیابت
نوع ۲ یک بیماری شایع در جهان میباشد. امروزه تکنیکهای تحلیل داده و
یادگیری ماشین در زمینه تشخیص پزشکی در حال افزایش است. در این مطلب مدلی
برای پیشبینی و تشخیص بیماری دیابت نوع ۲ پیشنهاد شدهاست. در مدل
پیشنهادی از درخت تصمیم به عنوان یک طبقهبند برای طبقهبندی دادهها
استفاده شدهاست. به منظور دستیابی به نتیجه تجربی، ما از مجموعهداده pima از مخزن یادگیری ماشین UCI
استفاده شده است. نتایج نشان میدهد درخت تصمیم مبتنی بر معیار صحت
«accuracy» به همراه هرس کردن درخت تصمیم در مقایسه با دیگر روشهای بررسی
شده دقت بالاتری رسیده است. نتایج حاصل از سیستم پیشنهادی برای تکنیک مورد
استفاده دقت ۸۱.۴۲٪ به دست آمده است.
مقدمه
دیابت
قندی یک سندروم است که با اختلال متابولیک و بیماریهای متابولیک شناخته
میشود. این اختلال از افزایش غیرطبیعی غلظت قند خون ناشی از کمبود
انسولین، یا حساس بودن بافتها به انسولین کم میباشد.دیابت منجر به عوارض
جدی یا حتی مرگ نابهنگام میشود. با این حال، برای تشخیص دیابت، چندین
آزمایش زمانبر و تجزیه و تحلیل عوامل بحرانی انجام میشود. امروزه
الگوریتمهای یادگیری ماشین برای طبقهبندی و تشخیص بیماریها به منظور رفع
مشکلات و کاهش هزینههای مورد نیاز مورد استفاده قرار میگیرند. علاوهبر
این یادگیری ماشین به تصمیمات معنیدار و دقیقی منجر میشود.مجموعه
دادههای پزشکی اغلب حاوی اطلاعات نامناسب «نویز» هستند. نویزها معمولا به
خاطر خطای انسانی، مشکلات دستگاه، شرایط محیطی حادث میشوند. نویز بر
نتایج تصمیمگیری الگوریتم مورد استفاده تأثیر میگذارد.
دانش اولیه
در این بخش به بررسی دادهکاوی، ابزارها و روشهای مورد بررسی در این مقاله میپردازیم.
دادهکاوی
ما در جهانی زندگی میکنیم که روزانه مقدار زیادی اطلاعات جمعآوری میشود. روشهای سنتی تبدیل دادهها به دانش، بر تجزیه و تحلیل دادهها به صورت دستی متکی است. با افزایش سریع حجم دادهها، این فرم تجزیه و تحلیل اطلاعات آهسته، گران و subjective است. روش سنتی در بسیاری از زمینهها کاملا غیرعملی است و نمیتواند نیاز به تجزیه و تحلیل دادهها را برآورده کند.دادهکاوی، همچنین به عنوان کشف دانش از داده «KDD» شناخته میشود، میتواند این نیاز را با ارائه ابزار برای کشف دانش از دادهها تامین کند. دادهکاوی فرآیند کشف الگوهای جالب و دانش از مقادیر زیادی داده است. منابع دادهها میتوانند شامل پایگاه دادهها، انبارههای داده، وب، سایر مخازن اطلاعات یا دادههایی باشند که به صورت پویا به سیستم منتقل میشوند.در دهههای گذشته، دادهکاوی در زمینههای مختلف مانند بازاریابی، مالی «به ویژه سرمایهگذاری»، تشخیص تقلب، تولید، مخابرات و بسیاری زمینههای علمی، از جمله تجزیه و تحلیل دادههای پزشکی بهکار گرفته شده است. همانطور که حجم اطلاعات پزشکی بهطور چشمگیری افزایش مییابد، فشار رو به رشد برای تجزیه و تحلیل دادههای کارآمد برای استخراج اطلاعات مفید و کاربردی از مقادیر بسیار زیاد دادهها وجود دارد. چنین اطلاعاتی ممکن است نقش مهمی در تصمیمگیریهای پزشکی آینده ایفا کند.
ابزارهای دادهکاوی
برای اجرای مدل پیشنهادی، لازم است از برخی ابزارهای داده کاوی استفاده شود. یک ابزار دادهکاوی کارآمد میتواند به ما در تبدیل دادههای عظیم به اطلاعات مفید کمک کند. در چند سال گذشته، ابزارهای دادهکاوی منبع باز و نرمافزارهای مختلفی برای استفاده وجود دارد مانند ردپیدماینر، محیط برای تجزیه و تحلیل دانش «WEKA»، «KNIME»، «Orange». همچنین کتابخانههای قوی رایگان زیادی برای زبانهای پایتون و R توسعه داده شدهاست.از جمله این ابزارهای دادهکاوی، رپیدماینر یکی از ابزارهای محبوب و کاملا کاربردی است. در این بررسی از رپیدماینر به عنوان ابزار استخراج داده استفاده شدهاست. رپیدماینر یکی از ابزارهای مورد استفاده برای کاوش و کشف دانش از جریان دادهها میباشد. این نرمافزار قابلیت تجزیه و تحلیل حجم عظیمی از دادهها را با استفاده از اتصال به Hadoop وSpark دارد. این نرمافزار از تنوع وظایف استاندارد برای دادهکاوی از جمله پیشپردازش دادهها، خوشهبندی، طبقهبندی، رگرسیون، تجسم و انتخاب ویژگی پشتیبانی میکند.
متدهای دادهکاوی
پیشبینی میشود که دادهکاوی یکی از پیشرفتهای انقلابی دهههای آینده باشد. مجله MIT Technology Review، آن را به عنوان یکی از ۱۰ فناوری در حال ظهور انتخاب کرده است که جهان را تغییر خواهد داد«+». محققان به شدت در حال توسعه روشهای دادهکاوی جدید هستند. متدولوژیهای دادهکاوی باید مواردی مانند عدم اطمینان داده، نویز و ناتمام بودن را در نظر بگیرند. برخی از روشهای دادهکاوی، کشف میکنند که چگونه میتوان از معیارهای تعیین شده توسط کاربر برای ارزیابی جالب بودن الگوهای کشف شده و همچنین روند کشف استفاده کرد. در این بخش، یک روش دادهکاوی عمومی که در مدل پیشنهادی مورد استفاده قرار میگیرد مورد بحث قرار میگیرد.
الگوریتم درخت تصمیم
در چند سال گذشته الگوریتمهای زیادی برای دستهبندی دادهها توسعه پیدا کردهاند. درخت تصمیمگیری یک الگوریتم طبقهبندی مهم در دادهکاوی است. مزیت اصلی الگوریتمهای درخت تصمیمگیری این است که ساخت آنها آسان هستند و در نتیجه بهراحتی قابل تفسیر هستند. معمولا در زمینههای مختلف استفاده میشود. محققان انواع الگوریتمهای درخت تصمیمگیری را برای یک دوره زمانی با افزایش عملکرد و توانایی بکاربردن انواع مختلف دادهها توسعه دادهاند. الگوریتمهای محبوب درخت تصمیمگیری از جمله ID3، CART، C4.5، C5.0، J48 و غیره. C4.5 توسعه یافته است.
مرور روندکلی انجام کار
منبع داده
برای انجام تحقیق، ما از مجموعه دادههای دیابت Pima استفاده کردیم که از مخزن UCI به صورت عمومی قابل دسترس است. مجموعه داده شامل زنانی است که حداقل ۲۱ ساله از میراث پیمایی (pima) در اطراف فینیکس، آریزونا زندگی میکنند«+». در اینجا ۷۶۸ پرونده در مجموعه داده وجود دارد، از جمله ۲۶۸ مورد در کلاس “مثبت برای دیابت آزمایش شده” و ۵۰۰ مورد برای “آزمایش منفی برای دیابت” که ۳۷۶ پرونده حاوی مقادیر گم شده است. هدف از این تحقیق پیشبینی اینکه آیا فرد با استفاده از هشت اندازه گیری فیزیولوژیکی و نتایج آزمایش پزشکی داده شده در مجموعه داده، دیابت دارد یا خیر. این یک مساله دو کلاسه با ارزش کلاس «۱» که به عنوان “مثبت برای دیابت آزمایش شده” تفسیر شده است در حالی که ارزش کلاس «۰» به عنوان “منفی برای دیابت آزمایش شده” انتخاب شده است. اطلاعات ویژگی موجود در مجموعه دادهها در جدول زیر آورده شده است.
مدل پیشنهاد شده
به منظور پیشبینی، یک مدل پیشبینی تعریف شد. اصل کار مدل پیشنهاد شده در شکل زیر نشان داده شده است. این شامل مراحل زیر است:
۱. آمادهسازی دادهها
- تعیین نوع دادهها و مشخص نمودن متغیر برچسب «Label»
آمادهسازی دادهها در مورد ساخت یک مجموعه داده از یک یا چند منبع داده است که برای اکتشاف و مدلسازی استفاده میشود. این یک تمرین خوب برای شروع یک مجموعه داده اولیه است تا با دادهها آشنا شوید، ابتدا بینشهای دادهها را کشف کنید و درک خوبی از مسائل مربوط به کیفیت دادههای احتمالی داشته باشید. آمادهسازی دادهها اغلب یک فرایند زمانگیر است و به شدت مستعد اشتباهات است. در پروژههای علوم دادهای که دادهها با تعداد زیادی از مقادیر نامعتبر، غریب و از دسترفته جمعآوری شده است، تجزیه و تحلیل دادههایی که به دقت مورد بررسی قرار نگرفتهاند، میتواند نتایج بسیار گمراه کنندهای را ایجاد کند. در نتیجه، موفقیت پروژههای علوم داده به شدت به کیفیت دادههای آماده شده بستگی دارد.
برای مشاهده بقیه مقاله به این آدرس مراجعه کنید.