مفاهیم آماری در علم دادهمفاهیم پایه
تحلیل رگرسیون
هنگام کار با داده در نرم افزارهای مختلف داده کاوی، وقتی از رگرسیون استفاده می شود، با نتایج زیر روبرو می شویم. در این مقاله قصد داریم به معرفی هر یک از نتایج بپردازیم.
- باقیمانده ها (Residuals): باقیمانده برابر تفاوت بین مقادیر مشاهده شده و مقادیر پیش بینی شده است. این مقادیر باید دارای توزیع نرمال و یا نزدیک به توزیع نرمال باشند که از طریق رسم شکل می توان این مساله را مشاهده کرد. نرمال بودن باقیمانده ها به این معناست که میانگین اختلاف بین باقیمانده و مقادیر واقعی نزدیک به صفر است. هر چه توزیع باقیمانده به توزیع نرمال نزدیک تر باشد مدل بهتری برازش شده است.
- ضرایب تخمین زده شده (Estimate Coefficient): مقدار تخمینی شیب خط و عرض از مبدا محاسبه شده است. در شکل فوق مقدار عرض از مبدا برابر ۴۸٫۹۷۱۷۷۰ و مقدار شیب خط برابر ۰٫۲۱۹۶۸۷ است.
- خطای استاندارد ضرایب (Standard error of coefficient): این معیار دقت تخمین ضرایب را اندازه می گیرد. همچنین یک تخمین از انحراف استاندارد ضرایب است. مقدار بیشتر این معیار نشان دهنده دقت بیشتر مدل است. برای مثال دو متغیر قابل پیش بینی مانند فشار و دما داریم. در مدل رگرسیون خطای استاندارد برای دما برابر ۰٫۶۴ و فشار ۰٫۰۰۸۷ به دست آمده است. بنابراین مدل توانایی پیش بینی دما را با دقت بیشتری نسبت به فشار دارد.
- ضرایب t-value: این مقدار برابر نسبت ضریب تخمینی به مقدار خطای استاندارد است. این معیار احتمال اینکه یک ضریب تخمینی غیر صفر باشد را اندازه می گیرد. مقدار بزرگتر این معیار نشان دهنده این است که احتمال کمتری وجود دارد که مقدار واقعی ضریب برابر صفر بوده باشد. چنین مدلی مطلوب است.
- ضرایب p-value: از این معیار برای سنجش فرض صفر استفاده می کنند. فرض صفر بیانگر صفر بودن ضرایب است. به عبارت دیگر فرض صفر بیان می کند که متغیرهای مورد بررسی اثری بر روی مدل ندارند. این معیار سطح معناداری مشاهده شده برای آزمون است. این معیار با مقدار آلفا مقایسه می شود. معمولا مقدار آلفا برابر ۰٫۰۵ درنظر گرفته می شود. اگر p-value از مقدار آلفا کمتر باشد فرض مقابل را قبول می کنیم. مقدار کمتر این معیار بیانگر مطلوبیت مدل است. به این معنا که متغیر پیش گویی کننده انتخابی، در قدرت پیش گویی مدل تاثیر داشته است.
- سطح معناداری (The level of significance): این معیار براساس p-value محاسبه می شود. این معیار در مدل به شکل ستاره هایی نمایش داده شده است. تعداد بیشتر ستاره ها بیانگر بهتر بودن ضرایب است. یک نقطه تیره نشان می دهد که معیار ضرایب ناکافی است و می توان از مدل کنار گذاشته شود. به عبارت دیگر سه ستاره بیانگر سطح اطمینان ۱۰۰ درصد و دو ستاره بیانگر سطح اطمینان ۹۹ درصد است.
- خطای استاندارد باقیمانده یا درجه آزادی (Residual standard error / degree of freedom): این معیار میزان انحراف استاندارد باقیمانده ها است. هر چه این مقدار به صفر نزدیکتر باشد بهتر است.
- ضریب تعیین (Multiple R-Squared): این معیار نشان دهنده نسبت مجموع واریانس های قابل توضیح توسط متغیرهای پیش بینی یا مدل رگرسیونی است. این ضریب در بازه ۰ و ۱ قرار می گیرد. اگر این معیار برابر ۰٫۹۹ باشد به این معناست که مجموعه متغیرهای به کار رفته در مدل ۰٫۹۹ درصد از تنوع مدل را توضیح می دهد.
- ضریب تعیین تعدیل شده (Adjusted R-Squared): ضریب تعیین با اضافه شدن متغیرهای پیش گویی کننده افزایش می یابد. برای جلوگیری از این اتفاق، از ضریب تعیین تعدیل شده استفاده می شود. ضریب تعیین تعدیل شده بالاتر نشان دهنده مدل بهتری است.
- معیار F-statistics: این معیار F-test را روی مدل اجرا می کند. این معیار مدل را با پارامترهای کمتر مورد آزمون قرار می دهد. چنانچه مدل فعلی بهتر از مدل با پارامترهای کمتر باشد، در نتیجه F-statistics ، میزان p-value بالاتری خواهد داشت. یک مدل مطلوب خواهد بود زمانی که F-statistics ، دارای p-value بالاتری باشد.
نکته: اگر حجم داده ها کم باشد یا multicolinearity در متغیرهای مستقل ورودی وجود داشته باشد، p-value ها مقادیر بزرگی خواهند داشت.