همبستگی

در دنیای کسب‌وکار پیش می‌آید که تصمیم‌گیر به رابطه بین دو متغیر علاقه‌مند است. در آمار، از کوواریانس (Covariance) و همبستگی (Correlation) برای کمّی کردن رابطه بین متغیرها بهره می‌برند. در این مقاله به تعاریف ریاضی این مفاهیم می‌پردازم. علاوه بر این با یک مثال در حوزه مدیریت کیفیت و اجرای آن در نرم‌افزار R، کاربرد این مفهوم را در تصمیم‌گیری نشان خواهم داد.

کوواریانس نمونه آماری

کوواریانس یک شاخص توصیفی است که وجود رابطه خطی بین دو متغیر را سنجش می‌کند. اگر نمونه‌ای آماری از متغیرهای x و y دارای n مشاهده باشد، آنگاه کوواریانس بین این دو متغیر از رابطه زیر محاسبه می‌شود:

در فرمول بالا ابتدا فاصله هریک از مقادیر متغیرهای x و y از میانگین آن محاسبه می‌شود. این انحراف‌ها از میانگین برای مقادیر متناظر x و y در هم ضرب و مجموع آن محاسبه شده؛ سپس این مقدار بر n-1 تقسیم می‌گردد.

همبستگی نمونه آماری

واحد کوواریانس تابع واحد متغیرهای x و y است. به همین دلیل مقایسه این شاخص برای سنجیدن شدت رابطه بین متغیرها دشوار می‌شود. با تقسیم کوواریانس بر حاصل‌ضرب انحراف معیار متغیرهای x و y ضریب همبستگی پیرسون (Pearson Correlation Coefficient) به دست می‌آید که تحت تأثیر واحد متغیرها نیست:

ضریب همبستگی همواره عددی بین ۱ و ۱- است.  این ضریب دو بخش دارد: مقدار عددی و علامت. مقدار عددی نشان می‌دهد چقدر رابطه خطی بین دو متغیر قدرتمند است. علامت نشان می‌دهد جهت این رابطه مثبت است یا منفی.

اگر ضریب همبستگی مثبت باشد، به این مفهوم است که افزایش در مقادیر یک متغیر با افزایش در مقادیر متغیر دیگر همراه است. همین‌طور کاهش در مقادیر یک متغیر با کاهش در مقادیر متغیر دیگر همراه است. در این حالت اگر نمودار پراکندگی دو متغیر رسم شود، می‌توان خطی با شیب مثبت را از بین نقاط برازش داد (شکل-۱). به همین ترتیب اگر ضریب همبستگی منفی باشد، می‌توان خطی با شیب منفی را از بین نقاط برازش داد (شکل-۱).

هرچه مقدار مطلق ضریب همبستگی (صرف‌نظر از علامت) به ۱ نزدیک باشد، نشان می‌دهد شدت رابطه خطی بین دو متغیر قوی‌تر است. در مقابل ضریب همبستگی نزدیک صفر نشان می‌دهد که رابطه خطی بسیار ضعیفی بین متغیرهای x و y برقرار است. در این حالت اگر نمودار پراکندگی دو متغیر رسم شود، این‌طور به نظر می‌رسد نقاط به شکل تصادفی در صفحه رسم شده‌اند (شکل-۱).

شکل-۱

اگر بین دو متغیر رابطه غیرخطی برقرار باشد، همچنان این امکان وجود دارد ضریب همبستگی نزدیک صفر باشد که نشان‌دهنده نبود رابطه خطی بین دو آن است (شکل-۲). به همین دلیل در هنگام تحلیل بهتر است نمودار پراکندگی بین متغیرها رسم شود تا به وجود این روابط پی برد.

شکل-۲

باید توجه کرد که اگر بین دو متغیر همبستگی دیده شود لزوماً به این معنی نیست که یکی دلیل وجود دیگری است. این امکان وجود دارد این همبستگی جعلی (Spurious Correlations) باشد به این معنی که متغیر پنهانی سومی روی هر دو متغیر اثر می‌گذارد و یا این‌که همبستگی کاملاً تصادفی است.

برای توضیح بیشتر به مقاله ” چرا مدیران باید تفاوت بین همبستگی و رابطه علّی را بدانند؟” مراجعه کنید.

در نرم‌افزار اکسل (Excel) از تابع ()CORREL برای محاسبه ضریب همبستگی استفاده می‌شود. در شکل-۳ در خانه C12 از فرمول برای محاسبه ضریب همبستگی بین متغیرهای X و Y استفاده شده است:

CORREL(B3:B10,C3:C10)=

شکل-۳

یک مثال در حوزه مدیریت کیفیت

این مثال مربوط به خط تولید یک نوع اره‌برقی است که در آن از پرچ برای متصل کردن دو قطعه به یکدیگر استفاده می‌شود. یکی از شاخص‌هایی که جهت کنترل کیفیت در این خط تولید سنجیده می‌شود ارتفاع بیرون‌زدگی سر پرچ است. فرض کنید به‌عنوان مدیر خط تولید، با بررسی روند موجود در نمودارهای کنترل کیفیت پی بردید که به‌زودی ممکن است این ارتفاع از محدوده استاندارد خارج شود. در جلسه‌ای که با تیم بهبود کیفیت خود دارید، یکی از اعضا پیشنهاد می‌دهد واریانس مشاهده‌شده در فرآیند تولید، به علت ضخامت رنگی است که دور سوراخ پرچ می‌نشیند. رنگ زدن قطعات قبل از فرآیند پرچ اتفاق می‌افتد و بعد از آن ارتفاع پرچ سنجش می‌شود. با جمع‌آوری نمونه تصمیم می‌گیرید این فرضیه را بیازمایید که آیا بین ارتفاع پرچ (Rivet Height) و ضخامت رنگ (Paint Thickness) همبستگی وجود دارد یا خیر.

این مثال را در نرم‌افزار R  اجرا کردم. در ابتدا داده‌ها وارد و نمودار پراکندگی و خط رگرسیون رسم شده است (شکل-۴).

شکل-۴

برای محاسبه ضریب همبستگی پیرسون از کد زیر استفاده کردم:

ضریب همبستگی بالا نشان می‌دهد رابطه خطی نسبتاً قوی در نمونه آماری برقرار است. ولی آیا می‌توان این رابطه مشاهده‌شده در نمونه را به جامعه آماری گسترش داد و مدعی شد بین ارتفاع پرچ و ضخامت رنگ در فرآیند تولید همبستگی وجود دارد؟ برای پاسخ به این پرسش لازم است آزمون فرضیه را به ترتیب زیر انجام داد.

اول، باید فرض صفر (ضریب همبستگی در جامعه آماری (\rho) برابر صفر است) و فرض مقابل (ضریب همبستگی در جامعه آماری (\rho) مخالف صفر است) را تعیین کرد:

دوم، آماره آزمون را از رابطه زیر محاسبه کرد:

سوم، با محاسبه آماره آزمون، مقدار p را محاسبه کرد. این مقدار از توزیع t با درجه آزادی n-2 به دست می‌آید. این مقدار نشان می‌دهد اگر فرضیه صفر درست باشد با چه احتمالی آماره آزمون {t_{}}^{*} به دست می‌آید.

چهارم، با مقایسه مقدار p و سطح معنی‌داری \alpha که معمولاً ۵ درصد در نظر گرفته می‌شود، تصمیم می‌گیریم آیا فرضیه صفر را می‌توان رد کرد یا خیر. اگر مقدار p کوچک‌تر از ۵ درصد باشد، می‌توان فرضیه صفر را رد کرد. به‌این‌ترتیب می‌توان گفت شواهد کافی وجود دارد که رابطه خطی بین متغیرها در جامعه آماری نیز برقرار و برآورد ما از ضریب همبستگی در جامعه (\rho) مقدار r{_{xy}}^{} است. اگر مقدار p بزرگ‌تر از ۵ درصد باشد، به این معنی است که شواهد کافی برای رد کردن فرضیه صفر وجود ندارد و نمی‌توانیم ادعا کنیم رابطه خطی بین دو متغیر در جامعه آماری برقرار است.

توجه شود که نتایج آزمون t وقتی معتبر است که متغیرها به‌صورت نرمال توزیع شده باشند.

در مثال بالا برای انجام آزمون فرضیه در R مراحل زیر را طی کردم.

ابتدا با آزمون Shapiro-Wilk فرض نرمال بودن داده‌ها را چک کردم. در این آزمون فرضیه صفر این است که داده‌ها به شکل نرمال توزیع شدند. فرضیه مقابل این است که داده‌ها به شکل نرمال توزیع نشدند.

با مقایسه p-value و سطح معنی‌داری ۵ درصد می‌توان نتیجه گرفت متغیرهای حاضر در این مسئله از توزیع نرمال پیروی می‌کنند. پس می‌توانیم از آزمون t استفاده کنیم. برای این منظور در R  از کد زیر استفاده کردم:

ازآنجاکه مقدار p از ۵ درصد کوچک‌تر است، می‌توان نتیجه گرفت در جامعه آماری ارتفاع پرچ به شکل معنی‌داری باضخامت رنگ همبستگی دارد. برآورد ما از ضریب همبستگی مقدار ۰٫۶۶۸ است.

اگر با داده‌های رتبه‌ای (Ordinal) مواجه بودیم و یا داده‌ها به‌صورت نرمال توزیع نشده بودند می‌توان از ضریب همبستگی اسپیرمن (Spearman Correlation Coefficient) و یا ضریب همبستگی کندال (Kendall’s Tau Correlation Coefficient) استفاده کرد. هر دو ضریب همبستگی از رتبه مقادیر متغیرها برای محاسبه شدت رابطه بین دو متغیر استفاده می‌کنند. در مثال بالا می‌توان با کدهای زیر آزمون‌های همبستگی اسپیرمن و کندال را روی داده‌ها اجرا کرد. این آزمون‌ها نیز نتایج مشابهی دارند و فرضیه صفر را رد می‌کنند.

منابع:

Sheskin, D. J. (2000). “Parametric and Nonparametric Statistical Procedures”, Chapman & Hall/CRC: Boca Raton, FL

Wilcox, R. R. (2016). “Understanding and Applying Basic Statistical Methods Using R”, John Wiley & Sons


پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *