چه زمانی می‌توان بر اساس همبستگی عمل کرد؟

یک سوپرمارکت زنجیره‌ای در استرالیا با یک شرکت بیمه خودرو یک برنامه مدیریت وفاداری مشتریان مشترک ایجاد می‌کند. اطلاعات ترکیبی به‌دست‌آمده از کارت‌های عضویت مشتریان همبستگی‌های جالبی را مشخص کردند. داده‌ها نشان داد که آن‌هایی که گوشت قرمز و شیر بیشتری می‌خرند، با احتمال بیشتری دچار تصادف  می‌شوند و از بیمه خود استفاده می‌کنند. در مقابل آن‌هایی که پاستا و یک نوشیدنی خاص را می‌خرند و شب‌ها بنزین می‌زنند، ریسک کمتری برای شرکت بیمه دارند. شرکت بیمه از این جمع‌بندی چگونه می‌تواند استفاده کند؟

یکی از کاربردهای مهم دانستن همبستگی بین متغیرها، استفاده در پیش‌بینی است. اگر ما بدانیم بین الف و ب همبستگی وجود دارد و بدانیم الف رخ خواهد داد، آنگاه می‌توان پیش‌بینی کرد که ب نیز رخ خواهد داد. اما بین همبستگی و رابطه علّی تفاوت وجود دارد. در مثال بالا نمی‌توان این‌گونه نتیجه گرفت که خوردن گوشت یا شیر باعث افزایش احتمال تصادف می‌شود.

در مقاله دیگری به تفاوت رابطه علت و معلولی و همبستگی اشاره کردم و این‌که چطور عدم درک تفاوت این دو می‌تواند منجر به تصمیمات نادرست شود.

پرسش اصلی در مسائلی مانند مثال بالا این است که آیا می‌توان بر اساس همبستگی دیده‌شده بین دو متغیر تصمیم به اقداماتی گرفت یا خیر؟

آیا همین‌که بدانیم دو رخداد باهم اتفاق می‌افتند می‌تواند کافی باشد یا حتماً لازم است بدانیم چرا این دو رخداد اتفاق می‌افتند؟ چه زمانی می‌توانیم بر مبنای همبستگی عمل کنیم؟

پاسخ در دو نکته نهفته است:

نکته اول، تا چه حد اطمینان داریم که همبستگی در آینده هم رخ خواهد داد. هرچه اطمینان بیشتری داشته باشیم که همبستگی در آینده هم رخ خواهد داد، منطقی‌تر آن است که اقدام کنیم. این مسئله دو جنبه دارد. یکی آنکه بر اساس داده‌های تاریخی بررسی کنیم این رابطه با چه فرکانسی تکرار شده است. هرچه این همبستگی بیشتر تکرار شده باشد، احتمال آنکه دو متغیر به هم مربوط باشند بیشتر است. مسئله بعد این است که چه توضیحاتی برای وجود این همبستگی داریم. اگر فرضیه‌هایی که برای توضیح این همبستگی داریم کمتر باشد و به آن‌ها اطمینان بالاتری داشته باشیم، احتمال بیشتری وجود دارد که دو متغیر به هم مربوط باشند.

نکته دوم، سبک‌سنگین کردن بین ریسک و پاداش اقدام است. اگر اقدام منجر به‌اشتباه شود و ما در معرض ریسک بالایی قرار بگیریم، آنگاه ممکن است اقدام بر اساس یک همبستگی خیلی قوی هم درست نباشد.

بر همین اساس گروه مشاوران بوستون (Boston Consulting Group – BCG) چارچوبی را مطرح کرده که در شکل-۱ آمده است. مطابق این چارچوب هرچه ارزش اقدام کردن بالاتر و هزینه اشتباه پایین‌تر باشد، می‌توانیم حتی بر اساس یک همبستگی ضعیف عمل کنیم.

شکل-۱

 برای مثال فرض کنید برای کنترل میزان آلایندگی حسگرهایی در جاهای مختلف یک رودخانه نصب شده است. داده‌ها نشان می‌دهد که در یک بخش از رودخانه تجمع آلاینده‌های روغنی افزایش ‌یافته است. همچنین می‌دانیم که به‌تازگی یک رستوران در نزدیکی آن محل باز شده که ممکن است قوانین زیست‌محیطی برای تصفیه فاضلاب را نادیده گرفته باشد. این هم‌زمانی بین تجمع آلاینده‌های روغنی و باز شدن آن رستوران ممکن است تنها یک تصادف باشد و دلایل دیگری برای این رخداد وجود داشته باشد. اما بازرسی رستوران ریسک بالایی ندارد. در اینجا اقدام کردن بر اساس یک همبستگی ضعیف هزینه چندانی ایجاد نمی‌کند.

اما تصمیم برای انجام آزمایش غربال‌گری PSA (Prostate-Specific Antigen) برای تشخیص زودهنگام ابتلا به سرطان پروستات شامل سبک‌سنگین کردن ریسک‌ها و پاداش‌های متفاوتی است. همبستگی بین آزمایش خون PSA و داشتن سرطان پروستات ضعیف است. همین‌طور تاکنون هیچ رابطه علت و معلولی مشخصی در مورد این‌که چگونه افزایش سطح PSA منجر به توسعه سرطان پروستات می‌شود، وجود ندارد. همین‌طور انجام عمل جراحی پیشگیرانه سرطان پروستات اثر بلندمدت چندانی روی نرخ نجات مبتلایان نداشته است. همین‌طور اگر خطای نوع اول رخ دهد (فرد سرطان نداشته باشد درحالی‌که آزمایش نشان دهد سرطان دارد) ریسک اقدام به علت عوارض جراحی بالاست. به همین دلایل بود که انجمن پزشکی آمریکا (American Medical Association) توصیه قبلی خود را به مردان بالای ۵۰ سال مبنی بر این‌که به‌طور مرتب آزمایش‌ خون PSA دهند، تغییر داد (توجه کنید این صرفاً یک مثال است و نباید مبنای عمل خوانندگان قرار گیرد. مطالعات پزشکی دائماً در حال بروز شدن است و در این مورد باید با افراد متخصص مشورت کرد).

به نمونه‌ای که در ابتدای مقاله اشاره شد، بازگردیم. فرض کنید با توجه به مشاهدات انجام‌شده دو اقدام زیر پیشنهاد شده است:

طراحی یک برنامه بازاریابی جدید برای جذب کردن افرادی که بر اساس نوع خریدشان از سوپرمارکت می‌دانیم ریسک پایین‌تری دارند

قیمت‌گذاری بیمه خودرو بر اساس رفتار خرید افراد از سوپرمارکت

این دو سیاست را می‌توان با چارچوب پیشنهادی ارزیابی کرد. بدون داشتن هیچ‌گونه اطلاعات بیشتر، اجرای سیاست دوم در صورت افشا شدن می‌تواند به برند سازمان ضربه بزند. بنابراین سیاست اول بهتر به نظر می‌رسد.

اگر بتوانیم با اطلاعات بیشتر بفهمیم چرا این رابطه همبستگی بین دو متغیر وجود دارد، ممکن است حاضر باشیم ریسک بیشتری برای اقدام بپذیریم. ممکن است با جمع‌آوری اطلاعات تکمیلی متوجه شویم کسانی که الگوی خرید مشخصی دارند و هم‌زمان ریسک بیمه‌ای بیشتر، کسانی هستند که دوره گذاری را در زندگی خود تجربه می‌کنند. برای مثال اخیراً شغل خود را ازدست‌داده‌اند یا طلاق گرفته‌اند. این اطلاعات جدید ممکن است مشخص کند چرا این رابطه همبستگی بین دو متغیر وجود دارد و به ما اعتماد بیشتری دهد که این همبستگی در آینده هم رخ خواهد داد. همین‌طور فهمیدن علت این همبستگی به ما کمک می‌کند بفهمیم چه اتفاقاتی ممکن است این همبستگی را تضعیف کند یا کامل از بین ببرد. به‌این‌ترتیب ما را قادر می‌کند به اتفاقات جدید پاسخ‌هایی بدهیم که پاسخ‌های قبلی را منسوخ کند.

درمجموع، وقتی با داده کار می‌کنید در برخی موارد ممکن است همبستگی کفایت کند. در برخی موارد دیگر دانستن علت اصلی یک پدیده حیاتی است. چارچوب پیشنهادی در این مقاله به شما کمک می‌کند بفهمید چه زمانی به همبستگی کفایت کنید و چه زمانی به دنبال رابطه علی و معلولی باشید.

در مقاله “چگونه رابطه علّی را تشخیص دهیم؟” به سه معیاری می‌پردازم که با توجه به آن‌ها وجود رابطه علّی بین پدیده‌ها را می‌توانید تشخیص دهید.

منابع:

Ritter, D. (2017). “When to Act on a Correlation, and When Not To” HBR Guide to Data Analytics Basics for Managers, Harvard Business Review Press, Boston, Massachusetts

پیشنهاد مطالعه برای شما

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *