
یک سوپرمارکت زنجیرهای در استرالیا با یک شرکت بیمه خودرو یک برنامه مدیریت وفاداری مشتریان مشترک ایجاد میکند. اطلاعات ترکیبی بهدستآمده از کارتهای عضویت مشتریان همبستگیهای جالبی را مشخص کردند. دادهها نشان داد که آنهایی که گوشت قرمز و شیر بیشتری میخرند، با احتمال بیشتری دچار تصادف میشوند و از بیمه خود استفاده میکنند. در مقابل آنهایی که پاستا و یک نوشیدنی خاص را میخرند و شبها بنزین میزنند، ریسک کمتری برای شرکت بیمه دارند. شرکت بیمه از این جمعبندی چگونه میتواند استفاده کند؟
یکی از کاربردهای مهم دانستن همبستگی بین متغیرها، استفاده در پیشبینی است. اگر ما بدانیم بین الف و ب همبستگی وجود دارد و بدانیم الف رخ خواهد داد، آنگاه میتوان پیشبینی کرد که ب نیز رخ خواهد داد. اما بین همبستگی و رابطه علّی تفاوت وجود دارد. در مثال بالا نمیتوان اینگونه نتیجه گرفت که خوردن گوشت یا شیر باعث افزایش احتمال تصادف میشود.
در مقاله دیگری به تفاوت رابطه علت و معلولی و همبستگی اشاره کردم و اینکه چطور عدم درک تفاوت این دو میتواند منجر به تصمیمات نادرست شود.
پرسش اصلی در مسائلی مانند مثال بالا این است که آیا میتوان بر اساس همبستگی دیدهشده بین دو متغیر تصمیم به اقداماتی گرفت یا خیر؟
آیا همینکه بدانیم دو رخداد باهم اتفاق میافتند میتواند کافی باشد یا حتماً لازم است بدانیم چرا این دو رخداد اتفاق میافتند؟ چه زمانی میتوانیم بر مبنای همبستگی عمل کنیم؟
پاسخ در دو نکته نهفته است:
نکته اول، تا چه حد اطمینان داریم که همبستگی در آینده هم رخ خواهد داد. هرچه اطمینان بیشتری داشته باشیم که همبستگی در آینده هم رخ خواهد داد، منطقیتر آن است که اقدام کنیم. این مسئله دو جنبه دارد. یکی آنکه بر اساس دادههای تاریخی بررسی کنیم این رابطه با چه فرکانسی تکرار شده است. هرچه این همبستگی بیشتر تکرار شده باشد، احتمال آنکه دو متغیر به هم مربوط باشند بیشتر است. مسئله بعد این است که چه توضیحاتی برای وجود این همبستگی داریم. اگر فرضیههایی که برای توضیح این همبستگی داریم کمتر باشد و به آنها اطمینان بالاتری داشته باشیم، احتمال بیشتری وجود دارد که دو متغیر به هم مربوط باشند.
نکته دوم، سبکسنگین کردن بین ریسک و پاداش اقدام است. اگر اقدام منجر بهاشتباه شود و ما در معرض ریسک بالایی قرار بگیریم، آنگاه ممکن است اقدام بر اساس یک همبستگی خیلی قوی هم درست نباشد.
بر همین اساس گروه مشاوران بوستون (Boston Consulting Group – BCG) چارچوبی را مطرح کرده که در شکل-۱ آمده است. مطابق این چارچوب هرچه ارزش اقدام کردن بالاتر و هزینه اشتباه پایینتر باشد، میتوانیم حتی بر اساس یک همبستگی ضعیف عمل کنیم.

برای مثال فرض کنید برای کنترل میزان آلایندگی حسگرهایی در جاهای مختلف یک رودخانه نصب شده است. دادهها نشان میدهد که در یک بخش از رودخانه تجمع آلایندههای روغنی افزایش یافته است. همچنین میدانیم که بهتازگی یک رستوران در نزدیکی آن محل باز شده که ممکن است قوانین زیستمحیطی برای تصفیه فاضلاب را نادیده گرفته باشد. این همزمانی بین تجمع آلایندههای روغنی و باز شدن آن رستوران ممکن است تنها یک تصادف باشد و دلایل دیگری برای این رخداد وجود داشته باشد. اما بازرسی رستوران ریسک بالایی ندارد. در اینجا اقدام کردن بر اساس یک همبستگی ضعیف هزینه چندانی ایجاد نمیکند.
اما تصمیم برای انجام آزمایش غربالگری PSA (Prostate-Specific Antigen) برای تشخیص زودهنگام ابتلا به سرطان پروستات شامل سبکسنگین کردن ریسکها و پاداشهای متفاوتی است. همبستگی بین آزمایش خون PSA و داشتن سرطان پروستات ضعیف است. همینطور تاکنون هیچ رابطه علت و معلولی مشخصی در مورد اینکه چگونه افزایش سطح PSA منجر به توسعه سرطان پروستات میشود، وجود ندارد. همینطور انجام عمل جراحی پیشگیرانه سرطان پروستات اثر بلندمدت چندانی روی نرخ نجات مبتلایان نداشته است. همینطور اگر خطای نوع اول رخ دهد (فرد سرطان نداشته باشد درحالیکه آزمایش نشان دهد سرطان دارد) ریسک اقدام به علت عوارض جراحی بالاست. به همین دلایل بود که انجمن پزشکی آمریکا (American Medical Association) توصیه قبلی خود را به مردان بالای ۵۰ سال مبنی بر اینکه بهطور مرتب آزمایش خون PSA دهند، تغییر داد (توجه کنید این صرفاً یک مثال است و نباید مبنای عمل خوانندگان قرار گیرد. مطالعات پزشکی دائماً در حال بروز شدن است و در این مورد باید با افراد متخصص مشورت کرد).
به نمونهای که در ابتدای مقاله اشاره شد، بازگردیم. فرض کنید با توجه به مشاهدات انجامشده دو اقدام زیر پیشنهاد شده است:
طراحی یک برنامه بازاریابی جدید برای جذب کردن افرادی که بر اساس نوع خریدشان از سوپرمارکت میدانیم ریسک پایینتری دارند
قیمتگذاری بیمه خودرو بر اساس رفتار خرید افراد از سوپرمارکت
این دو سیاست را میتوان با چارچوب پیشنهادی ارزیابی کرد. بدون داشتن هیچگونه اطلاعات بیشتر، اجرای سیاست دوم در صورت افشا شدن میتواند به برند سازمان ضربه بزند. بنابراین سیاست اول بهتر به نظر میرسد.
اگر بتوانیم با اطلاعات بیشتر بفهمیم چرا این رابطه همبستگی بین دو متغیر وجود دارد، ممکن است حاضر باشیم ریسک بیشتری برای اقدام بپذیریم. ممکن است با جمعآوری اطلاعات تکمیلی متوجه شویم کسانی که الگوی خرید مشخصی دارند و همزمان ریسک بیمهای بیشتر، کسانی هستند که دوره گذاری را در زندگی خود تجربه میکنند. برای مثال اخیراً شغل خود را ازدستدادهاند یا طلاق گرفتهاند. این اطلاعات جدید ممکن است مشخص کند چرا این رابطه همبستگی بین دو متغیر وجود دارد و به ما اعتماد بیشتری دهد که این همبستگی در آینده هم رخ خواهد داد. همینطور فهمیدن علت این همبستگی به ما کمک میکند بفهمیم چه اتفاقاتی ممکن است این همبستگی را تضعیف کند یا کامل از بین ببرد. بهاینترتیب ما را قادر میکند به اتفاقات جدید پاسخهایی بدهیم که پاسخهای قبلی را منسوخ کند.
درمجموع، وقتی با داده کار میکنید در برخی موارد ممکن است همبستگی کفایت کند. در برخی موارد دیگر دانستن علت اصلی یک پدیده حیاتی است. چارچوب پیشنهادی در این مقاله به شما کمک میکند بفهمید چه زمانی به همبستگی کفایت کنید و چه زمانی به دنبال رابطه علی و معلولی باشید.
در مقاله “چگونه رابطه علّی را تشخیص دهیم؟” به سه معیاری میپردازم که با توجه به آنها وجود رابطه علّی بین پدیدهها را میتوانید تشخیص دهید.
منابع:
Ritter, D. (2017). “When to Act on a Correlation, and When Not To” HBR Guide to Data Analytics Basics for Managers, Harvard Business Review Press, Boston, Massachusetts