یکی از حوزههایی در احتمال که بهراحتی افراد را گیج میکند و منجر به استدلالهای خطا میشود، احتمال شرطی (Conditional Probability) است. احتمال شرطی، احتمال وقوع رخدادی مانند است بهشرط آنکه بدانیم رخدادی مانند اتفاق افتاده است. در ریاضی آن را با نشان میدهند.
فرض کنید یک مطالعه ادعا میکند ۸۵ درصد بیماران سرطانی قهوه مصرف میکنند. چطور به این ادعا واکنش نشان میدهید؟ آیا فکر میکنید قهوه خوردن باعث سرطان میشود و خوردن آن را رها میکنید؟
توجه کنید ۸۵ درصد احتمال قهوه خوردن بهشرط داشتن سرطان است:
ولی آنچه ما به دنبالش هستیم احتمال سرطان گرفتن بهشرط خوردن قهوه است:
برای محاسبه این احتمال، نیاز به چند احتمال دیگر هم داریم. طبق آخرین مطالعات احتمال مبتلا شدن به سرطان در ایران ۰٫۰۰۱۴ است. اگر فرض کنیم مانند آمار جهانی ۴۰ درصد ایرانیها مصرفکننده قهوه هستند، اطلاعات لازم برای محاسبه را خواهیم داشت.
بهصورت شهودی همین ارقام به ما کمک میکند تا به این استدلال که قهوه باعث بروز سرطان است شک کنیم. اگر چنین استدلالی درست بود، نباید احتمال ابتلا به سرطان (۰٫۰۰۱۴) به نرخ قهوه خوردن (۰٫۴۰) نزدیک باشد؟
یک رویکرد برای آنکه دچار خطا در برداشت از احتمالات شرطی نشویم، آن است که بهجای درصد بر اساس تعداد فکر کنیم. فرض کنید جامعه ایران ۱۰۰ هزار نفر است. در این صورت ۱۴۰ نفر در جامعه مبتلا به سرطان هستند و ۴۰۰۰۰ نفر هم قهوه میخورند. اگر احتمال قهوه خوردن بهشرط داشتن سرطان ۸۵ درصد باشد، یعنی از بین آن ۱۴۰ نفر ۱۱۹ نفر قهوه میخورند. این ۱۱۹ نفر کسانی هستند که هم قهوه میخورند و هم سرطان دارند.
اگر ما دنبال احتمال سرطان گرفتن بهشرط خوردن قهوه باشیم، باید فضای نمونهای را محدود به کسانی کنیم که قهوه میخورند؛ یعنی آن ۴۰۰۰۰ نفر. احتمال سرطان گرفتن بهشرط خوردن قهوه معادل این است که از بین این ۴۰۰۰۰ نفر چند نفر مبتلا به سرطان هستند. میدانیم ۱۱۹ نفر کسانی هستند که هم قهوه میخورند و هم سرطان دارند. پس پاسخ آن احتمال از تقسیم ۱۱۹ بر ۴۰۰۰۰ به دست میآید که ۰٫۰۰۳۰ است.
بهعبارتدیگر، داریم:
بنابراین احتمال سرطان گرفتن بهشرط خوردن قهوه تنها ۰٫۳ درصد است. این عدد با ۸۵ درصد تفاوت چشمگیری دارد.
در زیر برخی از تیترهای واقعی خبری را آوردهام که نشان میدهد چطور مانند مثال بالا بر اساس یک احتمال شرطی، نتیجهگیری اشتباهی درباره احتمال شرطی برعکس آن صورت گرفته است:
“پسران با ریسک بیشتری هنگام دوچرخهسواری روبرو هستند”؛ بر مبنای این واقعیت که از بین بچههایی که درگیر سوانح دوچرخهسواری شدند، بیشتر پسر هستند. به این توجه کنید که متن خبر احتمال رخداد سانحه بهشرط آنکه دوچرخهسوار پسر باشد را پررنگ میکند درحالیکه دادههای اصلی درباره احتمال پسر بودن بهشرط رخداد سانحه است.
“خانهها جای خطرناکی هستند”؛ بر مبنای این واقعیت که حدود یکسوم همه سوانح کشنده در منازل رخ میدهد. به این توجه کنید که متن خبر احتمال رخداد سانحه بهشرط آنکه در خانه باشید را پررنگ میکند درحالیکه دادههای اصلی درباره احتمال در خانه بودن بهشرط رخداد سانحه است.
“زنها رانندگان حواسپرتتری هستند”؛ بر مبنای این واقعیت که رانندگان خودروهایی که بهاشتباه وارد خیابان یکطرفه میشوند، بیشتر زن هستند. به این توجه کنید که متن خبر احتمال اشتباه کردن بهشرط زن بودن را پررنگ میکند درحالیکه دادههای اصلی درباره احتمال زن بودن بهشرط اشتباه وارد خیابان یکطرفه شدن است.
این نمونهها نشان میدهد چگونه ممکن است شواهد آماری در جهت استدلال اشتباه بکار گرفته شود.
احتمال شرطی
احتمال شرطی وقوع رخدادی مانند بهشرط آنکه بدانیم رخدادی مانند اتفاق افتاده را با نشان میدهند. برای این احتمال شرطی داریم:
صورتبندی دیگر رابطه بالا به شکل زیر است:
با ترکیب دو رابطه بالا، به قضیه بیز (Bayes Theorem) میرسیم:
استقلال دو رخداد
مفهوم مهم دیگری که به احتمال شرطی مربوط است، استقلال دو رخداد است. وقتی وقوع یک رخداد در احتمال وقوع رخداد دیگر اثری نگذارد، دو رخداد از هم مستقل هستند. برای نمونه فرض کنید دو بار یک سکه منصف را پشت سر هم پرتاب کنیم. اینکه پرتاب اول شیر یا خط بیاید هیچ تأثیری در خروجی پرتاب دوم سکه ندارد. دو رخداد و از هم مستقل هستند اگر و تنها اگر داشته باشیم:
پس اگر دو رخداد از هم مستقل باشند، داریم:
مثال رزرو بیشازحد (Overbooking) در مدیریت تقاضا
با مفاهیمی که تا به الآن درباره احتمال بحث کردم، یکی از مهمترین روشهای مدیریت تقاضا را در صنعت میتوانیم ارزیابی کنیم. رزرو کردن روشی است که در خیلی از صنایع خدماتی استفاده میشود تا به مدیریت ظرفیت کمک کند. وقتی شما بدانید فردا قرار است به چند مشتری خدمت ارائه دهید، میتوانید ظرفیت خود را آماده کنید و بسیاری از عدم قطعیتها در مدیریت عملیات را کاهش دهید. ولی یکی از چالشهای سامانههای نوبتدهی عدم حاضر شدن مشتری (No-shows) در زمان رزرو شده است.
برای مثال در صنعت سفر هوایی لزوماً همه کسانی که بلیت میخرند، در روز پرواز به فرودگاه نمیآیند. در صنعت هواپیمایی هزینه یک پرواز بسیار بالاست و هدف بنگاه، بیشینه کردن درآمد از هر پرواز است. اگر شرکت یک بلیت بفروشد و مسافر نیاید، به این معنی است که میتوانسته آن صندلی را با مسافر دیگری پر میکرده و نکرده است. این همان مفهوم هزینه فرصت است.
در استراتژی رزرو بیشازحد، بنگاه بیش از ظرفیت، خدمت را به مشتریان پیشفروش میکند. برای نمونه در صنعت هواپیمایی همیشه بیش از ظرفیت صندلی هواپیما، بلیت فروخته میشود. چراکه همیشه برخی از مسافران حضور پیدا نمیکنند. از طرف دیگر اگر مسافری بیاید و برایش صندلی نباشد، شرکت هواپیمایی باید او را با پرداخت پول یا گرفتن بلیت در پرواز بعدی یا روش دیگری راضی کند. پس همواره ریسک عدم تعهد به نوبت دادهشده هم وجود دارد. هدف استراتژی رزرو بیشازحد کمینه کردن همزمان هزینه فرصت انتظاری ظرفیت بلااستفاده و هزینه انتظاری عدم تعهد به نوبت دادهشده است.
برای طراحی استراتژی رزرو بیشازحد، باید از رویکردهای احتمالی کمک گرفت. برای آنکه ایدهای در این خصوص به دست بیاورید به این مثال توجه کنید. فرض کنید از دادههای گذشته مشخص شده، احتمال آنکه هر مسافر به پرواز نرسد ۱۰ درصد است؛ پس با احتمال ۹۰ درصد به پرواز میرسد. همچنین نرسیدن مسافران به پرواز از یکدیگر مستقل است؛ یعنی حضور یا عدم حضور یک مسافر به حضور یا عدم حضور مسافر دیگری ربطی ندارد (به این فکر کنید چه زمانی ممکن است این فرض در دنیای واقعی نقض شود). اگر فرض کنید هواپیما شش صندلی دارد و شرکت هفت بلیت فروخته است، احتمال آنکه ظرفیت کم بیاید یعنی همه هفت مسافر خود را به پرواز برسانند برابر است با:
در رابطه بالا احتمال آمدن همه مسافران برابر است با احتمال آمدن مسافر اول و آمدن مسافر دوم و … و آمدن مسافر هفتم. چون همه این احتمالها از هم مستقل هستند، پس احتمال خواستهشده از ضرب تکتک احتمالها در یکدیگر به دست میآید. در چنین شرایطی فقط ۴۸ درصد احتمال دارد همه مسافران بیایند.
اگر شرکت ۸ بلیت بفروشد، احتمال آنکه ظرفیت کم بیاید برابر است با احتمال آنکه هفت مسافر از هشت مسافر خود را به پرواز برسانند یا همه هشت مسافر بیایند. این احتمال برابر است با:
توجه کنید احتمال آنکه تنها یک مسافر مشخص از آن هشت مسافر نیاید برابر است. ازآنجاکه هشت انتخاب برای آن مسافر مشخص داریم، این احتمال در ۸ ضرب شده است. مشابه قبل احتمال آمدن همه هشت مسافر برابر است.
مشابه چنین محاسباتی به شرکتهای هواپیمایی کمک میکند تا سطح بهینه رزرو بیشازحد را مشخص کنند.
دشواری شناسایی رخدادهای کمیاب (Rare Events)
شناسایی رخدادهای کمیاب دشوار است. این مطلب را میتوان بر مبنای احتمال شرطی نشان داد. یکی از حوزههایی که دشوار بودن رخدادهای کمیاب خود را نشان میدهد و دلالتهای عملی دارد غربالگری بیماریها مانند سرطان پروستات است. معمولاً چالش در این است که مثبت شدن نتیجه آزمایش یک فرد سالم که به خطای مثبت کاذب (False Positive) شناخته میشود، همراه با آسیبهایی است. اول، آنکه او را دچار افسردگی و ترس میکند. دوم، مداخلات پزشکی میتواند بسیار ناخوشایند و خطرناک باشد. به همین خاطر بحثهای زیادی پیرامون خوبی یا بدی انجام غربالگری برای بیماریهای نادر وجود دارد.
فرض کنید یک بیماری نادر وجود دارد که احتمال مبتلا شدن به آن، ۱ در هر ۱۰۰ هزار نفر باشد. برای غربالگری اولیه، یک آزمایش خون وجود دارد که اگر فرد دارای بیماری باشد، با احتمال ۹۵ درصد او را بیمار تشخیص میدهد؛ پس اگر بیمار باشد، با احتمال ۵ درصد او را بهاشتباه سالم تشخیص میدهد. اگر فرد بیمار نباشد، با احتمال ۰٫۰۰۱ او را بیمار تشخیص میدهد (خطای مثبت کاذب). اگر نتیجه آزمایش یک فرد مثبت باشد (او را بیمار تشخیص دهد)، چقدر احتمال دارد واقعاً او بیمار باشد؟
برای حل مسئله، فرض کنید رخداد بیمار بودن و رخداد آنکه نتیجه آزمایش مثبت باشد است. پس در این مسئله دنبال محاسبه احتمال هستیم.
اگر نتیجه آزمایش کسی مثبت شود این به دو دلیل میتواند باشد یا واقعاً دارای بیماری است و نتیجه آزمایش آن مثبت شده یا سالم است () ولی نتیجه آزمایش او مثبت شده است:
پس احتمال مثبت بودن آزمایش را میتوان به شکل زیر نوشت:
با جایگذاری این احتمال در رابطه اول داریم:
یعنی اگر نتیجه چنین آزمایشی مثبت باشد، با احتمال ۰٫۹۵ درصد (زیر ۱ درصد) واقعاً فرد مبتلا به بیماری است. این نتیجه بسیار شوکآور است. اگر نتیجه آزمایش کسی مثبت شود یا او واقعاً بیمار است و یا آزمایش خطای مثبت کاذب تولید کرده است. ولی بیماری آنچنان نادر است که احتمال آنکه نتیجه آزمایش درنتیجه مثبت کاذب باشد بیش از آن است که به علت گرفتن بیماری باشد.
فرض کنید بخواهید آزمایشی داشته باشید که اگر نتیجهاش مثبت شد (فرد را بیمار تشخیص دهد)، حداقل با احتمال ۵۰ درصد واقعاً فرد بیمار باشد. اگر دقت آزمایش باشد؛ یعنی اگر فرد دارای بیماری باشد، با احتمال او را بیمار تشخیص میدهد و خطای مثبت کاذب آن باشد، داریم:
که خواهیم داشت:
یک جواب ممکن برای مقدار و برای مقدار است. پس اگر این آزمایش دقت ۹۹٫۹۹۹ درصد داشته باشد، تا حدی نتایج آن قابلاتکا میشود. اینجا مشخص میشود چرا برای بیماریهای نادر، حتی اگر آزمایش دارای دقتی بالای ۹۰ درصد باشد، انجام غربالگری عملاً بیفایده است.
سفسطه دادستان (The Prosecutor’s Fallacy)
سفسطه دادستان مصداق دیگری از سوءبرداشت از احتمال شرطی است. فرض کنید یک دادستان شواهدی () علیه یک مظنون دارد. همچنین فرض کنید رخداد بیگناهی مظنون را با نشان دهم. مسئله وقتی جالب میشود که احتمال شرطی بسیار کوچک باشد؛ بهعبارتدیگر، اگر فرد بیگناه باشد، احتمال رخداد این شواهد بسیار کم است. در این حالت دادستان، بهاشتباه، استدلال میکند چون مقدار کوچک است پس مظنون گناهکار است. خطا در استدلال از آنجا ناشی میشود که احتمال شرطی کاملاً نامربوط است، آنچه اهمیت دارد احتمال شرطی است؛ یعنی اگر این شواهد رخ داده است، چقدر احتمال بیگناهی وجود دارد.
این اتفاقی است که در پرونده حقوقی سالی کلارک (Sally Clark) در انگلستان رخ داد. او در سال ۱۹۹۹ میلادی متهم شد که دو فرزند نوزادش را به قتل رسانده است. فرزند اول او در دسامبر ۱۹۹۶ تنها پس از گذشت چند هفته از تولدش، فوت کرد. فرزند دوم او در ژانویه ۱۹۹۸ به شکل مشابهی مرد. یک ماه بعد او به اتهام قتل هر دو فرزندش دستگیر شد.
دفاعیه او بر این اساس بود که فرزندانش در اثر سندرم مرگ ناگهانی نوزاد (Sudden Infant Death Syndrome – SIDS) که یک بیماری نادر است، جان باختهاند. دادستان بر اساس یک استدلال آماری اشتباه دفاع او را رد کرد. دادستانی استدلال میکرد که احتمال آنکه دو نوزاد در یک خانواده مبتلا به SIDS باشند، ۱ در ۷۳ میلیون است. کاری که آنها انجام داده بودند این بود که احتمال مرگ یک نوزاد براثر SIDS را که ۱ در ۸۵۰۰ بود، به توان دو رسانده بودند.
دو خطای فاحش آماری در استدلال دادستانی وجود داشت. اول آنکه احتمال آنکه دو نوزاد در یک خانواده از SIDS از بین بروند، از هم مستقل نیستند. مطالعات نشان داده است که اگر یک نوزاد در خانواده از SIDS فوت کند، احتمال مرگ کودک بعدی در همان خانواده بالاتر میرود. بنابراین احتمال ۱ در ۷۳ میلیون که با فرض مستقل بودن دو رویداد از ضرب دو احتمال به دست آمده، اشتباه بود. دوم آنکه استدلال دادستانی بر این مبنی بود که اگر سالی کلارک بیگناه باشد، احتمال مرگ نوزادان به علت SIDS بسیار پایین است؛ احتمال شرطی . درحالیکه آنچه اهمیت دارد احتمال شرطی است. سالی کلارک بعدها در این پرونده تبرئه شد؛ گرچه کمی بعد به خاطر فشارهای روحی روانی ناشی از این اتفاقات از دنیا رفت.
مسئله مونتی هال (Monte Hall Problem)
مسئله مونتی هال برگرفته از یک مسابقه تلویزیونی است که در دهه ۱۹۶۰ میلادی با نام Let’s Make a Deal پخش میشد. در جریان مسابقه، شرکتکننده در معرض انتخاب سه در قرار میگرفت که فقط پشت یکی از آنها، جایزه قرار داشت و دوتای دیگر پوچ بود. پس از انتخاب یکی از درها توسط شرکتکننده، مجری برنامه یکی از درهای انتخابنشده را باز میکرد. چون او از محتوای پشت درها آگاه بود، همیشه دری را باز میکرد که پوچ بود. پس از باز شدن یکی از درها، او دوباره از شرکتکننده میپرسید که آیا مایل است انتخاب اولیه خود را تغییر دهد. پرسشی که مطرح میشود این است که آیا به نفع شرکتکننده است که انتخاب اولیه خود را تغییر دهد.
پاسخ بیشتر افراد این است که فرقی ندارد. با این استدلال که احتمال آنکه هر یک از گزینهها حاوی جایزه باشد، ۱/۳ است و پسازآنکه یک گزینه پوچ مشخص میشود، بازهم این احتمال ۱/۳ باقی میماند. پس عوض کردن یا نکردن انتخاب اولیه تأثیری در شانس برنده شدن جایزه ندارد. درحالیکه چنین استدلالی صحیح نیست.
فرض کنید شرکتکننده در شماره ۱ را انتخاب کرده است. در ابتدا با احتمال ۱/۳ این گزینه حاوی جایزه است. حال اگر مجری برنامه در شماره ۳ را انتخاب کند و نشان دهد که پوچ است، شانس آنکه در شماره ۲ حاوی جایزه باشد از ۱/۳ اولیه به ۲/۳ میرسد.
احتمال شرطی آنکه گزینه ۲ حاوی جایزه باشد () درصورتیکه گزینه ۳ پوچ باشد ()، به شکل زیر محاسبه میشود:
توجه کنید که در رابطه بالا، به این معنی است که اگر پاداش در گزینه ۲ باشد، چقدر احتمال دارد گزینه ۳ بهعنوان پوچ اعلام شود. واضح است که این احتمال ۱ است؛ چراکه شرکتکننده گزینه ۱ را انتخاب کرده و مجری هم همواره گزینه پوچ را انتخاب میکند، پس در این حالت مجری چارهای ندارد جز آنکه گزینه ۳ را بهعنوان پوچ باز کند. احتمال شرطی ، برابر ۱/۲ است. چراکه شرکتکننده گزینه ۱ را انتخاب کرده و مجری از بین یکی از دو گزینه پوچ ۲ و ۳ یکی را بهصورت تصادفی انتخاب میکند. احتمال شرطی ، برابر صفر است؛ چراکه اگر جایزه پشت در سوم باشد، مجری هیچگاه آن را انتخاب نمیکند.
بهاینترتیب، همواره بهترین استراتژی برای شرکتکننده در مسئله مونتی هال، تغییر انتخاب اولیه است. علت آنکه برخی این پاسخ را خلاف شهود تصور میکنند این است که فراموش میکنند مجری همیشه ناچار است دری را باز کند که پوچ است. دانستن این اطلاع اضافه، احتمال موفقیت گزینه مقابل را تغییر میدهد.
سوءبرداشتهایی که در بالا اشاره کردم بیشتر ناشی از آن است که ذهن انسان برای پاسخ سریع به مسائل از میانبرهای ذهنی (Heuristics) استفاده میکند. در خیلی موارد استفاده از میانبرهای ذهنی، روشی کارآمد برای پاسخ به مسائل در اختیار میدهد ولی در برخی موارد ازجمله شرایطی که در بالا بحث کردم، روشهای شهودی و میانبرهای ذهنی منجر به خطاهای فاحش میشود. در مقاله “سوگیریهای رفتاری در تصمیمگیری” به موارد مشابه دیگری اشاره کردم.
منابع:
Forsyth, D. (2018). “Probability and Statistics for Computer Science”, UK: Springer International Publishing
Krämer, W., & Gigerenzer, G. (2005). “How to Confuse with Statistics or: The Use and Misuse of Conditional Probabilities”, Statistical Science, 223-230
Nield, T. (2022). “Essential Math for Data Science”, O’Reilly Media, Inc
Roshandel G, Ferlay J, Ghanbari-Motlagh A, Partovipour E, Salavati F, Aryan K, et al. “Cancer in Iran 2008 to 2025: Recent Incidence Trends and Short-Term Predictions of The Future Burden”, International Journal of Cancer, Published online 21 April 2021; https://doi.org/10.1002/ijc.33574