
معنیداری آماری (Statistical Significance) یکی از مفاهیم مهمی است که در تحلیلهای آماری استفاده میشود. با گسترش تصمیمگیری دادهمحور در عرصههای مختلف، امروزه چه محققان و چه مدیران بیشتر و بیشتر از مفهوم معنیداری آماری در تصمیمگیری استفاده میکنند. برای مثال شرکت دارویی که میخواهد بر مبنای نتایج آزمایش کنترلشده تصادفی (Randomized Controlled Experiment) تصمیم بگیرد داروی جدیدی که روی آن تحقیق کرده، بر روی بیماران مؤثر است یا خیر، به معنیداری آماری بهعنوان یک معیار مهم توجه میکند. یا شرکتی که میخواهد کارایی تبلیغات جدید خود را بر مبنای آزمون A/B بسنجد، باید به معنیداری آماری در نتایج توجه کند.
در این مقاله سعی دارم به زبان ساده توضیح دهم که معنیداری آماری چه مفهومی دارد و چگونه در تصمیمگیریهای دادهمحور باید از آن استفاده کرد.
معنیداری آماری به چه معنی است؟
رونالد فیشر (Ronald Fisher)، آماردان انگلیسی، شخصی است که در توسعه این مفهوم نقش مهمی دارد. برای او ماجرایی پیش میآید که اگرچه ساده به نظر میرسد، اثر مهمی در تحول علم میگذارد. امروزه بسیاری از تحقیقات علمی در حوزههای مختلف مبتنی بر این مفهوم بنا نهاده شدهاند.
او به زنی در یک مهمانی عصرانه، یک فنجان چای تعارف میکند (در انگلستان عمدتاً چای را با شیر مخلوط کرده و مینوشند). زن از او میپرسد که آیا او ابتدا شیر را در فنجان ریخته و سپس چای را با آن مخلوط کرده و یا ابتدا چای را ریخته و سپس شیر را با آن مخلوط کرده است؟ فیشر از این سؤال تعجب میکند و میگوید مگر فرقی هم میکند؛ وقتی چای و شیر باهم مخلوط شوند ممکن نیست تفاوتشان در مزه مشخص شود. زن در مقابل ادعا میکند او قادر است تفاوت فنجان چایی که ابتدا شیر در آن ریخته شده را باآنکه ابتدا در آن چای ریخته شده، تشخیص دهد. چگونه بفهمیم ادعای زن درست است؟ آیا او واقعاً استعدادی در شناسایی تفاوت این دو حالت دارد؟
پاسخ فیشر برای آزمایش ادعای زن آن است که جلوی او هشت فنجان قرار دهیم. چهار فنجان مخلوط شیر و چای که ابتدا شیر در آن ریخته شده و بعد چای و چهار فنجان دیگر که ابتدا چای و سپس شیر در آن ریخته شده است. این هشت فنجان را در یک سینی بهصورت تصادفی بچینیم (شکل-۱). توجه کنید که این هشت فنجان باید تا حد ممکن از بقیه نظرها مانند دمای فنجان، میزان شیرین بودن و غیره یکسان باشند و تنها در ترتیب ریختن چای و شیر باهم تفاوت کنند (در این مورد در مقاله “آزمایش کنترلشده تصادفی چیست و چه کاربردهایی دارد؟” بهطور مفصل توضیح دادهام). در گام بعد زن باید بگوید که هر فنجان به کدام حالت تعلق دارد.

اما چرا هشت فنجان؟ فیشر محاسبه کرده بود که ۷۰ حالت مختلف برای چینش این هشت فنجان در کنار یکدیگر وجود دارد (). اگر آن زن دارای استعدادی نباشد، مجبور است شانسی حدس بزند که در سینی که جلوی او گذاشته شده هر فنجان به کدام حالت تعلق دارد. بهاینترتیب او به ۷۰ روش مختلف میتواند ترکیب فنجانها را حدس بزند ولی فقط یکی از این ۷۰ حالت مختلف ترکیب درست است (شکل-۲). یعنی اگر او بخواهد ترکیب فنجانها را صرفاً با حدس زدن تشخیص دهد، با احتمال ۱ به ۷۰ (در حدود ۱٫۴ درصد) شانس موفقیت دارد. در علم آمار به این احتمال، مقدار p و یا p-value گفته میشود. این مقدار نشان میدهد چه میزان احتمال دارد نتایج بهدستآمده، صرفاً تحت یک فرآیند تصادفی تولید شده باشد.

چون تحت شرایط بالا درست حدس زدن همه فنجانها مقدار p بسیار کوچکی دارد (معادل ۱٫۴ درصد)، فیشر نتیجه گرفت اگر آن زن همه فنجانها را درست تشخیص دهد، میتوان گفت ادعای زن درست است. پرسشی که پیش میآید این است که مقدار p باید با چه معیاری مقایسه شود؟ درواقع به چه احتمالی کوچک گفته میشود؟ فیشر این مقدار را ۵ درصد پیشنهاد کرد که امروزه یک معیار پذیرفتهشده است. به این مقدار حاشیه خطا () گفته میشود. اگر حاشیه خطا ۵ درصد باشد، مفهومش این است که شما با احتمال ۹۵ درصد میتوانید مطمئن باشید که نتایج بهدستآمده بر اساس تصادف حاصل نشده است.
اگر در این مثال، فرد تنها یک اشتباه داشته باشد، مقدار p نزدیک ۲۴ درصد میشود که از حاشیه خطای ۵ درصد بزرگتر است. بهاینترتیب نمیتوان گفت این فرد با کسی که صرفاً بر اساس تصادف حدس میزند، به لحاظ آماری تفاوت معنیداری دارد. بهعبارتدیگر نمیتوانیم نتیجه بگیریم این فرد دارای استعداد ویژهای است و ادعای او را رد میکنیم. جالب است بدانید این داستان در عمل اتفاق افتاد و آن زن توانست همه فنجانها را درست تشخیص دهد.
در حالت سختگیرانهتر حاشیه خطا را ۱ درصد در نظر میگیرند. در حالت سختگیرانه با آزمایش بالا نمیتوان ادعای زن را سنجید، چراکه اگر همه فنجانها را هم درست تشخیص دهد، همچنان مقدار p بالاتر از ۱ درصد است. در این حالت باید تعداد فنجانها را افزایش داد تا بتوان ادعای او را با ۱ درصد خطا سنجش کرد. شاید پیشنهاد شود بهتر است تعداد فنجانها را آنقدر زیاد کنیم تا میزان خطا به صفر نزدیک شود. به نظر شما این پیشنهاد چه مشکل دیگری در ارزیابی ادعای زن ایجاد میکند؟
کاربرد معنیداری آماری در تصمیمگیری
در دنیای کسبوکار نیز، مدیران با شرایط مشابهی مواجه هستند. آنان هر روزه با ادعاها یا فرضیاتی مواجه هستند که باید درستیشان را ارزیابی و بر مبنای آن تصمیمگیری کنند. روشهای تصمیمگیری دادهمحور به مدیران کمک میکند تا بتوانند مشابه مثال بالا صحت این ادعاها را بسنجند و تصمیمات بهتری بگیرند. به این مثالها توجه کنید:
مدیر بازاریابی یک شرکت آبمعدنی ادعا میکند زنان بین ۲۰ تا ۴۰ سال، به نسبت سایر مشتریان در روز آب بیشتری مینوشند، بنابراین باید کمپین تبلیغاتی جدیدی برای جذب این بخش از بازار شروع کرد.
مشاور مدیریت یک شرکت تولید لوازم الکترونیکی توصیه میکند که اگر کارگران خط تولید کمتجربه به یک دوره آموزشی درباره مدارهای الکترونیکی فرستاده شوند، در مدتزمان کمتری میتوانند مدارهای الکترونیکی را سرهمبندی کنند.
مدیر یک فروشگاه آنلاین تصور میکند اگر کوپنهای تخفیف بیشتری را به مشتریان عرضه کند، میتواند میزان خرید مشتریانش را افزایش دهد.
تولیدکننده یک اپلیکیشن بازی بر این باور است که با سادهتر کردن محیط بازی میتواند ماندگاری کاربران را در اپلیکیشن افزایش دهد.
مشاور مالی شما ادعا میکند حتماً سهام شرکت الف را بخرید چراکه در دو سال گذشته عملکرد بهتری نسبت به متوسط عملکرد شرکتهای مشابه در صنعت خودش داشته است.
یک شرکت تولید مواد غذایی کنسروی به دنبال بستن قرارداد جدید با یک تأمینکننده قوطیهای کنسروی است. این تأمینکننده ادعا میکند تنها ۱ درصد قوطیهای تولیدی دارای نقص هستند.
فرآیندی که فیشر برای مواجهه با ادعای مطرحشده پیشنهاد کرد به آزمون فرضیه (Hypothesis Testing) شناخته میشود و امروزه یکی از مهمترین روشهای تصمیمگیری دادهمحور محسوب میشود. هر یک از ادعاهای بالا را میتوان با جمع آوری دادههای متناسب و انجام آزمون فرضیه سنجش کرد. در مقاله دیگری به شرح آزمون فرضیه خواهم پرداخت.
منابع:
Box, J. F. (1978). “R. A. Fisher: The Life of a Scientist”, John Wiley & Sons, Inc., New York
Fisher, R. A. (1935). “The Design of Experiments”, Oliver and Boyd, Edinburgh
با سلام و احترام از مدیریت و دست اندرکاران علمی کانال آنالیکا،
مطالبی که در این کانال منتشر می شود همیشه ،بسیار عالی است،و اغلب موجب ایجاد انگیزه یادگیری ،تفکر و تعمق در فرد می شود .
در صورت امکان ،مطالب بیشتری منعکس بفرمائید،ضمن اینکه امکان دسترسی و ارسال مقالات به ایمیل را فراهم بفرمائید.
با سلام،
متشکرم از بازخوردتون. در سال جدید سعی بر این است تا خبرنامه ماهیانه از طریق ایمیل برای همه مشترکین ارسال شود.
مقاله بسیار جالب و مفیدی بود سپاس گزارم
عالی بود. من خودم معلم آمار هستم ولی مقاله شما مفهوم پی-مقدار را خیلی زیبا تشریح کرده است. متشکرم
واقعا مطالبتون مفید و به زبان ساده بیان شده اند. متشکرم
عالی بود مطالب تون .مخصوصا توضیح با مثال.
ممنون.
جالبه. ممنون از سایت و مقالات خوبتون
با سلام
از اینکه اینقدر مطالب جذاب و پرمحتوا در اختیارمون قرار میدید نهایت تشکر رو دارم.
توضیحاتتان و مثال کاربردی مذکور پیرامون مفهوم p-value، بسیار روان بود.
سپاسگزارم
سلام و وقت به خیر
ممنون
فقط یک سوال ، اینکه اگر فرد یک اشتباه داشته باشه چرا باید p value بشه ۲۴ درصد تقریباً ؟
سلام ارایه یک مثال در فهم مطلب بسیار کارگشا بود با تشکر