ارسطو میگوید از نشانههای یک ذهن آموزشدیده آن است که با درجهای از تقریب که در تناسب با ماهیت موضوع است، راضی میشود و به دنبال دقت کامل نیست.
اگر شما با دقت ۱۰۰ درصد بخواهید بفهمید که چه درصدی از آجرهای تولیدشده یک کوره آجرپزی، خراب هستند باید همه آنها را آزمایش کنید. ازآنجاکه آزمایش نقطه شکست یک آجر، مستلزم آن است که آن را زیر پرس آنقدر تحتفشار قرار دهید تا خرد شود، برای رسیدن بهدقت ۱۰۰ درصد باید همه آجرها را از بین ببرید. طبیعتاً چنین رویکردی کاربردی نیست. خبر خوب این است که با آزمایش تعداد محدودی از آجرها میتوانید با درجهای از تقریب به میزان آجرهای معیوب در کل آجرهای تولیدشده پی ببرید.
مجموعهای که ما علاقهمند هستیم درباره آن بدانیم، در این مثال کل آجرهای تولیدشده، جامعه آماری (Population) نامیده میشود. هر زیرمجموعهای از جامعه، نمونه (Sample) نامیده میشود. ما از نمونه استفاده میکنیم به امید آنکه درباره جامعه به اطلاعات موردنظر دست پیدا کنیم.
تصور کنید یک ظرف بزرگ شکلات رنگی مانند شکل-۱ روبروی شماست. شما علاقهمند هستید میانگین وزن شکلاتهای رنگی را در این ظرف بدانید. در این مثال، ظرف بزرگ شکلات رنگی، جامعه آماری است. میانگین وزن شکلاتها، پارامتر جامعه نام دارد. پارامتر جامعه ویژگی موردنظر ما در جامعه است که میخواهیم اندازه بگیریم. برای برآورد این پارامتر جامعه، میتوان از نمونهگیری استفاده کرد.
حال اگر من یک شکلات را بهعنوان نمونه از ظرف دربیاورم و آن را وزن کنم و بگویم مقدار آن ۱٫۴۰ گرم است، آیا میتوانید بازهای تعیین کنید که میانگین وزن شکلاتها با احتمال ۹۰ درصد در آن بازه قرار گیرد؟
حال فرض کنید من شکلات دیگری را هم از ظرف بردارم و وزن آن ۱٫۵۰ گرم باشد، این اطلاع جدید چقدر در تغییر تخمین شما مؤثر است؟
اگر من این کار را ادامه دهم و وزن شکلات سوم را ۱٫۳۵ گرم اعلام کنم، بازهای را که تخمین میزنید تا میانگین وزن شکلاتها با احتمال ۹۰ درصد در آن بازه قرار گیرد، چقدر تغییر میدهید؟
به زبان آماری، من به دنبال این هستم که بدانم افزایش اندازه نمونه، چه تأثیری بر روی بازه اطمینان (Confidence Interval) میگذارد. به احتمال ۹۰ درصد، سطح اطمینان (Confidence Level) گفته میشود. سطح اطمینان احتمالی است که بازه حاوی پارامتر جامعه است. معمولاً در آمار از سطوح اطمینان ۹۰، ۹۵ یا ۹۹ درصد استفاده میشود.
من این مثال را با R شبیهسازی کردم (کدها در بخش ضمیمه آمده است). فرض کنید مقدار واقعی پارامتر جامعه ۱٫۴۵ گرم است و شما نمونه با اندازههای مختلفی را از جامعه برمیدارید (شکل-۲). نتیجه شبیهسازی نشان میدهد که تنها با گرفتن ۲ نمونه، تخمین ما از بازه اطمینان ۹۰ درصدی بین ۱٫۲۲۱ تا ۱٫۶۸۷ گرم است. این خیلی جالب است که تنها با گرفتن دو نمونه یک تخمین خوب از اینکه میانگین وزن شکلاتها در چه بازهای است، به دست میآید. اگر شما سه نمونه بگیرید، این بازه کوچکتر میشود. مطابق شکل-۲ اگر اندازه نمونه افزایش پیدا کند بازه اطمینان کوچکتر و کوچکتر میشود. ولی نکته جالب این است که افزایش اندازه نمونه، بیشترین اثر را در نمونههای کوچک میگذارد. بهعبارتدیگر، وقتی اندازه نمونه از ۵ به ۱۰ افزایش مییابد اثر بیشتری در کاهش بازه اطمینان دارد تا افزایش اندازه نمونه از ۲۵ به ۳۰٫
در نگاه اول ممکن است بسیار شگفتانگیز باشد که ما با بررسی چند موردی که دیدهایم، درباره چیزهایی نظر دهیم که ندیدهایم. ولی باید گفت کل روش علمی بر همین مبنا است. در آزمایشگاههای علمی با بررسی چند مورد از یک پدیده به یک قانون کلی درباره آن پدیده میرسند، بدون آنکه تمام بروز و ظهور آن پدیده را در دنیا بررسی کنند. حتی بیشتر دانش و آگاهی هر انسان از دنیای اطرافش در اثر تجربههای شخصی زندگی اوست. از منظر آماری این تجربههای شخصی تنها نمونه هستند، ولی انسانها بر اساس تجربههای محدود شخصیشان، درباره بسیاری از چیزهایی که هنوز ندیدهاند قضاوت میکنند.
اما شاید همیشه چند تجربه محدود، نتواند معیار خوبی برای قضاوت باشد. برای مثال فرض کنید، وارد یک شهر جدید برای زندگی میشوید و سه نفر اولی که با آنان در شهر برخورد میکنید، همگی با شما رفتار نامناسبی دارند و شما بر مبنای آن قضاوت میکنید که همه مردمان آن شهر افراد بینزاکت و بیادبی هستند. درحالیکه باید دانست، هر نمونهای نمیتواند قابل استناد باشد. در آمار مفصل درباره آنکه چه نمونهای قابل استناد است بحث میگردد.
ویژگیهای یک نمونهگیری قابل استناد
یک نمونه قابل استناد که بتوان از آن به استنباط از جامعه رسید، باید دارای سه ویژگی زیر باشد:
نمونه تصادفی (Random) باشد، به این معنی که هر یک از اعضای جامعه، احتمال برابری برای انتخاب شدن در نمونه را دارند. تصادفی کردن نمونه ویژگی مهمی است که کمک میکند اثر عواملی که ممکن است ناشناخته باشند ولی بهنوعی بر مطالعه اثر میگذارند، حذف یا کمرنگ شوند. من در مقاله “آزمایش کنترلشده تصادفی چیست و چه کاربردهایی دارد؟” بیشتر توضیح دادم که نقش تصادفی بودن در تحلیل نمونه آماری چیست.
نمونه نمایا (Representative) باشد، به این معنی که نمونه از منظر متغیرهای کلیدی و ویژگیهای موردمطالعه، به جمعیت شباهت دارد. برای مثال اگر از مشتریان یک شرکت نظرسنجی صورت میگیرد و نسبت زنان به مردان در بین مشتریان کل شرکت، ۴۰ به ۶۰ درصد است، در نمونه همچنین نسبتی کمابیش وجود دارد. شکل-۳، مثال دیگری است که نشان میدهد، نمونه گرفتهشده، نماینده خوبی برای جامعه نیست. در این شکل فرض شده که رنگ، یک متغیر کلیدی در ویژگیهای جامعه موردمطالعه است.
دارای کفایت (Adequacy) باشد، به این معنی که اندازه نمونه برای استنباط از دادهها به حد کافی باشد. معمولاً در روشهای مختلف آماری برای آنکه به نتایج قابل قبولی برسیم، یک حد کمینه برای اندازه نمونه در نظر میگیریم. مثلاً بهعنوان یک قاعده سرانگشتی، خوب است در تحلیل رگرسیون خطی به ازای هر متغیر پیشبینی کننده ۳۰ مشاهده در نظر بگیرید. پس اگر رگرسیون خطی شما، دارای ۱۰ متغیر پیشبینی کننده بود، برای آنکه نتایج رگرسیون خطی قابلتعمیم به جامعه آماری باشد، بهتر است حداقل ۳۰۰ نمونه از جامعه گرفته شود.
چرا نمونهگیری انجام میدهیم؟
همانطور که در مثال اول مقاله اشاره کردم، همیشه ارزیابی و مطالعه جامعه امکانپذیر نیست. در چنین مواقعی استفاده از یک نمونه قابل استناد میتواند به درک جامعه کمک زیادی کند. اما حتی در مواقعی که مطالعه همه اعضای جامعه ممکن است، بازهم امکان دارد از نمونهگیری تصادفی استفاده کنیم. دلایل زیر مواردی است که ما را تشویق میکند بهجای مطالعه کل جامعه، نمونهگیری انجام دهیم و از روی آن به استنباط از جامعه برسیم:
سادهتر و کاربردیتر بودن مطالعه نمونه
هزینه پایینتر مطالعه نمونه بهجای مطالعه جامعه
زمان کمتر مطالعه نمونه بهجای مطالعه جامعه
کاهش ریسک درزمانی که انجام آزمایش مستلزم ریسک و خطراتی است
امکانپذیر نبودن مطالعه کامل جمعیت
نمونهگیری تصادفی: ابزار قدرتمند برای برآورد و اندازهگیری
نمونهگیری تصادفی ابزار قدرتمندی برای اندازهگیری است. اگر یک نمونه، دارای ویژگیهایی که ذکر کردم باشد، میتواند اطلاعات جالبی درباره جامعه به دست بدهد و شما میتوانید با آن چیزهایی را اندازهگیری کنید که شاید در نگاه اول اندازهگیری آنان ناممکن باشد. من در اینجا به چند مثال از دنیای واقعی میپردازم که نشان میدهد چطور نمونهگیری میتواند به اندازهگیری چیزهایی کمک میکند که در ظاهر غیرقابلاندازهگیری به نظر میرسند.
چند ماهی در یک دریاچه وجود دارند؟
اگر کنار یک دریاچهای بروید و بخواهید تخمین بزنید چند ماهی در آن دریاچه وجود دارد، چطور این کار را میکنید؟ در نگاه اول شاید غیرممکن به نظر برسد که بشود چنین کاری انجام داد. من معمولاً این پرسش را در برخی همایشها یا کلاسهایم مطرح میکند. برخی پاسخ میدهند که دریاچه را خشک میکنیم و سپس تعداد ماهیهای کف دریاچه را میشماریم. طبیعتاً چنین روشی آسیبزا و غیرقابلقبول است. ولی این یک پرسش کاربردی است که برای زیستشناسان اهمیت دارد. آنان از روشهای آماری برای تخمین تعداد گونههای جانوری در یک منطقه جغرافیایی استفاده میکنند.
یک روش متداول برای پاسخ به چنین پرسشی، استفاده از نمونهگیری و بازنمونهگیری (Capture and Recapture) است. در این رویکرد، به دریاچه میرویم و بهصورت تصادفی، تعدادی ماهی از دریاچه میگیریم و آنها را نشانهگذاری میکنیم. سپس آنان را در دریاچه رها میکنیم و اجازه میدهیم ماهیهای نشانهگذاری شده در دریاچه پراکنده شوند. پس از مدتی دوباره از دریاچه نمونهگیری تصادفی میکنیم. در نمونه دوم شمارش میکنیم که از بین ماهیهای گرفتهشده چند ماهی نشانهگذاری شدهاند. با داشتن نتایج دو نمونه میتوانیم تعداد ماهیهای کل دریاچه را تقریب بزنیم. برای مثال شکل-۴، نشان میدهد در نمونهگیری اول پنج ماهی نشانهگذاری شدند. در بازنمونهگیری از چهار ماهی، یک ماهی نشانهگذاری شده است. با تناسب ساده زیر میتوانیم اندازه جامعه را تخمین بزنیم:
البته برای تحلیل دقیقتر این مسئله، میتوان از توزیع فوق هندسی (Hyper-geometric Distribution) استفاده کرد که خارج از بحث این مقاله است. شکل-۵ نشان میدهد چگونه زیستشناسان در دنیای واقعی نمونهای از گونههای جانداران را نشانهگذاری میکنند و با روش نمونهگیری و بازنمونهگیری تعداد آنان را در یک حوزه جغرافیایی تخمین میزنند.
برآورد تانکهای تولیدشده در آلمان در جنگ جهانی دوم
در طول جنگ جهانی دوم، متفقین برای تضعیف ظرفیت نظامی آلمان کارخانههای تسلیحاتیاش را بمباران هوایی میکردند. یک مورد مهم، کارخانههای تولید تانک Mark V بود (شکل-۶). با توجه به تلفات و هزینههایی که این بمبارانها برای متفقین داشت، یک نکته کلیدی، تخمین کارایی بمباران هوایی در کاهش ظرفیت تولید ماهیانه تانکهای Mark V بود. استفاده از گزارشهای جاسوسهای محلی برای برآورد تولید ماهیانه تعداد تانک یک روش متداول در آن زمان بود. مشکل آن بود که گزارشها بسیار متناقض و ناسازگار با یکدیگر بود. در سال ۱۹۴۳، آماردانهای ارتش روشی را توسعه دادند که با استفاده از شماره سریالهای قطعات تانکهای بهدستآمده از جبهههای جنگ، به تخمین دقیقی از حجم تولید تانکهای آلمان برسند. این روش به نمونهگیری شماره سریال (Serial Number Sampling) معروف است.
آماردانها، تانکهای غنیمت گرفتهشده را یک نمونه تصادفی از جامعه کل تانکهای تولیدشده در نظر گرفتند. بهصورت شهودی، اگر حجم تولید ۱۰۰۰ تانک در یک ماه باشد، بسیار بعید است که مثلاً ۱۰ تانک به غنیمت گرفتهشده که تولید آن ماه هستند، دارای شماره سریالهایی باشند که با فاصله حداکثر ۲۰ از هم باشند؛ مثلاً شماره سریالهایی مانند ۱۰۰۰۵۰، ۱۰۰۰۶۵، ۱۰۰۰۸۵ و … . اما اگر تولید تانک در آن ماه، ۸۰ باشد، احتمال وقوع چنین حالتی زیاد است.
چند نکته در چنین تحلیلی اهمیت دارد. یکی اینکه تانکهای در نظر گرفتهشده در نمونه از یک واحد نظامی نباشند. چون معمولاً شماره سریال تانکهای یک واحد نظامی پشت سرهم هستند. نکته بعد آنکه شماره سریال با زمان تولید تانک رابطه داشته باشد. یعنی شماره سریال اولین تانک تولیدشده در ماه ۱۰۰۰۰۱ و شماره سریال دومین تانک تولیدشده در ماه ۱۰۰۰۰۲ است. اگر مثلاً شماره سریالها با گامهای ۵ تایی باشد، میتوان روش را کمی اصلاح کرد تا آن را بکار برد. در هر شکل با دیدن شماره سریالها در نمونه میتوان به این موارد پی برد و آن را در نظر گرفت.
حال با برقرار بودن مفروضات بالا، اگر مثلاً بزرگترین شماره سریال بهدستآمده در نمونه ۱۰۰۲۲۰ و کوچکترین شماره سریال بهدستآمده ۱۰۰۰۷۰ باشد، با محاسبات آماری میتوان نشان داد با احتمال ۹۰ درصد حجم تولید بین ۱۵۶ تا ۳۰۰ (برآورد بازهای) و محتملترین حالت ۱۹۵ است (برآورد نقطهای). پس از شکست آلمان در جنگ جهانی دوم، اعداد واقعی حجم تولید ماهیانه تانکهای Mark V مشخص شد. جدول زیر نشان میدهد که برآوردهای جاسوسی (Intelligence Estimate)، برآوردهای آماری (Statistical Estimate) و حجم واقعی تولید (Actual) در هرماه چقدر بودهاند. همانطور که مشخص است برآوردهای آماری بسیار نزدیک به اعداد واقعی تولید بودهاند (شکل-۷).
در دنیای کسبوکار چنین روشی را میتوان برای تخمین حجم تولید رقبا استفاده کرد. به همین خاطر، برخی از شرکتها در صنایع با رقابت بالا شماره سریال محصولات تولیدیشان را رمزگذاری میکنند.
اندازهگیری کارایی انرژیدرمانی با رویکرد آزمایش کنترلشده تصادفی
در دهه ۹۰ میلادی انرژیدرمانی در آمریکا بسیار رایج شده بود. طرفداران این نوع درمان ادعا میکردند که درمانگر آموزشدیده، میتواند با حرکت دادن دستان خود در اطراف بدن بیمار انرژی منفی او را از بدنش بیرون کنند و او را درمان کند (شکل-۸).
درمانگران ادعا میکردند که بدون تماس با بدن بیمار انرژی منفی او را احساس میکنند و میتوانند درک کنند آیا انرژی بدن بیمار متعادل است یا خیر. همچنین آنها ادعا میکردند که از طریق دستانشان انرژی کیهان را میتوانند به بیمار منتقل کنند. این روش تا آنجا شایع شده بود که در برخی از بیمارستانهای آمریکا و یا حتی اتاقهای جراحی، پرستاران و درمانگران از این روش استفاده میکردند. جالب آنکه برخی از بیماران نیز از این روش احساس رضایت میکردند و آن را در درمان خود مؤثر میدانستند.
امیلی روزا (Emily Rosa) دختر نه ساله که به دنبال موضوعی برای انجام پروژه دانشآموزی خود بود، با دیدن ویدئوی مربوط به انرژیدرمانی، کنجکاو میشود که بداند آیا واقعاً انرژیدرمانی کارآمد است. مادر او که یک پرستار بود برای انجام این پروژه به او راهنمایی میکند.
امیلی رزا آزمایش سادهای طراحی میکند و از درمانگران مدعی انرژیدرمانی دعوت میکند در آزمایش او شرکت کنند. در این آزمایش، امیلی و درمانگر روبروی هم مینشستند و یک حائل بین آنها قرار میگرفت تا دو طرف نتوانند یکدیگر را ببینند. این حائل دارای دو سوراخ بود که از طریق آن دستان درمانگر بیرون میآمد بطوریکه کف دست رو به بالا قرار میگرفت. در این آزمایش امیلی یک دست خود را در فاصله پنج اینچی از یکی از دستان درمانگر قرار میداد و از او پرسش میکرد بر اساس انرژی که احساس میکند دستش روی دست چپ یا راست درمانگر قرارگرفته است (شکل-۹).
آزمایش او شامل یک نمونه از ۲۱ درمانگر مدعی انرژیدرمانی بود که از هریک ۱۰ بار آزمایش گرفته میشد. بهطور متوسط درمانگران تنها در ۴۴ درصد موارد توانسته بودند موقعیت دست امیلی را درست تشخیص دهند. اگر آنان قرار بود تنها بهصورت شانسی موقعیت دست او را حدس بزنند باید بهطور متوسط در ۵۰ درصد موارد پاسخ را درست میگفتند. بهعبارتدیگر، عملکرد درمانگرانی که ادعا میکردند انرژی بدن افراد را میتوانند احساس کنند، با افراد عادی که با حدس زدن جواب میدادند، یکسان بود. به زبان آماری، درمانگران مدعی انرژیدرمانی هیچ تفاوت معنیداری با افراد عادی در این آزمایش از خود بروز ندادند. این نشان میداد درمانگران هیچ توانایی خاصی ندارند.
نتایج کار امیلی روزا توجه بسیاری را به خود جلب کرد و او در ۱۱ سالگی توانست نتایج کار خود را در یک ژورنال معتبر پزشکی منتشر کند و از روی آزمایش او در سال ۱۹۹۷ یک مستند تهیه شد. این مثال نشان میدهد چطور رویکرد علمی میتواند بر پایه نمونهگیری و استفاده از روشهای آماری به ارزیابی و اندازهگیری پدیدههایی بپردازد که در ظاهر غیرقابلاندازهگیری به نظر میرسند.
سوگیری در نمونهگیری
تا به اینجا بحث کردم چگونه روشهای آماری مبتنی بر نمونهگیری تصادفی میتوانند به شناخت پدیدهها کمک کنند. باید توجه کرد قدرت روشهای آماری در برآورد و پیشبینی وابسته به نمونهای است که از آن استفاده میکنند. نمونه خوب، نمونهای است که تصادفی و نمایا باشد و تعداد مشاهدات آن بهاندازه کافی است. اگر نمونه بهصورت سامانمند تنها بخشی از جامعه را شامل شود، دارای سوگیری (Bias) است. نمونه دارای سوگیری میتواند به استنباط خطا درباره ویژگی موردمطالعه در جامعه منجر شود.
یکی از انواع مهم سوگیریها در نمونهگیری، سوگیری خودانتخابی (Self-selection Bias) است. سوگیری خودانتخابی زمانی رخ میدهد که ما گروههای مختلف افراد را که تصمیمات مختلفی گرفتند، با یکدیگر مقایسه کنیم بدون آنکه توجه کنیم “چرا” این تصمیمات را گرفتند. یک نمونه بارز بروز چنین سوگیری در انتخابات ریاست جمهوری ۲۰۱۶ آمریکا رخ داد.
پیروزی دونالد ترامپ (Donald J. Trump) در انتخابات سال ۲۰۱۶ ریاست جمهوری آمریکا برخلاف پیشبینیهای مبتنی بر نتایج بسیاری از نظرسنجیها، بار دیگر توجهها را به لزوم دقت در اجرا و تحلیل نظرسنجیها جلب کرد. وقتی شما میخواهید بفهمید در جامعه هدف (در این مثال همه افراد واجد شرایط که میخواهند در روز انتخابات رأی دهند) به کدام کاندید رأی میدهند عملاً نمیتوانید از همه افراد جامعه سؤال کنید. این کار فقط یکبار آنهم در انتخابات واقعی ممکن است. برای این منظور باید یک سری از افراد را که کاملاً “تصادفی” انتخاب شدهاند و “نمایندهای از جامعه هدف” هستند، بهعنوان نمونه آماری انتخاب کنید و نتایج این نمونه را به جامعه هدف تعمیم دهید.
حال اگر نمونه نسبت به قسمتی از جامعه هدف سوگیری داشته باشد و بهنوعی نمایانگر تمام جامعه هدف نباشد، نتایج با خطا همراه است. درباره نظرسنجیهای انتخاباتی، اینکه عملاً نظرسنجی حاصل پاسخ افرادی باشد که حاضر باشند در نظرسنجی شرکت کنند، تمام توضیحات ابتدایی را گوش کنند و پاسخ سؤالات را دهند، ممکن است نمونه را به سمت خاصی سوق دهد. این خطا همواره مشکلساز نیست. برای مثال در آمریکا، میزان پاسخگویی آفریقایی-آمریکایی تبارها در نظرسنجیها پایین است. محقق با دانستن اینکه چند درصد آفریقایی-آمریکایی تبارها کل جمعیت را تشکیل میدهند، میتواند بر اساس همان نمونه محدود، خطای آماری را اصلاح کند.
اما مشکل زمانی پیش میآید که محقق نداند افراد ممکن است بر اساس چه ویژگی به نظرسنجی پاسخ ندهند و برخی از افراد به شکل سامانمند از شرکت در نظرسنجی امتناع کنند. در انتخابات اخیر بسیاری از طرفداران ترامپ بر این باور بودند که رسانهها و مؤسسات افکارسنجی، نظرسنجیها را دستکاری میکنند و این نگرش احتمالاً باعث شده است طرفداران وی از شرکت در نظرسنجیها خودداری کنند و نتایج عملاً متمایل به طرفداران هیلاری کلینتون (Hillary Clinton) شود که خود ظن آنها را تقویت میکرده است.
در این مثال در عمل، قسمتی از نمونه خودش انتخاب کرده که جزء آن نباشد. نکته مهم این است که افزایش حجم نمونه خطای ناشی از سوگیری خودانتخابی را کاهش نمیدهد.
من در مقاله “سوگیری خودانتخابی چیست؟” با مثالهای مختلف به این سوگیری در نمونهگیری پرداختم.
سوگیری مهم دیگر در نمونهگیری، سوگیری بازماندگی (Survival Bias) است. سوگیری بازماندگی زمانی پیش میآید که تنها بر روی افراد یا چیزهایی که از یک فرآیند انتخاب گذشتهاند، تمرکز کنید و آنهایی را که نتوانستند عبور کنند، عمدتاً به این خاطر که دیگر قابلمشاهده نیستند، نادیده بگیرید.
بهعنوانمثال، ساختمانهای با ساخت مستحکم، معماری زیبا، کاربری خوب و نگهداری مناسب در چندین نسل دوام میآورند و باقی میمانند. افراد ممکن است تنها با مقایسه ساختمانهای قدیمی باقیمانده با ساختمانهای امروزی اینطور نتیجه بگیرند که درگذشته ساختمانهای بهتری ساخته میشده است؛ اما آنان هزاران بنای دیگر را که درگذشته خوب ساخته نشدهاند و در طول زمان از بین رفتهاند و دیگر قابلمشاهده نیستند، در نتیجهگیری خود لحاظ نمیکنند. این سوگیری میتواند برای آثار هنری برجسته گذشته که در طول زمان از رقابت سربلند بیرون آمدهاند و مقایسه آن با آثار هنری معاصر مصداق پیدا کند. یکی از دلایل وجود حس نوستالژی نسبت به گذشته این نوع مقایسههاست.
من در مقاله “چگونه بازماندگان شما را فریب میدهند؟” بهطور مفصل درباره این سوگیری بحث کردهام.
***ضمیمه: کدهای مثال نمونهگیری برای تخمین میانگین وزن شکلاتهای رنگی در R
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | > #Create the Population > set.seed(123) > pop <- rnorm(10000, mean = 1.45, sd = 0.2) > #Random Sampling from Population > sample_size <- c(2, 3, 5, 10, 15, 20, 25, 30) > for (i in seq_along(sample_size)){ + samples_mean <- c() + for (j in 1 : 1000){ + set.seed(j) + sp <- sample(pop, sample_size[i]) + samples_mean <- c(samples_mean, mean(sp)) + } + print(paste('Sample size: ', + sample_size[i], 'CIs: ', + round(quantile(samples_mean, probs = 0.05), 3), + round(quantile(samples_mean, probs = 0.95), 3))) + } [1] "Sample size: 2 CIs: 1.221 1.687" [1] "Sample size: 3 CIs: 1.259 1.654" [1] "Sample size: 5 CIs: 1.304 1.606" [1] "Sample size: 10 CIs: 1.344 1.552" [1] "Sample size: 15 CIs: 1.363 1.533" [1] "Sample size: 20 CIs: 1.377 1.524" [1] "Sample size: 25 CIs: 1.387 1.514" [1] "Sample size: 30 CIs: 1.392 1.511" |
منابع:
Hubbard, D. W. (2014). “How to Measure Anything: Finding the Value of Intangibles in Business”, John Wiley & Sons
Littlejohn, R. (2014). “Introduction to Applied Statistical Methods” – Course Material, University of Colorado, Boulder, USA
Siegel, A. F. (2016). “Practical Business Statistics”, Academic Press
از مطالب مفیدتان سپاسگزارم