به زبان ساده چندک (Quantile) یعنی وقتی شما دادهها را به بخشهایی مساوی تقسیم کنید، برشهایی از داده که این قسمتهای مساوی را از هم جدا میکند چندک نامیده میشود.
یکی از معروفترین چندکها میانه (Median) است. میانه یک شاخص مرکزی است. اگر دادهها به ترتیب از کوچکتر به بزرگتر مرتب شوند، نیمی از آنها از میانه کوچکتر و نیمی دیگر از میانه بزرگتر هست. اگر تعداد اعداد فرد باشد، عدد وسطی میانه است. اگر تعداد زوج باشد میانه برابر میانگین دو عدد وسطی خواهد بود.
بهاینترتیب میانه، دادهها را به دو قسمت تقسیم میکند. مشابه همین مفهوم، میتوانید دادهها را به پنج قسمت مساوی تقسیم کنید بطوریکه در هر قسمت ۲۰ درصد دادهها قرار گیرد.
در R، دادههای زیر را در بردار u در نظر بگیرید:
1 2 3 | > u <- c(1, 1, 3, 4, 4, 6, 7, 11, 13, 20) > u [1] 1 1 3 4 4 6 7 11 13 20 |
اگر اعداد بردار u را از کوچک به بزرگ مرتب کنید و سپس به ۵ قسمت مساوی تقسیم کنید ۲۰ درصد اول شامل اعداد ۱ و ۱ است. بهعبارتدیگر عدد ۳ چندک ۲۰ درصد اول محسوب میگردد، چراکه ۲۰ درصد اعداد بردار u از ۳ کوچکتر هستند.
اما اگر مقدار چندک را به ازای ۲۰ درصد با استفاده از تابع quantile محاسبه کنید عدد ۲٫۶ برگشت داده میشود:
1 2 3 | > quantile(u, probs = 0.2) 20% 2.6 |
بهطور مشابه در پایتون (Python) داریم:
1 2 3 4 5 6 7 8 | import numpy as np u = np.array([1, 1, 3, 4, 4, 6, 7, 11, 13, 20]) u array([ 1, 1, 3, 4, 4, 6, 7, 11, 13, 20]) np.quantile(u, q = 0.2) 2.6 |
اینکه چرا R و پایتون عدد ۲٫۶ را بهعنوان خروجی میدهند مربوط به تفاوت محاسبه شاخصهای آماری بر اساس نمونه و جامعه است. آنچه R و پایتون محاسبه میکنند quantile بر اساس نمونه آماری است. درواقع R و پایتون فرض میکنند ما به دنبال “برآورد” quantile جامعه بر اساس نمونه دادهها هستیم (بردار u نمونه فرض میگردد نه جامعه آماری).
برای برآورد کننده quantile فرمولهای مختلفی وجود دارد که در صفحه ویکیپدیا (Wikipedia) به آن اشاره شده است:
https://en.wikipedia.org/wiki/Quantile
در حال حاضر R و پایتون از فرمول R-7 برای محاسبه quantile استفاده میکند. من در شکل-۱، فرمول R-7 را از صفحه ویکیپدیا آوردهام.
اگر این رابطه را برای دادههای بردار u بکار ببریم به همان عدد ۲٫۶ میرسیم:
, ,
سلام استاد درود بر شما
چطوری ده درصد ماکزیمم و مینیمم داده ها رو حذف کنیم؟
با سلام
برای پاسخ به چنین سوالی می توان از مفهوم چندک استفاده کرد. برای مثال در R مقدار probs را به صورت برداری شامل ۰٫۱ و ۰٫۹ قرار دهید. به این ترتیب اعدادی مشخص می شوند که ۱۰ درصد اعداد از آن کوچکتر و ۱۰ درصد اعداد از آن بزرگتر هستند.
موفق باشید.