چندک (Quantile) در R و پایتون چگونه محاسبه می‌گردد؟

به زبان ساده چندک (Quantile) یعنی وقتی شما داده‌ها را به بخش‌هایی مساوی تقسیم کنید، برش‌هایی از داده که این قسمت‌های مساوی را از هم جدا می‌کند چندک نامیده می‌شود.

یکی از معروف‌ترین چندک‌ها میانه (Median) است. میانه یک شاخص مرکزی است. اگر داده‌ها به ترتیب از کوچک‌تر به بزرگ‌تر مرتب شوند، نیمی از آن‌ها از میانه کوچک‌تر و نیمی دیگر از میانه بزرگ‌تر هست. اگر تعداد اعداد فرد باشد، عدد وسطی میانه است. اگر تعداد زوج باشد میانه برابر میانگین دو عدد وسطی خواهد بود.
به‌این‌ترتیب میانه، داده‌ها را به دو قسمت تقسیم می‌کند. مشابه همین مفهوم، می‌توانید داده‌ها را به پنج قسمت مساوی تقسیم کنید بطوریکه در هر قسمت ۲۰ درصد داده‌ها قرار گیرد.
در R، داده‌های زیر را در بردار u در نظر بگیرید:

اگر اعداد بردار u را از کوچک به بزرگ مرتب کنید و سپس به ۵ قسمت مساوی تقسیم کنید ۲۰ درصد اول شامل اعداد ۱ و ۱ است. به‌عبارت‌دیگر عدد ۳ چندک ۲۰ درصد اول محسوب می‌گردد، چراکه ۲۰ درصد اعداد بردار u از ۳ کوچک‌تر هستند.

اما اگر مقدار چندک را به ازای ۲۰ درصد با استفاده از تابع quantile محاسبه کنید عدد ۲٫۶ برگشت داده می‌شود:

به‌طور مشابه در پایتون (Python) داریم:

این‌که چرا R و پایتون عدد ۲٫۶ را به‌عنوان خروجی می‌دهند مربوط به تفاوت محاسبه شاخص‌های آماری بر اساس نمونه و جامعه است. آنچه R و پایتون محاسبه می‌کنند quantile بر اساس نمونه آماری است. درواقع R و پایتون فرض می‌کنند ما به دنبال “برآورد”  quantile  جامعه بر اساس نمونه داده‌ها هستیم (بردار u نمونه فرض می‌گردد نه جامعه آماری).

برای برآورد کننده quantile فرمول‌های مختلفی وجود دارد که در صفحه ویکی‌پدیا (Wikipedia) به آن اشاره شده است:

https://en.wikipedia.org/wiki/Quantile

در حال حاضر R و پایتون از فرمول R-7 برای محاسبه quantile استفاده می‌کند. من در شکل-۱، فرمول R-7 را از صفحه ویکی‌پدیا آورده‌ام.

شکل-۱

اگر این رابطه را برای داده‌های بردار u بکار ببریم به همان عدد ۲٫۶ می‌رسیم:

h = (N -1) * p + 1 = (10 - 1) * 0.2 + 1 = 2.8 , p = 0.2 , N = 10

Quantile(p = 0.2) =

\times(u\left \lceil h \right \rceil - u\left \lfloor h \right \rfloor)+ (h - \left \lfloor h \right \rfloor)u\left \lfloor h \right \rfloor

=u[2] + (2.8 - 2)*(u[3] - u[2])

= 1 + (2.8 - 2) * (3 - 1) = 2.6

2 نظر در “چندک (Quantile) در R و پایتون چگونه محاسبه می‌گردد؟

  • بهمن ۱۷, ۱۴۰۰ در ۳:۰۵ ب٫ظ
    پیوند یکتا

    سلام استاد درود بر شما
    چطوری ده درصد ماکزیمم و مینیمم داده ها رو حذف کنیم؟

    پاسخ
    • بهمن ۱۸, ۱۴۰۰ در ۰:۴۶ ق٫ظ
      پیوند یکتا

      با سلام

      برای پاسخ به چنین سوالی می توان از مفهوم چندک استفاده کرد. برای مثال در R مقدار probs را به صورت برداری شامل ۰٫۱ و ۰٫۹ قرار دهید. به این ترتیب اعدادی مشخص می شوند که ۱۰ درصد اعداد از آن کوچکتر و ۱۰ درصد اعداد از آن بزرگتر هستند.

      موفق باشید.

      پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.