شاخص‌های مرکزی در آمار

در این مقاله توضیح می‌دهم که اگر بخواهیم داده‌های موجود در جامعه آماری و یا نمونه را تنها با یک عدد نشان دهیم از چه شاخص‌هایی می‌توانیم استفاده کنیم. هدف استفاده از چنین شاخص‌هایی این است که اطلاعاتی را که در مجموعه داده‌ها وجود دارد در یک مقدار عددی خلاصه کند. شاخص‌هایی مانند میانگین (Mean)، میانه (Median) و مد (Mode) برای چنین منظوری بکار می‌روند. این شاخص‌ها در آمار تحت عنوان سنجه‌های گرایش به مرکز (Measures of Central Tendency) شناخته می‌شوند.

میانگین حسابی

مجموع مقادیر محاسبه‌شده تقسیم‌بر تعداد مشاهدات میانگین حسابی (Arithmetic Mean) را به دست می‌دهد. میانگین حسابی که عمدتاً در زبان فارسی به‌اختصار میانگین نامیده می‌شود، یکی از رایج‌ترین شاخص‌هایی است که در مدیریت و کسب‌وکار برای خلاصه‌سازی داده‌ها استفاده می‌گردد. معمولاً در آمار میانگین جامعه آماری با $\mu$ و میانگین نمونه با (bar)x نشان داده می‌شوند.

میانگین جامعه آماری زمانی بکار می‌رود که داده‌ها نماینده تمام عناصر موجود در جمعیت موردمطالعه باشند و از رابطه زیر محاسبه می‌شود:

در رابطه بالا $x_{i}$ نشان‌دهنده مقدار $i$ ام و $N$ تعداد مقادیر داده‌ها در جمعیت است.

میانگین نمونه هم‌زمانی بکار می‌رود که داده‌ها نشان‌دهنده نمونه‌ای از جمعیت موردمطالعه باشند و از رابطه زیر محاسبه می‌شود:

در رابطه بالا $x_{i}$ نشان‌دهنده مقدار $i$ ام و $n$ تعداد مقادیر داده‌ها در نمونه آماری است.

در عمل دو رابطه بالا یکی هستند ولی نحوه نمایش آن در آمار برای میانگین جامعه و نمونه متفاوت است.

در نرم‌افزار اکسل (Excel) از تابع ()AVERAGE برای محاسبه میانگین استفاده می‌شود. فرض کنید میزان تقاضای ماهیانه یک شرکت در ۱۲ ماه گذشته مطابق شکل-۱ است. خانه C15 میانگین داده‌ها را با استفاده از فرمول زیر به دست می‌دهد:

AVERAGE(C3:C14)=

در زبان R برای محاسبه میانگین داده‌ها از تابع ()mean استفاده می‌شود. در کد زیر ابتدا داده‌های تقاضا وارد نرم‌افزار و به شکل دیتا فریم (Data Frame) ذخیره شده‌اند. سپس میانگین داده‌ها محاسبه شده است.

#Input data
Input = ("
Month  Demand
M1     1200
M2     1350
M3     1400
M4     1560
M5     1350
M6     1300
M7     1360
M8     1270
M9     1240
M10    1210
M11    1270
M12    1280
")

Data = read.table(textConnection(Input), header = TRUE)

#Arithmetic Mean
mean(Data$Demand)
[1] 1315.833

#Input data

Input = ("

Month Demand

M1 1200

M2 1350

M3 1400

M4 1560

M5 1350

M6 1300

M7 1360

M8 1270

M9 1240

M10 1210

M11 1270

M12 1280

Data = read.table(textConnection(Input), header = TRUE)

#Arithmetic Mean

mean(Data$Demand)

[1] 1315.833

توجه کنید چون در محاسبه میانگین از تمام داده‌های موجود استفاده می‌شود، میانگین تحت تأثیر مقادیر انتهایی (Extreme Values) قرار می‌گیرد. فرض کنید در مثال گفته‌شده مقدار بیشینه تقاضا که مربوط به ماه چهارم است، از ۱۵۶۰ به ۳۰۰۰ تغییر کند. در این صورت همین تغییر موجب افزایش ۹ درصدی میانگین می‌شود.

اگر می‌خواهید بدانید در چه زمانی نباید از میانگین استفاده کرد، مقاله “خطا در استفاده از میانگین” را مرور کنید.

میانگین وزنی

زمانی که برخی از مقادیر در داده‌ها مهم‌تر از برخی دیگر باشند، میانگین وزنی استفاده می‌شود. در این حالت وزن هر مقدار ( $w_{{i}}$ ) نشان‌دهنده اهمیت نسبی آن است. رابطه ریاضی محاسبه میانگین وزنی برای جمعیت ( $\mu_{{w}}$ ) یا نمونه ( $x_{{w}}$ ) به ترتیب زیر است:

میانه

اگر داده‌ها به ترتیب از کوچک‌تر به بزرگ‌تر مرتب شوند، نیمی از آن‌ها از میانه کوچک‌تر و نیمی دیگر از میانه بزرگ‌تر هست. اگر تعداد اعداد فرد باشد، عدد وسطی میانه است. اگر تعداد زوج باشد میانه برابر میانگین دو عدد وسطی خواهد بود. در مثال بالا اگر اعداد را مرتب کنیم به سری زیر می‌رسیم:

۱۲۰۰,۱۲۱۰,۱۲۴۰,۱۲۷۰,۱۲۷۰,۱۲۸۰,۱۳۰۰,۱۳۵۰,۱۳۵۰,۱۳۶۰,۱۴۰۰,۱۵۶۰

چون تعداد زوج است، میانه برابر میانگین ۱۳۰۰ و ۱۲۸۰ یعنی ۱۲۹۰ است.

در نرم‌افزار اکسل از تابع ()MEDIAN برای محاسبه میانه استفاده می‌شود. برای مثالی که در شکل-۱ آمده است، میانه اعداد با استفاده از فرمول این به دست می‌آید:

MEDIAN(C3:C14)=

در زبان R برای محاسبه میانگین داده‌ها از تابع ()median استفاده می‌شود.

#Median
median(Data$Demand)
[1] 1290

#Median

median(Data$Demand)

[1] 1290

لازم به ذکر است میانه تحت تأثیر مقادیر انتهایی نیست. اگر مقدار بیشینه تقاضا به ۳۰۰۰ تغییر کند، هیچ تغییری در میانه داده‌ها رخ نمی‌دهد.

مد

در یک مجموعه از داده‌ها، مد مقداری است که بیش از همه تکرار شده است. مانند میانه، مد نیز تحت تأثیر مقادیر انتهایی قرار نمی‌گیرد. در مثال گفته‌شده داده‌ها دارای دو مد هستند. مقادیر ۱۳۵۰ و ۱۲۷۰ هرکدام دو بار تکرار شده‌اند و دارای بیشترین فرکانس وقوع هستند.

در نرم‌افزار اکسل از تابع ()MODE.SNGL و یا ()MODE. MULT برای محاسبه مد استفاده می‌شود (شکل-۱).

در زبان R تابع مشخصی برای محاسبه مد تعریف نشده است. برای این منظور من تابعی را با نام GetMode در R تعریف کردم. در این تابع ابتدا با استفاده از ()unique مقادیر یکتا در داده‌های ورودی (x) به دست می‌آیند و در متغیر u قرار می‌گیرند. سپس تابع ()match تعیین می‌کند هر مقدار در بردار u در چه جایگاهی در بردار ورودی (x) قرار دارد. تابع ()tabulate مشخص می‌کند مقادیر عدد صحیح چند بار تکرار شده‌اند. ساختار which(vector == max(vector)) مقادیر بیشینه را در یک بردار عددی مشخص می‌کند. درنهایت این دستور داده می‌شود تا عناصر متناظر با این مقادیر بیشینه در بردار u فراخوانی شوند.

#Mode
#Creat the function
GetMode= function(x) {
  u = unique (x)
  u[which((tabulate(match(x, u))) == max((tabulate(match(x, u)))))]
}

#Calculate the mode using the function
GetMode(Data$Demand)
[1] 1350 1270

#Mode

#Creat the function

GetMode= function(x) {

u = unique (x)

u[which((tabulate(match(x, u))) == max((tabulate(match(x, u)))))]

}

#Calculate the mode using the function

GetMode(Data$Demand)

[1] 1350 1270

برای راحتی تنها لازم است بخش تابع را در R کپی کنید و با فراخوانی تابع تعریف‌شده مقدار مد را برای داده‌های خود محاسبه کنید.

جهت یادآوری باید اشاره کرد که میانگین از تمامی داده‌ها موجود استفاده می‌کند و تصویر کامل‌تری از داده به دست می‌دهد. ولی می‌تواند به شدن تحت تأثیر مقادیر کمینه یا بیشینه قرار گیرد. همچنین برای یک مجموعه از اعداد یک میانگین و میانه قابل‌تعریف است. درحالی‌که ممکن است یک مجموعه اعداد دارای یک یا چند مد باشد.

میانگین هندسی

برخی موارد به‌جای میانگین حسابی باید از میانگین هندسی (Geometric Mean) استفاده کرد. معمولاً در حوزه اقتصاد و مدیریت میانگین هندسی برای بیان نرخ تغییر یک متغیر در طول زمان بکار می‌رود. برای محاسبه میانگین متغیرهایی مانند تورم، نرخ بهره مرکب، رشد اقتصادی و مانند آن از این نوع میانگین استفاده می‌شود.

میانگین هندسی $n$ مقدار از رابطه زیر محاسبه می‌گردد:

برای نمونه اگر بخواهیم از رابطه بالا برای محاسبه نرخ میانگین بازگشت سرمایه ( $R_{{G}}$ ) در یک دوره زمانی شامل $n$ بازه استفاده کنیم، محاسبات به ترتیب زیر خواهد شد:در رابطه بالا $R_{{i}}$ نرخ بازگشت روی سرمایه در دروه زمانی $i$ ام است.

برای روشن شدن علت استفاده از میانگین هندسی در این شرایط به این مثال توجه کنید. فرض کنید شما در ابتدای سال ۱۰۰ هزار دلار سرمایه‌گذاری کردید و در انتهای سال ۵۰ هزار دلار را از دست می‌دهید. سپس در انتهای سال دوم دوباره سرمایه شما به ۱۰۰ هزار دلار برمی‌گردد. برای این سرمایه‌گذاری نرخ بازده در سال اول ۵۰- درصد و در سال دوم ۱۰۰ درصد است. اگر از میانگین حسابی استفاده کنید نرخ میانگین برای این دو سال ۲۵ درصد به دست می‌آید. درحالی‌که میانگین نرخ بازده برای دو سال از رابطه بالا مبتنی بر میانگین هندسی صفر درصد است. در عمل نیز در طول این دو سال ارزش این سرمایه‌گذاری تغییری نکرده و میانگین هندسی به شکل دقیق‌تری منعکس‌کننده تغییرات ارزش سرمایه‌گذاری است.

در نرم‌افزار اکسل از تابع ()GEOMEAN می‌توان استفاده کرد. در زبان R تابع از پیش تعریف‌شده‌ای وجود ندارد. برای محاسبه میانگین هندسی تابعی را با نام GM.Mean در R به شکل زیر تعریف کردم. توجه کنید در تعریف این تابع فرض شده است که داده‌ها بزرگ‌تر از صفر هستند.

#Creat the function
GM.Mean = function(x){
  exp(mean(log(x)))
}

#Calculate the geometric mean using the function
data = c(0.1, 0.2, 0.25, 0.31, 0.42, 0.37)
GM.Mean(data)
[1] 0.2494387

#Creat the function

GM.Mean = function(x){

exp(mean(log(x)))

}

#Calculate the geometric mean using the function

data = c(0.1, 0.2, 0.25, 0.31, 0.42, 0.37)

GM.Mean(data)

[1] 0.2494387

منابع:

Levine, D. M., Berenson, M. L., & Stephan, D. (1999). “Statistics for Managers Using Microsoft Excel”, Upper Saddle River, NJ: Prentice Hall

Weiers, R. M. (2010). “Introduction to Business Statistics”, Cengage Learning

آنالیکا

شاخص‌های مرکزی در آمار

میانگین حسابی

میانگین وزنی

میانه

مد

میانگین هندسی

2 نظر در “شاخص‌های مرکزی در آمار”

دیدگاهتان را بنویسید لغو پاسخ