مروری بر تبدیل Box-Cox و کاربردهای آن

بسیاری از تحلیل‌های آماری و پاره‌ای از الگوریتم‌های یادگیری ماشین مبتنی بر این فرض است که نمونه از جامعه‌ای با توزیع نرمال (Normal Distribution) به دست آمده و ساختار خطا جمعی است (Additive Error Structure). جمعی بودن ساختار خطا به این معنی است که خطا تنها به مقدار واقعی اضافه می‌شود و خودش وابسته به آن مقدار واقعی نیست.

زمانی که این مفروضات برقرار نباشد، بسته به اینکه تا چه میزان مدل به نقض این مفروضات حساس است و تا چه حد این مفروضات نقض شده عملکرد مدل تحت تأثیر قرار می‌گیرد. اگر این مفروضات نقض شود، چند راهکار وجود دارد:

درصورتی‌که میزان انحراف از مفروضات کم است، تحلیل را با مدل ادامه دهیم.

از مدل‌هایی برای تحلیل استفاده کنیم که نیاز به این مفروضات ندارد.

داده‌ها را به شکلی تبدیل کنیم که این مفروضات برقرار شوند.

بحث من در این مقاله درباره رویکرد سوم است. تبدیل Box-Cox سعی دارد داده‌ها را به‌گونه‌ای تغییر دهد به امید آنکه داده‌های تغییریافته به توزیع نرمال نزدیک‌تر شوند. به‌این‌ترتیب روش‌‌های آماری که نیاز به این فرض دارند، روی داده تبدیل‌یافته اعمال شود.

تبدیل Box-Cox

اگر x متغیر اصلی باشد، تبدیل Box-Cox آن (\tilde{x}) از رابطه زیر محاسبه می‌گردد:

\tilde{x} = \left\{\begin{matrix} (x^{\lambda } - 1) / \lambda, \: if \: \lambda \neq  0
\\ log(x) , \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: if \: \lambda = 0
\end{matrix}\right.

در رابطه بالا، لاندا (\lambda) پارامتری است که باید برآورد شود تا بتوان تغییر متغیر را انجام داد. برای تعیین لاندا، باید مقادیر مختلفی آزمایش شود و لاندای بهینه که از بین همه این مقادیر، توزیع \tilde{x} را به نرمال نزدیک‌تر می‌کند، انتخاب گردد. معمولاً مقادیر محتمل لاندا در بازه ۶- تا ۶ بر اساس الگوریتم برآورد بیشینه درستنمایی (Maximum Likelihood Estimation – MLE) بررسی و مقدار بهینه انتخاب می‌شود. به زبان ساده، الگوریتم برآورد بیشینه درستنمایی  به دنبال لاندایی است که متغیر x را به‌گونه‌ای تغییر دهد که توزیع متغیر تبدیل‌یافته \tilde{x} تا جای ممکن به توزیع نرمال نزدیک شود.

در عمل طی یک فرآیند تکرارشونده، لاندایی پیدا می‌شود که منفی لگاریتم تابع درستنمایی (Minus Logarithm of the Likelihood Function) را بیشینه می‌کند. خروجی این فرآیند برآورد نقطه‌ای (Point Estimate) از لاندا و برآورد بازه‌ای (Interval Estimate) آن است. دقت کنید، اگر صفر در برآورد بازه‌ای قرار گرفت، آنگاه نمی‌توانیم بگوییم که لاندا تفاوت معنی‌داری با صفر دارد، پس آن را مساوی صفر قرار می‌دهیم.

توجه کنید که هیچ تضمینی نیست که همیشه تغییر متغیر پیشنهادی الگوریتم Box-Cox منجر به نرمال شدن داده شود. اگر میزان چولگی داده‌ها بسیار زیاد باشد، ممکن است از دست این روش هم کاری برنیاید. بنابراین همیشه بهتر است بررسی کنید آیا متغیر تبدیل‌یافته از توزیع نرمال پیروی می‌کند یا خیر.

پیاده‌سازی تبدیل Box-Cox در R

برای آنکه من نحوه اجرای تغییر متغیر را نشان دهم، در زبان R هزار عدد تصادفی از توزیع گاما (Gamma Distribution) با پارامترهای shape = 1 و rate = 1 ایجاد کردم و آن را در بردار x ذخیره کردم. شما می‌توانید هر داده دیگری را به‌جای x بکار ببرید.

من در مقاله “بررسی نرمال بودن داده‌ها” توضیح دادم چگونه ارزیابی کنید که آیا یک نمونه داده از توزیع نرمال به دست آمده است. دو روش ساده که می‌توان استفاده کرد رسم هیستوگرام و نمودار چندک-چندک (Q-Q Plot) است. گرچه در آن مقاله من استفاده از آزمون‌های آماری را هم توصیه کردم، برای سادگی در اینجا به همین دو روش اکتفا می‌کنم.

در شکل-۱، داده‌های بردار x را در قالب هیستوگرام نمایش دادم و تابع توزیع برآوردی را با منحنی قرمزرنگ روی هیستوگرام انداختم. مشخص است که داده‌ها چولگی زیادی به سمت راست دارند. نمودار چندک-چندک و مقایسه آن با خط ۴۵ درجه هم نشان می‌دهد که داده‌ها از توزیع نرمال پیروی نمی‌کنند.

شکل-۱

 

سپس در کد زیر از تبدیل Box-Cox استفاده کردم تا داده‌ها را به توزیع نرمال نزدیک کنم. برای اجرای الگوریتم در R از کتابخانه MASS بهره بردم. این کتابخانه تابعی به نام boxcox دارد. آرگومان اولی که به تابع دادم نشان می‌دهد قرار است تغییر متغیر را برای x بکار ببرم. در آرگومان دوم مقادیر محتمل لاندا را در قالب یک بردار که درایه‌های آن از ۶- تا ۶ است و با یکدیگر به‌اندازه ۰٫۱ فاصله دارند، وارد کردم. نتایج الگوریتم را در res ذخیره کردم و آن را به دیتا فریم تبدیل کردم. پنج سطر اول این دیتا فریم در زیر آمده است. ستون x همان مقادیر محتمل لاندا هستند و ستون y مقادیر منفی لگاریتم تابع درستنمایی هستند.

وقتی الگوریتم اجرا می‌شود، نموداری هم بلافاصله رسم می‌شود که در شکل-۲ آوردم. محور افقی این نمودار، مقادیر لاندا و محور عمودی آن منفی لگاریتم تابع درستنمایی است. همان‌طور که در شکل مشخص است با نقطه‌چین برآورد بازه‌ای ۹۵ درصد اطمینان برای لاندا هم آمده است. توجه کنید که آیا مبدأ مختصات (صفر) در این بازه قرار گرفته یا نه. در این مثال مشخص است که صفر در این بازه نیست، بنابراین لاندا با صفر تفاوت معنی‌داری دارد و مقدار برآورد نقطه‌ای (۰٫۶) را می‌پذیرم.

شکل-۲

 

در گام بعد طبق فرمول پیشنهادی، تغییر متغیر را انجام دادم و آن را در trans_x ذخیره کردم. بررسی هیستوگرام و نمودار چندک-چندک trans_x نشان می‌دهد، توزیع آن بسیار به توزیع نرمال نزدیک شده است.

شکل-۳

 

مثالی از کاربرد تبدیل Box-Cox در محاسبه ضریب همبستگی

در این مثال، به دنبال آن هستم که ضریب همبستگی بین دو متغیر را که یکی از آنان به‌شدت چولگی دارد، محاسبه کنم. فرض کنید x و y دو متغیر هستند که از هرکدام یک نمونه ۲۵تایی جمع‌آوری کردم:

توزیع این متغیرها به همراه نمودار چندک-چندک در شکل-۴ و شکل-۵ آمده است. همان‌طور که مشاهده می‌شود x انحراف چندانی از توزیع نرمال ندارد ولی y چولگی به سمت راست دارد.

شکل-۴

 

شکل-۵

 

سپس ضریب همبستگی پیرسون را برای x و y محاسبه کردم و آزمون فرضیه متناسب را برای آن انجام دادم. همبستگی پیرسون  (Pearson Correlation Coefficient) بین این دو متغیر ۰٫۵۸ – به دست می‌آید و آزمون فرضیه آن نیز معنی‌دار می‌شود (به این معنی که ضریب همبستگی پیرسون با صفر تفاوت معنی‌داری دارد). توجه کنید که یکی از مفروضات آزمون فرضیه برای ضریب همبستگی نرمال بودن متغیرها است.

شکل-۶ نمودار پراکندگی به همراه خط برآوردی رگرسیون y روی x را نشان می‌دهد.

شکل-۶

 

می‌دانیم توزیع متغیر y با توزیع نرمال تفاوت فاحشی دارد. پس بهتر است راهکارهای دیگری را هم بررسی کنیم.

یک راهکار این است که از روشی مانند ضریب همبستگی اسپیرمن (Spearman Correlation Coefficient) استفاده کنیم که نیاز به فرض نرمال بودن ندارد. در کد زیر ضریب همبستگی اسپیرمن به همراه آزمون فرضیه مربوطه را پیاده‌سازی کردم. این آزمون‌ نیز نتایج مشابهی دارد و فرضیه صفر را رد می‌کند. ولی توجه کنید که ضریب همبستگی اسپیرمن ۰٫۷۹ – است بدان معنی که شدت رابطه خطی را بیشتر از ضریب پیرسون برآورد می‌کند.

راهکار دیگر این است که توزیع متغیر  y را با استفاده از رویکرد Box-Cox به توزیع نرمال نزدیک کنم. با روشی که در قبل توضیح دادم، الگوریتم Box-Cox را روی متغیر y پیاده‌سازی کردم. همان‌طور که از شکل-۷ مشخص است، پارامتر لاندا با صفر تفاوت معنی‌داری ندارد، بنابراین برآورد نقطه‌ای لاندا را معیار قرار نمی‌دهم و لاندا را مساوی صفر در نظر می‌گیرم. پس طبق پیشنهاد Box-Cox از تغییر متغیر لگاریتمی استفاده می‌کنم و متغیر تبدیل‌یافته را در trans_y ذخیره می‌کنم.

شکل-۷

 

اگر ضریب همبستگی پیرسون بین x و trans_y و همچنین آزمون فرضیه برای ضریب همبستگی را محاسبه کنم، به نتایج زیر می‌رسم.

ملاحظه می‌کنید در اینجا هم ضریب همبستگی ۰٫۷۹ – به دست می‌آید. یعنی در این حالت ضریب همبستگی پیرسون نسبت به زمانی که روی داده‌های خام محاسبه شد، ۲۷ درصد بهبود پیدا کرد. اگر نمودار پراکندگی بین x و trans_y را در شکل-۸ ملاحظه و با شکل-۶ مقایسه کنید، مشخص است که ابر داده‌ها به‌خوبی حول خط رگرسیون توزیع شده‌اند.

شکل-۸

 

تبدیل Box-Cox برای رگرسیون خطی

همان‌طور که در مثال قبل مشاهده کردید، تغییر متغیر Box-Cox کیفیت رابطه خطی را بهبود داد. یکی از کاربردهای این رویکرد، در زمانی است که متغیر پاسخ (y) در رگرسیون خطی دارای چولگی بالاست.

تبدیل Box-Cox برای رگرسیون خطی به دنبال آن است که y را به‌گونه‌ای تغییر دهد که وقتی متغیر تبدیل‌یافته روی x برازش می‌شود، رابطه متغیر آن با x تا حد امکان به خط نزدیک شود. در این حالت نیز مشابه قبل به دنبال یافتن لاندای بهینه هستیم. در R می‌توانید با کدی مانند زیر الگوریتم Box-Cox را برای تغییر متغیر y در رگرسیون خطی روی x بکار ببرید:

نتیجه کد بالا مشابه قبل است و Box-Cox تغییر متغیر لگاریتمی را پیشنهاد می‌دهد.

توجه کنید گرچه رگرسیون خطی بالا تنها دارای یک متغیر پیش‌بینی کننده است، می‌توان از این رویکرد برای رگرسیون خطی چندمتغیره هم استفاده کرد.

***ضمیمه: پیاده‌سازی تبدیل Box-Cox در پایتون

در این بخش نحوه پیاده‌سازی الگوریتم را در پایتون نشان دادم. در ابتدا پس از فراخوانی کتابخانه‌ Numpy، هزار عدد تصادفی از توزیع گاما با پارامترهای shape = 1 و rate = 1 ایجاد کردم و آن را در بردار x ذخیره کردم. شما می‌توانید هر داده دیگری را به‌جای x بکار ببرید.

سپس از کتابخانه Scipy ماژول stats که عمدتاً برای محاسبات آماری در پایتون استفاده می‌شود، تابع boxcox را فراخوانی کردم. خروجی الگوریتم را در res ذخیره کردم و برآورد نقطه‌ای و بازه‌ای را به دست آوردم. همان‌طور که مشخص است لاندای بهینه برای این مثال حدود ۰٫۲۷ است.

درباره بررسی نرمال بودن داده‌ها در پایتون قبلاً همین مثال را حل کردم، بنابراین می‌توانید به آن مقاله مراجعه کنید.

منابع:

Daimon, T. (2011). “Box–Cox Transformation”, In: Lovric M. (eds), “International Encyclopedia of Statistical Science”, Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-04898-2_152

Sakia, R. M. (1992). “The Box–Cox Transformation Technique: A Review”, Statistician 41:169–۱۷۸

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.