مقیاس‌های اندازه‌گیری و انواع داده‌

یکی از مفاهیم پایه‌ای که نیاز است کسانی که با داده کار می‌کنند با آن آشنا باشند مفهوم مقیاس‌های اندازه‌گیری (Measurement Scales) و انواع داده است. علت اهمیت این موضوع در این است که نوع داده به نحوه تحلیل آن جهت‌گیری می‌دهد. لزوماً نمی‌توان هر روش تحلیل داده‌ای را برای هر نوع داده‌ای بکار برد. به همین خاطر من توصیه می‌کنم در همان مراحل اولیه پروژه داده‌کاوی، تحلیل‌گر مقیاس‌های اندازه‌گیری را در داده‌های خود شناسایی کند.

برای ورود به این بحث نیاز است ابتدا با مفهوم اندازه‌گیری آشنا شویم. اندازه‌گیری به این معنی است که به ویژگی موردمطالعه عدد یا نمادی تخصیص دهیم. باید توجه کرد لزوماً اندازه یک ویژگی معادل آن ویژگی نیست. برای مثال ممکن است شما میزان رضایت مشتری از مصرف یک محصول را از او پرسش کنید و از او بخواهید بر اساس طیف لیکرت (Likert) رضایت خود را بر اساس اعداد بین ۱ تا ۵ (از خیلی ناراضی یا خیلی راضی) بیان کند. عددی که او اعلام می‌کند ممکن است به‌طور دقیق بیانگر رضایت واقعی او از میزان مصرف آن محصول نباشد. به‌عبارت‌دیگر نحوه اندازه‌گیری مانع از این شوند که شما دقیق آن ویژگی موردعلاقه را اندازه‌گیری کنید. درباره این موضوع به‌طور مفصل در مقاله “انسان شکارچی در فروشگاه: چرا سنجش داده‌های رفتار مصرف‌کنندگان دشوار است؟” در آنالیکا بحث شده است.

از سمت دیگر ممکن است محقق دیگری، میزان رضایت مشتری از مصرف آن محصول را بر اساس یک طیف دو مقداری (ناراضی/راضی) سنجش کند. به‌عبارت‌دیگر از مقیاس دیگری استفاده کند. این بحث نشان می‌دهد نحوه تصویر ویژگی موردعلاقه بر روی مقیاس اندازه‌گیری اهمیت دارد. نحوه تصویرسازی ویژگی موردعلاقه روی اعداد و نمادها سطوح اندازه‌گیری را نشان می‌دهد. این سطوح اندازه‌گیری می‌تواند اسمی (Nominal)، ترتیبی (Ordinal)، فاصله‌ای (Interval) و نسبتی (Ratio) باشد.

مقیاس اسمی

در مقیاس اسمی از اعداد و یا نشانه‌ها برای طبقه‌بندی، شناسایی و اسم‌گذاری ویژگی موردمطالعه استفاده می‌شود. در مقیاس اسمی هیچ رابطه‌ای بین شدت و ترتیب اعداد و ویژگی موردمطالعه وجود ندارد. دو مشاهده‌ای که به یک گروه یا طبقه تعلق دارند مقادیری یکسانی به خود می‌گیرند. بنابراین در مورد مقیاس اسمی تنها مساوی یا نامساوی بودن معنی دارد.

اعدادی که به کد پستی تخصیص داده می‌شود (مانند ۱۶۱۱۱)، نشانه‌ای که برای مشخص کردن استان محل اقامت فرد بکار می‌رود (مانند Teh برای استان تهران)، اعداد ۰ و ۱ که برای مشخص کردن جنسیت زن و مرد بکار می‌رود، و نشانه‌هایی که برای دلایل خرابی یک دستگاه استفاده می‌گردد (مانند OpErr برای خطای اپراتور دستگاه) مثالی‌هایی از کاربرد مقیاس اسمی است.

توجه کنید درباره همه این مثال‌ها عملیات ریاضی مانند جمع و ضرب روی داده‌ها بی‌معنی است و تنها برابری مقادیر معنی دارد. برای چنین داده‌هایی محاسبه میانگین، میانه، و یا انحراف معیار بی‌معنی است. به همین دلیل، معمولاً در بررسی‌های اولیه روی چنین داده‌هایی فراوانی تعداد مشاهدات در هر گروه یا درصد آن‌ها گزارش می‌شود.

برای بررسی رابطه بین متغیرهایی که با مقیاس اسمی اندازه‌گیری شده‌اند، ضریب همبستگی معنی ندارد. روش‌هایی مانند تحلیل جدول متقاطع و آزمون کای-دو (Chi-square Test) بکار می‌روند. در تحلیل‌های پیشرفته‌تر، برای پیش‌بینی یک متغیر اسمی، الگوریتم‌های دسته‌بندی (Classification) مانند رگرسیون لجستیک و یا تحلیل تفکیک‌کننده خطی (Linear Discriminant Analysis) در یادگیری ماشین استفاده می‌شود.

مقیاس ترتیبی

در مقیاس ترتیبی اعداد به‌گونه‌ای به مشاهدات تخصیص داده می‌شوند که منعکس‌کننده ترتیب در ویژگی موردمطالعه است. داده‌های اولویت‌بندی از جنس داده‌های ترتیبی هستند. اگر از مشتری بپرسید که دلایل خرید یک محصول را از بین ۱۰ دلیل، اولویت‌بندی کند، داده‌ها در مقیاس ترتیبی اندازه‌گیری می‌شوند. سنجش میزان رضایت مشتری از مصرف یک محصول بر اساس طیف لیکرت که در آن رضایت خود را بر اساس اعداد بین ۱ تا ۵ (از خیلی ناراضی یا خیلی راضی) بیان می‌کند، مثال دیگری از مقیاس ترتیبی است. رده سنی برحسب نوجوان، جوان، میان‌سال و کهن‌سال مثال دیگری از اندازه‌گیری در قالب مقیاس ترتیبی است.

اگر فرض کنیم ما می‌توانستیم ویژگی موردمطالعه را با بالاترین دقت ممکن اندازه‌گیری کنیم و آن را روی محور افقی نشان دهیم، شکل-۱ رابطه بین ویژگی موردمطالعه و مقیاس اندازه‌گیری ترتیبی را نشان می‌دهد. همان‌طور که از شکل مشخص است، وقتی یک مشاهده عدد ۴ به خود می‌گیرد نسبت به مشاهده‌ای که عدد ۳ می‌گیرد، در آن ویژگی مقدار بیشتری دارد. ولی میزان این بیشتر بودن لزوماً متناسب بافاصله ۴ از ۳ نیست. بنابراین برای اعداد در مقیاس ترتیبی مساوی یا نامساوی، کوچک‌تر و یا بزرگ‌تر بودن معنی دارد ولی اعداد فاقد معنای کمّی و عددی هستند.

شکل-1
شکل-۱

 

برای داده‌های ترتیبی ممکن است میانه و مد داده‌ها به‌عنوان شاخص‌های مرکزی استفاده گردد. همچنین دامنه و فاصله بین چارکی برای توصیف پراکندگی داده‌ها استفاده می‌شود. برای سنجش رابطه بین متغیرهایی که با مقیاس ترتیبی اندازه‌گیری شده‌اند، می‌توان از ضریب همبستگی اسپیرمن (Spearman Correlation Coefficient) یا ضریب همبستگی کندال  (Kendall’s Tau Correlation Coefficient)  استفاده کرد.

در اینجا باید توجه کرد که داده‌های ترتیبی بین داده‌های اسمی و عددی هستند. به همین خاطر ممکن است بسته به شرایط در برخی موارد با آنان مانند داده‌های عددی برخورد کنید و در برخی موارد مانند داده‌های اسمی. برای مثال من معمولاً اگر مشغول تحلیل داده‌های نظرسنجی باشم که با طیف لیکرت اندازه‌گیری شده است، داده‌ها را عدد در نظر می‌گیرم و محاسبات میانگین، انحراف معیار و ضریب همبستگی پیرسون و آنالیز رگرسیون خطی و مانند آن را روی داده‌ها انجام می‌دهم. ولی اگر مثلاً داده‌ها مربوط به رده سنی (نوجوان، جوان، میان‌سال و کهن‌سال) باشند، بیشتر با آنان شبیه داده‌های اسمی برخورد می‌کنم، گرچه همان‌طور که گفته شد محاسبه میانه و مد، دامنه و فاصله بین چارکی و ضریب همبستگی کندال و اسپیرمن را می‌توان برای آن‌ها بکار برد.

مقیاس فاصله‌ای

در مقیاس فاصله‌ای اعداد به‌گونه‌ای به مشاهدات تخصیص داده می‌شوند که فاصله بین دو عدد با فاصله بین مقادیر متناظر در ویژگی موردمطالعه متناسب است و فواصل یکسانی در مقیاس اندازه‌گیری وجود دارد (شکل-۲). در این مقیاس اندازه‌گیری، صفر یک مقدار قراردادی است و ما به ازای واقعی در ویژگی موردمطالعه ندارد.

شکل-۲

 

یک نمونه استفاده از مقیاس فاصله‌ای، سنجش دمای هوا برحسب سانتی‌گراد است. فاصله بین ۵۰ و ۶۰ درجه سانتی‌گراد معادل فاصله بین ۷۰ و ۸۰ درجه سانتی‌گراد است. ولی صفر در این مقیاس به معنی نبودن دما نیست، بلکه این صفر صرفاً قرارداد است. نبود صفر مطلق باعث می‌شود که محاسبه نسبت ناممکن شود. به این معنی که فاصله ۲۰ درجه سانتی‌گراد از ۱۰ درجه سانتی‌گراد ۱۰ درجه است، ولی نمی‌توان گفت هوای ۲۰ درجه سانتی‌گراد دو برابر گرم‌تر از هوای ۱۰ درجه سانتی‌گراد است. چنانکه اگر اعداد ۲۰ و ۱۰ درجه سانتی‌گراد را به فارنهایت تبدیل کنید معادل ۶۸ و ۵۰ خواهند شد که کاملاً مشخص است نسبتشان دو نمی‌شود.

تاریخ تقویمی و شدت صدا برحسب دسی‌بل مثال‌های دیگری از مقیاس فاصله‌ای هستند.

برای داده‌هایی که در مقیاس فاصله‌ای اندازه‌گیری می‌شوند، می‌توان محاسبه میانگین، میانه، دامنه، انحراف معیار، و ضریب همبستگی پیرسون را انجام داد. برای اعداد در مقیاس فاصله‌ای، مساوی یا نامساوی، کوچک‌تر و یا بزرگ‌تر بودن و جمع و تفریق معنی دارد. در تحلیل‌های پیشرفته‌تر، برای پیش‌بینی یک متغیر فاصله‌ای، الگوریتم‌های رگرسیون (Regression) در یادگیری ماشین مانند تحلیل رگرسیون خطی استفاده می‌شود.

مقیاس نسبتی

مقیاس نسبتی همه خصوصیات مقیاس فاصله‌ای را دارد به‌علاوه اینکه صفر در آن معنای واقعی دارد و به معنی عدم حضور ویژگی موردمطالعه است (شکل-۳). طول، وزن، حجم، زمان تا تعمیر بعدی مثال‌هایی از ویژگی‌هایی هستند که معمولاً با مقیاس نسبتی اندازه‌گیری می‌شوند. برای اعداد در مقیاس نسبتی، مساوی یا نامساوی، کوچک‌تر و یا بزرگ‌تر بودن و جمع و تفریق، و ضرب و تقسیم معنی دارد.

شکل-3
شکل-۳

 

همه روش‌هایی را که برای داده‌هایی که در مقیاس فاصله‌ای بکار می‌روند، می‌توان برای داده‌ها در مقیاس نسبتی استفاده کرد. ضمناً محاسباتی مانند میانگین هندسی و ضریب تغییرات (Coefficient of Variation) هم برای این نوع داده‌ها در دسترس هستند.

اندازه‌گیری و انواع داده

فرض کنید قطر یک شفت فلزی را اندازه‌گیری کردید. نوع داده به‌دست‌آمده از این اندازه‌گیری چیست؟

ویژگی موردمطالعه قطر شفت است ولی بسته به مقیاس اندازه‌گیری، نوع داده می‌تواند متفاوت باشد. اگر قطر آن را به شکل ۲۵٫۴ میلی‌متر اندازه‌گیری کنید، داده به‌دست‌آمده نسبتی است. اگر انحراف قطر شفت را از قطر مطلوب ۲۵ میلی‌متر معیار قرار دهید، عدد ۰٫۴ میلی‌متر از جنس فاصله‌ای است. اگر قطر شفت را به شکل، قطر بزرگ، قطر متوسط و قطر کوچک گزارش کنید، داده به‌دست‌آمده ترتیبی است. و درنهایت اگر بگویید شفت به گروه شفت استاندارد ۲۵ × ۱۰۰۰ تعلق دارد، داده به شکل اسمی گزارش شده است.

در یک دسته‌بندی کلی بر اساس مقیاس اندازه‌گیری، داده‌ها در دو دسته داده‌های پیوسته (Continuous) و داده‌های رسته‌ای (Categorical) جای می‌گیرند. داده‌های پیوسته (عددی) به دو دسته فاصله‌ای و نسبتی تقسیم می‌شوند. داده‌های رسته‌ای نیز به دو دسته اسمی و ترتیبی تقسیم می‌شوند (شکل-۴).

همان‌طور که گفتم، اهمیت دانستن نوع اعداد در این است که روش‌های تحلیل داده‌های مختلف در آمار و یادگیری ماشین باهم تفاوت دارد. بخصوص تحلیل‌هایی که برای داده‌های رسته‌ای استفاده می‌شود به‌کلی متفاوت از روش‌های تحلیل داده‌های عددی است. پس یکی از مراحل اولیه کار تحلیلگر در مراحل اولیه پروژه‌های داده‌کاوی، شناخت نوع داده‌ها است.

شکل-۴

 

منابع:

Littlejohn, R. (2014), “Introduction to Applied Statistical Methods” – Course Material, University of Colorado, Boulder, USA

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *