
یکی از مفاهیم پایهای که نیاز است کسانی که با داده کار میکنند با آن آشنا باشند مفهوم مقیاسهای اندازهگیری (Measurement Scales) و انواع داده است. علت اهمیت این موضوع در این است که نوع داده به نحوه تحلیل آن جهتگیری میدهد. لزوماً نمیتوان هر روش تحلیل دادهای را برای هر نوع دادهای بکار برد. به همین خاطر من توصیه میکنم در همان مراحل اولیه پروژه دادهکاوی، تحلیلگر مقیاسهای اندازهگیری را در دادههای خود شناسایی کند.
برای ورود به این بحث نیاز است ابتدا با مفهوم اندازهگیری آشنا شویم. اندازهگیری به این معنی است که به ویژگی موردمطالعه عدد یا نمادی تخصیص دهیم. باید توجه کرد لزوماً اندازه یک ویژگی معادل آن ویژگی نیست. برای مثال ممکن است شما میزان رضایت مشتری از مصرف یک محصول را از او پرسش کنید و از او بخواهید بر اساس طیف لیکرت (Likert) رضایت خود را بر اساس اعداد بین ۱ تا ۵ (از خیلی ناراضی یا خیلی راضی) بیان کند. عددی که او اعلام میکند ممکن است بهطور دقیق بیانگر رضایت واقعی او از میزان مصرف آن محصول نباشد. بهعبارتدیگر نحوه اندازهگیری مانع از این شوند که شما دقیق آن ویژگی موردعلاقه را اندازهگیری کنید. درباره این موضوع بهطور مفصل در مقاله “انسان شکارچی در فروشگاه: چرا سنجش دادههای رفتار مصرفکنندگان دشوار است؟” در آنالیکا بحث شده است.
از سمت دیگر ممکن است محقق دیگری، میزان رضایت مشتری از مصرف آن محصول را بر اساس یک طیف دو مقداری (ناراضی/راضی) سنجش کند. بهعبارتدیگر از مقیاس دیگری استفاده کند. این بحث نشان میدهد نحوه تصویر ویژگی موردعلاقه بر روی مقیاس اندازهگیری اهمیت دارد. نحوه تصویرسازی ویژگی موردعلاقه روی اعداد و نمادها سطوح اندازهگیری را نشان میدهد. این سطوح اندازهگیری میتواند اسمی (Nominal)، ترتیبی (Ordinal)، فاصلهای (Interval) و نسبتی (Ratio) باشد.
مقیاس اسمی
در مقیاس اسمی از اعداد و یا نشانهها برای طبقهبندی، شناسایی و اسمگذاری ویژگی موردمطالعه استفاده میشود. در مقیاس اسمی هیچ رابطهای بین شدت و ترتیب اعداد و ویژگی موردمطالعه وجود ندارد. دو مشاهدهای که به یک گروه یا طبقه تعلق دارند مقادیری یکسانی به خود میگیرند. بنابراین در مورد مقیاس اسمی تنها مساوی یا نامساوی بودن معنی دارد.
اعدادی که به کد پستی تخصیص داده میشود (مانند ۱۶۱۱۱)، نشانهای که برای مشخص کردن استان محل اقامت فرد بکار میرود (مانند Teh برای استان تهران)، اعداد ۰ و ۱ که برای مشخص کردن جنسیت زن و مرد بکار میرود، و نشانههایی که برای دلایل خرابی یک دستگاه استفاده میگردد (مانند OpErr برای خطای اپراتور دستگاه) مثالیهایی از کاربرد مقیاس اسمی است.
توجه کنید درباره همه این مثالها عملیات ریاضی مانند جمع و ضرب روی دادهها بیمعنی است و تنها برابری مقادیر معنی دارد. برای چنین دادههایی محاسبه میانگین، میانه، و یا انحراف معیار بیمعنی است. به همین دلیل، معمولاً در بررسیهای اولیه روی چنین دادههایی فراوانی تعداد مشاهدات در هر گروه یا درصد آنها گزارش میشود.
برای بررسی رابطه بین متغیرهایی که با مقیاس اسمی اندازهگیری شدهاند، ضریب همبستگی معنی ندارد. روشهایی مانند تحلیل جدول متقاطع و آزمون کای-دو (Chi-square Test) بکار میروند. در تحلیلهای پیشرفتهتر، برای پیشبینی یک متغیر اسمی، الگوریتمهای دستهبندی (Classification) مانند رگرسیون لجستیک و یا تحلیل تفکیککننده خطی (Linear Discriminant Analysis) در یادگیری ماشین استفاده میشود.
مقیاس ترتیبی
در مقیاس ترتیبی اعداد بهگونهای به مشاهدات تخصیص داده میشوند که منعکسکننده ترتیب در ویژگی موردمطالعه است. دادههای اولویتبندی از جنس دادههای ترتیبی هستند. اگر از مشتری بپرسید که دلایل خرید یک محصول را از بین ۱۰ دلیل، اولویتبندی کند، دادهها در مقیاس ترتیبی اندازهگیری میشوند. سنجش میزان رضایت مشتری از مصرف یک محصول بر اساس طیف لیکرت که در آن رضایت خود را بر اساس اعداد بین ۱ تا ۵ (از خیلی ناراضی یا خیلی راضی) بیان میکند، مثال دیگری از مقیاس ترتیبی است. رده سنی برحسب نوجوان، جوان، میانسال و کهنسال مثال دیگری از اندازهگیری در قالب مقیاس ترتیبی است.
اگر فرض کنیم ما میتوانستیم ویژگی موردمطالعه را با بالاترین دقت ممکن اندازهگیری کنیم و آن را روی محور افقی نشان دهیم، شکل-۱ رابطه بین ویژگی موردمطالعه و مقیاس اندازهگیری ترتیبی را نشان میدهد. همانطور که از شکل مشخص است، وقتی یک مشاهده عدد ۴ به خود میگیرد نسبت به مشاهدهای که عدد ۳ میگیرد، در آن ویژگی مقدار بیشتری دارد. ولی میزان این بیشتر بودن لزوماً متناسب بافاصله ۴ از ۳ نیست. بنابراین برای اعداد در مقیاس ترتیبی مساوی یا نامساوی، کوچکتر و یا بزرگتر بودن معنی دارد ولی اعداد فاقد معنای کمّی و عددی هستند.

برای دادههای ترتیبی ممکن است میانه و مد دادهها بهعنوان شاخصهای مرکزی استفاده گردد. همچنین دامنه و فاصله بین چارکی برای توصیف پراکندگی دادهها استفاده میشود. برای سنجش رابطه بین متغیرهایی که با مقیاس ترتیبی اندازهگیری شدهاند، میتوان از ضریب همبستگی اسپیرمن (Spearman Correlation Coefficient) یا ضریب همبستگی کندال (Kendall’s Tau Correlation Coefficient) استفاده کرد.
در اینجا باید توجه کرد که دادههای ترتیبی بین دادههای اسمی و عددی هستند. به همین خاطر ممکن است بسته به شرایط در برخی موارد با آنان مانند دادههای عددی برخورد کنید و در برخی موارد مانند دادههای اسمی. برای مثال من معمولاً اگر مشغول تحلیل دادههای نظرسنجی باشم که با طیف لیکرت اندازهگیری شده است، دادهها را عدد در نظر میگیرم و محاسبات میانگین، انحراف معیار و ضریب همبستگی پیرسون و آنالیز رگرسیون خطی و مانند آن را روی دادهها انجام میدهم. ولی اگر مثلاً دادهها مربوط به رده سنی (نوجوان، جوان، میانسال و کهنسال) باشند، بیشتر با آنان شبیه دادههای اسمی برخورد میکنم، گرچه همانطور که گفته شد محاسبه میانه و مد، دامنه و فاصله بین چارکی و ضریب همبستگی کندال و اسپیرمن را میتوان برای آنها بکار برد.
مقیاس فاصلهای
در مقیاس فاصلهای اعداد بهگونهای به مشاهدات تخصیص داده میشوند که فاصله بین دو عدد با فاصله بین مقادیر متناظر در ویژگی موردمطالعه متناسب است و فواصل یکسانی در مقیاس اندازهگیری وجود دارد (شکل-۲). در این مقیاس اندازهگیری، صفر یک مقدار قراردادی است و ما به ازای واقعی در ویژگی موردمطالعه ندارد.

یک نمونه استفاده از مقیاس فاصلهای، سنجش دمای هوا برحسب سانتیگراد است. فاصله بین ۵۰ و ۶۰ درجه سانتیگراد معادل فاصله بین ۷۰ و ۸۰ درجه سانتیگراد است. ولی صفر در این مقیاس به معنی نبودن دما نیست، بلکه این صفر صرفاً قرارداد است. نبود صفر مطلق باعث میشود که محاسبه نسبت ناممکن شود. به این معنی که فاصله ۲۰ درجه سانتیگراد از ۱۰ درجه سانتیگراد ۱۰ درجه است، ولی نمیتوان گفت هوای ۲۰ درجه سانتیگراد دو برابر گرمتر از هوای ۱۰ درجه سانتیگراد است. چنانکه اگر اعداد ۲۰ و ۱۰ درجه سانتیگراد را به فارنهایت تبدیل کنید معادل ۶۸ و ۵۰ خواهند شد که کاملاً مشخص است نسبتشان دو نمیشود.
تاریخ تقویمی و شدت صدا برحسب دسیبل مثالهای دیگری از مقیاس فاصلهای هستند.
برای دادههایی که در مقیاس فاصلهای اندازهگیری میشوند، میتوان محاسبه میانگین، میانه، دامنه، انحراف معیار، و ضریب همبستگی پیرسون را انجام داد. برای اعداد در مقیاس فاصلهای، مساوی یا نامساوی، کوچکتر و یا بزرگتر بودن و جمع و تفریق معنی دارد. در تحلیلهای پیشرفتهتر، برای پیشبینی یک متغیر فاصلهای، الگوریتمهای رگرسیون (Regression) در یادگیری ماشین مانند تحلیل رگرسیون خطی استفاده میشود.
مقیاس نسبتی
مقیاس نسبتی همه خصوصیات مقیاس فاصلهای را دارد بهعلاوه اینکه صفر در آن معنای واقعی دارد و به معنی عدم حضور ویژگی موردمطالعه است (شکل-۳). طول، وزن، حجم، زمان تا تعمیر بعدی مثالهایی از ویژگیهایی هستند که معمولاً با مقیاس نسبتی اندازهگیری میشوند. برای اعداد در مقیاس نسبتی، مساوی یا نامساوی، کوچکتر و یا بزرگتر بودن و جمع و تفریق، و ضرب و تقسیم معنی دارد.

همه روشهایی را که برای دادههایی که در مقیاس فاصلهای بکار میروند، میتوان برای دادهها در مقیاس نسبتی استفاده کرد. ضمناً محاسباتی مانند میانگین هندسی و ضریب تغییرات (Coefficient of Variation) هم برای این نوع دادهها در دسترس هستند.
اندازهگیری و انواع داده
فرض کنید قطر یک شفت فلزی را اندازهگیری کردید. نوع داده بهدستآمده از این اندازهگیری چیست؟
ویژگی موردمطالعه قطر شفت است ولی بسته به مقیاس اندازهگیری، نوع داده میتواند متفاوت باشد. اگر قطر آن را به شکل ۲۵٫۴ میلیمتر اندازهگیری کنید، داده بهدستآمده نسبتی است. اگر انحراف قطر شفت را از قطر مطلوب ۲۵ میلیمتر معیار قرار دهید، عدد ۰٫۴ میلیمتر از جنس فاصلهای است. اگر قطر شفت را به شکل، قطر بزرگ، قطر متوسط و قطر کوچک گزارش کنید، داده بهدستآمده ترتیبی است. و درنهایت اگر بگویید شفت به گروه شفت استاندارد ۲۵ × ۱۰۰۰ تعلق دارد، داده به شکل اسمی گزارش شده است.
در یک دستهبندی کلی بر اساس مقیاس اندازهگیری، دادهها در دو دسته دادههای پیوسته (Continuous) و دادههای رستهای (Categorical) جای میگیرند. دادههای پیوسته (عددی) به دو دسته فاصلهای و نسبتی تقسیم میشوند. دادههای رستهای نیز به دو دسته اسمی و ترتیبی تقسیم میشوند (شکل-۴).
همانطور که گفتم، اهمیت دانستن نوع اعداد در این است که روشهای تحلیل دادههای مختلف در آمار و یادگیری ماشین باهم تفاوت دارد. بخصوص تحلیلهایی که برای دادههای رستهای استفاده میشود بهکلی متفاوت از روشهای تحلیل دادههای عددی است. پس یکی از مراحل اولیه کار تحلیلگر در مراحل اولیه پروژههای دادهکاوی، شناخت نوع دادهها است.

منابع:
Littlejohn, R. (2014), “Introduction to Applied Statistical Methods” – Course Material, University of Colorado, Boulder, USA
بسیار مفید بود