مروری بر مفاهیم نمونه‌گیری

مروری بر مفاهیم نمونه‌گیری

ارسطو می‌گوید از نشانه‌های یک ذهن آموزش‌دیده آن است که با درجه‌ای از تقریب که در تناسب با ماهیت موضوع است، راضی می‌شود و به دنبال دقت کامل نیست. اگر شما با دقت ۱۰۰ درصد بخواهید بفهمید که چه درصدی از آجرهای تولیدشده یک کوره آجرپزی، خراب هستند باید همه آن‌ها را آزمایش کنید. ازآنجاکه […]

بررسی نرمال بودن داده‌ها

بررسی نرمال بودن داده‌ها

می‌توان گفت توزیع نرمال (Normal Distribution) یکی از پرکاربردترین توزیع‌های احتمالی در آمار و یادگیری ماشین است. علاوه بر این توزیع نرمال در توصیف خروجی بسیاری از فرآیندهای تصادفی در دنیای واقعی هم بسیار مفید است. در این مقاله بحث می‌کنم چگونه تشخیص دهید یک نمونه داده از جمعیتی با توزیع نرمال آمده است و […]

مقیاس‌های اندازه‌گیری و انواع داده‌

مقیاس‌های اندازه‌گیری و انواع داده‌

یکی از مفاهیم پایه‌ای که نیاز است کسانی که با داده کار می‌کنند با آن آشنا باشند مفهوم مقیاس‌های اندازه‌گیری (Measurement Scales) و انواع داده است. علت اهمیت این موضوع در این است که نوع داده به نحوه تحلیل آن جهت‌گیری می‌دهد. لزوماً نمی‌توان هر روش تحلیل داده‌ای را برای هر نوع داده‌ای بکار برد. […]

آمار درباره چیست و چرا اهمیت دارد؟

آمار درباره چیست و چرا اهمیت دارد؟

آمار هنر و دانش بررسی ایده‌ها، استنتاج کردن و پاسخ دادن به پرسش‌ها مبتنی بر داده است. امروزه هرچه که جلوتر می‌رویم داده‌های بیشتری در اختیار عموم مردم درباره ابعاد مختلف زندگی مانند اقتصاد، کسب‌وکار، سیاست، سلامت و … قرار می‌گیرد. اینکه افراد بتوانند با یک رویکرد نقادانه این داده‌ها را ارزیابی کنند و برای […]

شاخص‌های شکل در آمار

شاخص‌های شکل در آمار

در آمار شاخص‌های شکل (Shape Measures) بازتاب‌دهنده طرح کلی توزیع داده‌ها است. شاخص‌های شکل به‌ویژه برای متغیرهای پیوسته بکار می‌رود. دو شاخص مهم شکل، چولگی (Skewness) و کشیدگی (Kurtosis) هستند. چولگی چولگی میزان متقارن بودن توزیع را می‌سنجد. یک توزیع متقارن مانند توزیع نرمال (Normal Distribution) دارای چولگی صفر است. توزیعی که یک دنباله بلند […]

مقدمه‌ای بر مفاهیم کیفیت داده

مقدمه‌ای بر مفاهیم کیفیت داده

یکی از موضوعاتی که در بسیاری از پروژه‌های داده که تاکنون درگیر آن بودم، برجسته بوده اهمیت کیفیت داده (Data Quality) است. کیفیت داده موضوعی است که شاید در ادبیات حوزه علم داده (Data Science) کمتر به آن پرداخته شده ولی در هنگام اجرای پروژه‌های واقعی داده با آن زیاد مواجه خواهید شد. به‌خصوص اگر […]

نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟

نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟

نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک می‌کند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی می‌کند یا خیر. برای مثال فرض نرمال بودن داده‌ها در بسیاری از آزمون‌های آماری وجود دارد. بنابراین قبل از انجام چنین آزمون‌های آماری نیاز است […]

کدام نمودار برای نمایش داده مناسب است؟

کدام نمودار برای نمایش داده مناسب است؟

نمودارهایی که خوب طراحی شده‌اند به تحلیلگر کمک می‌کنند تا سریع‌تر و بهتر اطلاعات را تحلیل و جمع‌بندی کنند. در سمت دیگر، در مقاله “چگونه ممکن است نمودارها شما را فریب دهند؟” بحث کردم چطور نمودارها ممکن است، موجب خطا در فهم داده‌ها و استنباط از آن شود. یک گام مهم در نمایش داده‌ها آن […]

تحلیل داده‌ها در جدول متقاطع و آزمون کای-دو

تحلیل داده‌ها در جدول متقاطع و آزمون کای-دو

فرض کنید در یک تحقیق مطالعه بازار علاقه‌مند هستیم بدانیم آیا مشتریان هنگام خرید محصولات مواد غذایی به اطلاعات برچسب سلامت (شکل-۱) روی بسته‌بندی توجه می‌کنند یا خیر. ممکن است یک فرضیه محقق در چنین تحقیقی این باشد که جنسیت روی توجه به اطلاعات برچسب سلامت هنگام خرید اثرگذار است؛ احتمالاً زنان هنگام خرید بیشتر […]

چندک (Quantile) در R و پایتون چگونه محاسبه می‌گردد؟

چندک (Quantile) در R و پایتون چگونه محاسبه می‌گردد؟

به زبان ساده چندک (Quantile) یعنی وقتی شما داده‌ها را به بخش‌هایی مساوی تقسیم کنید، برش‌هایی از داده که این قسمت‌های مساوی را از هم جدا می‌کند چندک نامیده می‌شود. یکی از معروف‌ترین چندک‌ها میانه (Median) است. میانه یک شاخص مرکزی است. اگر داده‌ها به ترتیب از کوچک‌تر به بزرگ‌تر مرتب شوند، نیمی از آن‌ها […]

آموزش نرم‌افزار R برای علوم داده: رسم نمودار

آموزش نرم‌افزار R برای علوم داده: رسم نمودار

یکی از قابلیت‌های برجسته نرم‌افزار R این است که امکانات متنوعی را برای نمایش داده‌ها داراست. در این مقاله من به روش‌های پایه‌ای برای رسم نمودار اشاره می‌کنم که در دنیای کسب‌وکار بیشتر استفاده می‌شوند. در این مقاله صرفاً به توابع داخلی R برای نمایش داده می‌پردازم. خواننده باید بداند برای رسم نمودارهای پیشرفته‌تر بسته‌هایی […]

آموزش نرم‌افزار R برای علوم داده: توابع

آموزش نرم‌افزار R برای علوم داده: توابع

بیشتر کارهایی که در نرم‌افزار R انجام می‌دهیم، توسط توابع صورت می‌گیرد. تاکنون من از توابعی که به‌صورت پیش‌فرض در R تعریف‌شده‌اند، استفاده کردم. ولی این امکان وجود دارد که شما توابع موردنظرتان را ایجاد کنید. نوشتن توابع آغاز راهی است که شما را از استفاده‌کننده صرف از R به توسعه‌دهنده تبدیل می‌کند. توابع معمولاً […]

آموزش نرم‌افزار R برای علوم داده: عبارات شرطی و حلقه‌ها

آموزش نرم‌افزار R برای علوم داده: عبارات شرطی و حلقه‌ها

ساختارهای کنترلی (Control Structures) در نرم‌افزار R به شما اجازه می‌دهد تا نحوه اجرای عبارات نوشته‌شده را پایش کنید. به‌این‌ترتیب با قرار دادن عبارات منطقی، بسته به این‌که ورودی‌ها چگونه باشد، دستورات متفاوتی اجرا می‌شود. ساختارهای کنترلی عمده در R به شرح زیر است: دستور if  و else: بررسی یک شرط و عمل بر اساس […]

نکاتی پیرامون تحلیل داده‌های مالی و اقتصادی

نکاتی پیرامون تحلیل داده‌های مالی و اقتصادی

در مدیریت کسب‌وکار بسیار پیش می‌آید که مدیران باید اطلاعات و داده‌های مالی و اقتصادی را تحلیل کنند. همین‌طور کسانی که در سطوح کارشناسی بر روی مدل‌سازی‌های ریاضی در حوزه علوم اقتصادی و مدیریت کار می‌کنند، معمولاً با داده‌های مالی و اقتصادی سروکار دارند. من در این مقاله به نکات مهمی اشاره می‌کنم که هنگام […]

چگونه ممکن است نمودارها شما را فریب دهند؟

چگونه ممکن است نمودارها شما را فریب دهند؟

نمایش گرافیکی داده‌ها در قالب نمودار یکی از ابزارهای مؤثر برای فهم اطلاعات و رسیدن به شهود برای تصمیم‌گیری در فضای کسب‌وکار است. مدیران با نگاه کردن به نمودارها می‌توانند به‌سرعت فهم خوبی از داده‌ها به دست آورند و آن را مبنای تصمیم‌گیری خود قرار دهند. ازاین‌رو نمودارها بسیار موردعلاقه مدیران هستند. ولی نمودارها به […]

آموزش نرم‌افزار R برای علوم داده: خواندن و نوشتن داده‌ها

آموزش نرم‌افزار R برای علوم داده: خواندن و نوشتن داده‌ها

در این مقاله من عمدتاً به روش‌های مختلف برای خواندن و نوشتن داده‌ها توسط نرم‌افزار R می‌پردازم. علاوه بر این در مورد نحوه شناسایی مقادیر گمشده (Missing Values) و همچنین نصب بسته (Package) از کتابخانه R بحث می‌کنم. رویکرد من در آموزش برنامه‌نویسی R بیشتر مبتنی بر استفاده از مثال است تا خواننده با اجرای […]

چگونه رابطه علّی را تشخیص دهیم؟

چگونه رابطه علّی را تشخیص دهیم؟

در تصمیم‌گیری‌های کسب‌وکار بسیار اهمیت دارد که مدیران بتوانند رابطه علّی را درست تشخیص دهند. می‌توان گفت در بیشتر موارد مدیریت یعنی ایجاد تغییر در چیزهایی که تحت کنترل است به‌منظور آن‌که روی چیزهای دیگری که تحت کنترل نیست، اثر گذاشت تا به نتیجه دلخواه رسید. برای مثال یک مدیر بودجه تبلیغات سازمان خود را […]

پارادوکس سیمپسون: وقتی واقعیت‌ها، همه واقعیت نیستند

پارادوکس سیمپسون: وقتی واقعیت‌ها، همه واقعیت نیستند

بر اساس اطلاعاتی که اخیراً مرکز آمار ایران منتشر کرده نرخ بیکاری جوانان (طبق تعریف ۱۵ تا ۲۴ ساله) در سال ۱۳۹۶ برای جمعیت شهری ۳۱٫۹ درصد و برای جمعیت روستایی ۲۰٫۷ درصد بوده است. این در حالی است که نرخ بیکاری جوانان در سال ۱۳۸۱ برای جمعیت شهری ۳۳٫۷ درصد و برای جمعیت روستایی […]

آموزش نرم‌افزار R برای علوم داده: مباحث مقدماتی

آموزش نرم‌افزار R برای علوم داده: مباحث مقدماتی

در این مقاله به موضوعات مقدماتی شامل نحوه تخصیص یک متغیر، کار با بردارها، ماتریس‌ها و قالب‌های داده و همچنین توابع پایه‌ای و پرکاربرد ریاضی و آماری می‌پردازم. رویکرد من در آموزش برنامه‌نویسی R بیشتر مبتنی بر استفاده از مثال است تا خواننده با اجرای کدها بتواند این زبان را یاد بگیرد. اگر R را […]

آشنایی با نرم‌افزار R

آشنایی با نرم‌افزار R

R (به فارسی “آر” تلفظ می‌شود) یک زبان برنامه‌نویسی و محیط نرم‌افزاری رایگان است که برای محاسبات آماری و نمایش گرافیکی داده‌ها استفاده می‌شود. کسانی که در حوزه داده‌کاوی (Data Mining)، ماشین‌های یادگیرنده (Machine Learning) و روش‌های تحلیلی کسب‌وکار (Business Analytics) فعال هستند از این نرم‌افزار برای تحلیل‌ داده بهره می‌برند. هرچه می‌گذارد، R بیشتر به […]