چگونه می‌توان یک کد R را به‌صورت خودکار در محیط ویندوز اجرا کرد؟

چگونه می‌توان یک کد R را به‌صورت خودکار در محیط ویندوز اجرا کرد؟

  در این مقاله به این می‌پردازم که چگونه می‌توانید یک کد در R را به‌صورت خودکار در سیستم‌عامل ویندوز (Windows) اجرا کنید. در این مثال ساده هدف من آن است کدی ایجاد کنم که هر پنج دقیقه یک‌بار به مدت ۱۵ دقیقه یک عدد تصادفی از توزیع نرمال تولید و به همراه زمان تولید […]

مروری بر تبدیل Box-Cox و کاربردهای آن

مروری بر تبدیل Box-Cox و کاربردهای آن

بسیاری از تحلیل‌های آماری و پاره‌ای از الگوریتم‌های یادگیری ماشین مبتنی بر این فرض است که نمونه از جامعه‌ای با توزیع نرمال (Normal Distribution) به دست آمده و ساختار خطا جمعی است (Additive Error Structure). جمعی بودن ساختار خطا به این معنی است که خطا تنها به مقدار واقعی اضافه می‌شود و خودش وابسته به […]

توزیع نمونه‌گیری (Sampling Distribution)

توزیع نمونه‌گیری (Sampling Distribution)

  در مقاله تابع توزیع احتمال شرح دادم چگونه تابع توزیع، متغیر تصادفی و نحوه توزیع هر یک از مقادیر آن را تبیین می‌کند. توزیع نمونه‌گیری درباره توزیع هر یک از مقادیر متغیر تصادفی نیست بلکه توزیع آماره (Statistics) یک نمونه با اندازه مشخص را نشان می‌دهد. در این مقاله به‌صورت شهودی مفهوم توزیع نمونه‌گیری […]

تابع توزیع احتمال (Probability Distribution Function)

تابع توزیع احتمال (Probability Distribution Function)

  تابع توزیع احتمال نشان‌دهنده احتمال هر یک از مقادیر متغیر تصادفی (برای متغیرهای گسسته) یا احتمال قرار گرفتن متغیر تصادفی در یک بازه مشخص (برای متغیرهای پیوسته) است. در این مقاله سعی دارم به زبان ساده مفهوم تابع توزیع احتمال و تابع توزیع احتمال تجمعی را توضیح دهم. تصور کنید به‌صورت تصادفی ۱۰۰ فرد […]

مروری بر مفاهیم نمونه‌گیری

مروری بر مفاهیم نمونه‌گیری

  ارسطو می‌گوید از نشانه‌های یک ذهن آموزش‌دیده آن است که با درجه‌ای از تقریب که در تناسب با ماهیت موضوع است، راضی می‌شود و به دنبال دقت کامل نیست. اگر شما با دقت ۱۰۰ درصد بخواهید بفهمید که چه درصدی از آجرهای تولیدشده یک کوره آجرپزی، خراب هستند باید همه آن‌ها را آزمایش کنید. […]

بررسی نرمال بودن داده‌ها

بررسی نرمال بودن داده‌ها

می‌توان گفت توزیع نرمال (Normal Distribution) یکی از پرکاربردترین توزیع‌های احتمالی در آمار و یادگیری ماشین است. علاوه بر این توزیع نرمال در توصیف خروجی بسیاری از فرآیندهای تصادفی در دنیای واقعی هم بسیار مفید است. در این مقاله بحث می‌کنم چگونه تشخیص دهید یک نمونه داده از جمعیتی با توزیع نرمال آمده است و […]

شاخص‌های شکل در آمار

شاخص‌های شکل در آمار

  در آمار شاخص‌های شکل (Shape Measures) بازتاب‌دهنده طرح کلی توزیع داده‌ها است. شاخص‌های شکل به‌ویژه برای متغیرهای پیوسته بکار می‌رود. دو شاخص مهم شکل، چولگی (Skewness) و کشیدگی (Kurtosis) هستند.   چولگی چولگی میزان متقارن بودن توزیع را می‌سنجد. یک توزیع متقارن مانند توزیع نرمال (Normal Distribution) دارای چولگی صفر است. توزیعی که یک […]

نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟

نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟

نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک می‌کند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی می‌کند یا خیر. برای مثال فرض نرمال بودن داده‌ها در بسیاری از آزمون‌های آماری وجود دارد. بنابراین قبل از انجام چنین آزمون‌های آماری نیاز است […]

تحلیل داده‌ها در جدول متقاطع و آزمون کای-دو

تحلیل داده‌ها در جدول متقاطع و آزمون کای-دو

  فرض کنید در یک تحقیق مطالعه بازار علاقه‌مند هستیم بدانیم آیا مشتریان هنگام خرید محصولات مواد غذایی به اطلاعات برچسب سلامت (شکل-۱) روی بسته‌بندی توجه می‌کنند یا خیر. ممکن است یک فرضیه محقق در چنین تحقیقی این باشد که جنسیت روی توجه به اطلاعات برچسب سلامت هنگام خرید اثرگذار است؛ احتمالاً زنان هنگام خرید […]

چندک (Quantile) در R و پایتون چگونه محاسبه می‌گردد؟

چندک (Quantile) در R و پایتون چگونه محاسبه می‌گردد؟

به زبان ساده چندک (Quantile) یعنی وقتی شما داده‌ها را به بخش‌هایی مساوی تقسیم کنید، برش‌هایی از داده که این قسمت‌های مساوی را از هم جدا می‌کند چندک نامیده می‌شود. یکی از معروف‌ترین چندک‌ها میانه (Median) است. میانه یک شاخص مرکزی است. اگر داده‌ها به ترتیب از کوچک‌تر به بزرگ‌تر مرتب شوند، نیمی از آن‌ها […]

آموزش زبان R برای علوم داده: رسم نمودار

آموزش زبان R برای علوم داده: رسم نمودار

یکی از قابلیت‌های برجسته زبان R این است که امکانات متنوعی را برای نمایش داده‌ها داراست. در این مقاله من به روش‌های پایه‌ای برای رسم نمودار اشاره می‌کنم که در دنیای کسب‌وکار بیشتر استفاده می‌شوند. در این مقاله صرفاً به توابع داخلی R برای نمایش داده می‌پردازم. خواننده باید بداند برای رسم نمودارهای پیشرفته‌تر بسته‌هایی […]

آموزش زبان R برای علوم داده: توابع

آموزش زبان R برای علوم داده: توابع

بیشتر کارهایی که در زبان R انجام می‌دهیم، توسط توابع صورت می‌گیرد. تاکنون من از توابعی که به‌صورت پیش‌فرض در R تعریف‌شده‌اند، استفاده کردم. ولی این امکان وجود دارد که شما توابع موردنظرتان را ایجاد کنید. نوشتن توابع آغاز راهی است که شما را از استفاده‌کننده صرف از R به توسعه‌دهنده تبدیل می‌کند. توابع معمولاً […]

آموزش زبان R برای علوم داده: عبارات شرطی و حلقه‌ها

آموزش زبان R برای علوم داده: عبارات شرطی و حلقه‌ها

ساختارهای کنترلی (Control Structures) در زبان R به شما اجازه می‌دهد تا نحوه اجرای عبارات نوشته‌شده را پایش کنید. به‌این‌ترتیب با قرار دادن عبارات منطقی، بسته به این‌که ورودی‌ها چگونه باشد، دستورات متفاوتی اجرا می‌شود. ساختارهای کنترلی عمده در زبان R به شرح زیر است: دستور if  و else: بررسی یک شرط و عمل بر […]

آموزش زبان R برای علوم داده: خواندن و نوشتن داده‌ها

آموزش زبان R برای علوم داده: خواندن و نوشتن داده‌ها

در این مقاله من عمدتاً به روش‌های مختلف برای خواندن و نوشتن داده‌ها در زبان R می‌پردازم. علاوه بر این در مورد نحوه شناسایی مقادیر گمشده (Missing Values) و همچنین نصب بسته (Package) از کتابخانه R بحث می‌کنم. رویکرد من در آموزش زبان برنامه‌نویسی R بیشتر مبتنی بر استفاده از مثال است تا خواننده با […]

رمزنگاری چیست؟ مقدمه‌ای بر مفاهیم رمزنگاری

رمزنگاری چیست؟ مقدمه‌ای بر مفاهیم رمزنگاری

  امروزه رمزنگاری (Cryptography) در قلب ارتباطات مبتنی بر اینترنت، تجارت الکترونیک (E-commerce)، پرداخت‌های بانکی و محصولات  مبتنی بر فن‌آوری زنجیره بلوک (Blockchain) مانند بیت‌کوین (Bitcoin) قرار دارد. به همین دلیل مدیران لازم دارند تا برای فهم دقیق این فن‌آوری‌ها با مفاهیم اولیه رمزنگاری آشنا باشند. در این مقاله من به‌ مرور تاریخچه رمزنگاری و […]

آموزش زبان R برای علوم داده: مباحث مقدماتی

آموزش زبان R برای علوم داده: مباحث مقدماتی

در این مقاله به موضوعات مقدماتی شامل نحوه تخصیص یک متغیر، کار با بردارها، ماتریس‌ها و قالب‌های داده و همچنین توابع پایه‌ای و پرکاربرد ریاضی و آماری می‌پردازم. رویکرد من در آموزش زبان برنامه‌نویسی R بیشتر مبتنی بر استفاده از مثال است تا خواننده با اجرای کدها بتواند این زبان را یاد بگیرد. اگر R […]

آشنایی با زبان R

آشنایی با زبان R

R (به فارسی “آر” تلفظ می‌شود) یک زبان برنامه‌نویسی و محیط نرم‌افزاری رایگان است که برای محاسبات آماری و نمایش گرافیکی داده‌ها استفاده می‌شود. کسانی که در حوزه داده‌کاوی (Data Mining)، ماشین‌های یادگیرنده (Machine Learning) و روش‌های تحلیلی کسب‌وکار (Business Analytics) فعال هستند از این نرم‌افزار برای تحلیل‌ داده بهره می‌برند. هرچه می‌گذارد، R بیشتر به […]

شاخص‌های پراکندگی در آمار

شاخص‌های پراکندگی در آمار

  اگرچه میانگین و سایر شاخص‌های مرکزی کمک می‌کنند تا مرکز داده‌ها را در جامعه یا نمونه آماری تشخیص دهیم، تنها اکتفا کردن به این شاخص‌ها می‌تواند تصویر نادرستی از مسئله پیش روی ما بگذارد. در بسیاری موارد فهمیدن این‌که داده‌ها چگونه حول میانگین پراکنده شده‌اند اهمیت پیدا می‌کند. اگر می‌خواهید بدانید در چه زمانی […]

شاخص‌های مرکزی در آمار

شاخص‌های مرکزی در آمار

در این مقاله توضیح می‌دهم که اگر بخواهیم داده‌های موجود در جامعه آماری و یا نمونه را تنها با یک عدد نشان دهیم از چه شاخص‌هایی می‌توانیم استفاده کنیم. هدف استفاده از چنین شاخص‌هایی این است که اطلاعاتی را که در مجموعه داده‌ها وجود دارد در یک مقدار عددی خلاصه کند. شاخص‌هایی مانند میانگین (Mean)، […]

چرا درک واریانس اهمیت دارد؟

چرا درک واریانس اهمیت دارد؟

  نیکولو ماکیاولی (Niccolò Machiavelli) سیاستمدار و فیلسوف ایتالیایی دوران رنسانس در کتاب خود شهریار (The Prince) خطاب به شاهزادگان (مدیران دوران رنسانس) توصیه می‌کند وقتی مشکلی در مملکتتان رخ می‌دهد، بخصوص آن‌هایی که ممکن است شما را به‌شدت وحشت‌زده کند، بلافاصله واکنش نشان ندهید، بهترین سیاست این است که در تصمیم‌گیری خود تأخیر بیندازید. […]