در این مقاله به این میپردازم که چگونه میتوانید یک کد در R را بهصورت خودکار در سیستمعامل ویندوز (Windows) اجرا کنید. در این مثال ساده هدف من آن است کدی ایجاد کنم که هر پنج دقیقه یکبار به مدت ۱۵ دقیقه یک عدد تصادفی از توزیع نرمال تولید و به همراه زمان تولید […]
R
مروری بر تبدیل Box-Cox و کاربردهای آن
بسیاری از تحلیلهای آماری و پارهای از الگوریتمهای یادگیری ماشین مبتنی بر این فرض است که نمونه از جامعهای با توزیع نرمال (Normal Distribution) به دست آمده و ساختار خطا جمعی است (Additive Error Structure). جمعی بودن ساختار خطا به این معنی است که خطا تنها به مقدار واقعی اضافه میشود و خودش وابسته به […]
توزیع نمونهگیری (Sampling Distribution)
در مقاله تابع توزیع احتمال شرح دادم چگونه تابع توزیع، متغیر تصادفی و نحوه توزیع هر یک از مقادیر آن را تبیین میکند. توزیع نمونهگیری درباره توزیع هر یک از مقادیر متغیر تصادفی نیست بلکه توزیع آماره (Statistics) یک نمونه با اندازه مشخص را نشان میدهد. در این مقاله بهصورت شهودی مفهوم توزیع نمونهگیری […]
تابع توزیع احتمال (Probability Distribution Function)
تابع توزیع احتمال نشاندهنده احتمال هر یک از مقادیر متغیر تصادفی (برای متغیرهای گسسته) یا احتمال قرار گرفتن متغیر تصادفی در یک بازه مشخص (برای متغیرهای پیوسته) است. در این مقاله سعی دارم به زبان ساده مفهوم تابع توزیع احتمال و تابع توزیع احتمال تجمعی را توضیح دهم. تصور کنید بهصورت تصادفی ۱۰۰ فرد […]
مروری بر مفاهیم نمونهگیری
ارسطو میگوید از نشانههای یک ذهن آموزشدیده آن است که با درجهای از تقریب که در تناسب با ماهیت موضوع است، راضی میشود و به دنبال دقت کامل نیست. اگر شما با دقت ۱۰۰ درصد بخواهید بفهمید که چه درصدی از آجرهای تولیدشده یک کوره آجرپزی، خراب هستند باید همه آنها را آزمایش کنید. […]
بررسی نرمال بودن دادهها
میتوان گفت توزیع نرمال (Normal Distribution) یکی از پرکاربردترین توزیعهای احتمالی در آمار و یادگیری ماشین است. علاوه بر این توزیع نرمال در توصیف خروجی بسیاری از فرآیندهای تصادفی در دنیای واقعی هم بسیار مفید است. در این مقاله بحث میکنم چگونه تشخیص دهید یک نمونه داده از جمعیتی با توزیع نرمال آمده است و […]
شاخصهای شکل در آمار
در آمار شاخصهای شکل (Shape Measures) بازتابدهنده طرح کلی توزیع دادهها است. شاخصهای شکل بهویژه برای متغیرهای پیوسته بکار میرود. دو شاخص مهم شکل، چولگی (Skewness) و کشیدگی (Kurtosis) هستند. چولگی چولگی میزان متقارن بودن توزیع را میسنجد. یک توزیع متقارن مانند توزیع نرمال (Normal Distribution) دارای چولگی صفر است. توزیعی که یک […]
نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟
نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک میکند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی میکند یا خیر. برای مثال فرض نرمال بودن دادهها در بسیاری از آزمونهای آماری وجود دارد. بنابراین قبل از انجام چنین آزمونهای آماری نیاز است […]
تحلیل دادهها در جدول متقاطع و آزمون کای-دو
فرض کنید در یک تحقیق مطالعه بازار علاقهمند هستیم بدانیم آیا مشتریان هنگام خرید محصولات مواد غذایی به اطلاعات برچسب سلامت (شکل-۱) روی بستهبندی توجه میکنند یا خیر. ممکن است یک فرضیه محقق در چنین تحقیقی این باشد که جنسیت روی توجه به اطلاعات برچسب سلامت هنگام خرید اثرگذار است؛ احتمالاً زنان هنگام خرید […]
چندک (Quantile) در R و پایتون چگونه محاسبه میگردد؟
به زبان ساده چندک (Quantile) یعنی وقتی شما دادهها را به بخشهایی مساوی تقسیم کنید، برشهایی از داده که این قسمتهای مساوی را از هم جدا میکند چندک نامیده میشود. یکی از معروفترین چندکها میانه (Median) است. میانه یک شاخص مرکزی است. اگر دادهها به ترتیب از کوچکتر به بزرگتر مرتب شوند، نیمی از آنها […]
آموزش زبان R برای علوم داده: رسم نمودار
یکی از قابلیتهای برجسته زبان R این است که امکانات متنوعی را برای نمایش دادهها داراست. در این مقاله من به روشهای پایهای برای رسم نمودار اشاره میکنم که در دنیای کسبوکار بیشتر استفاده میشوند. در این مقاله صرفاً به توابع داخلی R برای نمایش داده میپردازم. خواننده باید بداند برای رسم نمودارهای پیشرفتهتر بستههایی […]
آموزش زبان R برای علوم داده: توابع
بیشتر کارهایی که در زبان R انجام میدهیم، توسط توابع صورت میگیرد. تاکنون من از توابعی که بهصورت پیشفرض در R تعریفشدهاند، استفاده کردم. ولی این امکان وجود دارد که شما توابع موردنظرتان را ایجاد کنید. نوشتن توابع آغاز راهی است که شما را از استفادهکننده صرف از R به توسعهدهنده تبدیل میکند. توابع معمولاً […]
آموزش زبان R برای علوم داده: عبارات شرطی و حلقهها
ساختارهای کنترلی (Control Structures) در زبان R به شما اجازه میدهد تا نحوه اجرای عبارات نوشتهشده را پایش کنید. بهاینترتیب با قرار دادن عبارات منطقی، بسته به اینکه ورودیها چگونه باشد، دستورات متفاوتی اجرا میشود. ساختارهای کنترلی عمده در زبان R به شرح زیر است: دستور if و else: بررسی یک شرط و عمل بر […]
آموزش زبان R برای علوم داده: خواندن و نوشتن دادهها
در این مقاله من عمدتاً به روشهای مختلف برای خواندن و نوشتن دادهها در زبان R میپردازم. علاوه بر این در مورد نحوه شناسایی مقادیر گمشده (Missing Values) و همچنین نصب بسته (Package) از کتابخانه R بحث میکنم. رویکرد من در آموزش زبان برنامهنویسی R بیشتر مبتنی بر استفاده از مثال است تا خواننده با […]
رمزنگاری چیست؟ مقدمهای بر مفاهیم رمزنگاری
امروزه رمزنگاری (Cryptography) در قلب ارتباطات مبتنی بر اینترنت، تجارت الکترونیک (E-commerce)، پرداختهای بانکی و محصولات مبتنی بر فنآوری زنجیره بلوک (Blockchain) مانند بیتکوین (Bitcoin) قرار دارد. به همین دلیل مدیران لازم دارند تا برای فهم دقیق این فنآوریها با مفاهیم اولیه رمزنگاری آشنا باشند. در این مقاله من به مرور تاریخچه رمزنگاری و […]
آموزش زبان R برای علوم داده: مباحث مقدماتی
در این مقاله به موضوعات مقدماتی شامل نحوه تخصیص یک متغیر، کار با بردارها، ماتریسها و قالبهای داده و همچنین توابع پایهای و پرکاربرد ریاضی و آماری میپردازم. رویکرد من در آموزش زبان برنامهنویسی R بیشتر مبتنی بر استفاده از مثال است تا خواننده با اجرای کدها بتواند این زبان را یاد بگیرد. اگر R […]
آشنایی با زبان R
R (به فارسی “آر” تلفظ میشود) یک زبان برنامهنویسی و محیط نرمافزاری رایگان است که برای محاسبات آماری و نمایش گرافیکی دادهها استفاده میشود. کسانی که در حوزه دادهکاوی (Data Mining)، ماشینهای یادگیرنده (Machine Learning) و روشهای تحلیلی کسبوکار (Business Analytics) فعال هستند از این نرمافزار برای تحلیل داده بهره میبرند. هرچه میگذارد، R بیشتر به […]
شاخصهای پراکندگی در آمار
اگرچه میانگین و سایر شاخصهای مرکزی کمک میکنند تا مرکز دادهها را در جامعه یا نمونه آماری تشخیص دهیم، تنها اکتفا کردن به این شاخصها میتواند تصویر نادرستی از مسئله پیش روی ما بگذارد. در بسیاری موارد فهمیدن اینکه دادهها چگونه حول میانگین پراکنده شدهاند اهمیت پیدا میکند. اگر میخواهید بدانید در چه زمانی […]
شاخصهای مرکزی در آمار
در این مقاله توضیح میدهم که اگر بخواهیم دادههای موجود در جامعه آماری و یا نمونه را تنها با یک عدد نشان دهیم از چه شاخصهایی میتوانیم استفاده کنیم. هدف استفاده از چنین شاخصهایی این است که اطلاعاتی را که در مجموعه دادهها وجود دارد در یک مقدار عددی خلاصه کند. شاخصهایی مانند میانگین (Mean)، […]
چرا درک واریانس اهمیت دارد؟
نیکولو ماکیاولی (Niccolò Machiavelli) سیاستمدار و فیلسوف ایتالیایی دوران رنسانس در کتاب خود شهریار (The Prince) خطاب به شاهزادگان (مدیران دوران رنسانس) توصیه میکند وقتی مشکلی در مملکتتان رخ میدهد، بخصوص آنهایی که ممکن است شما را بهشدت وحشتزده کند، بلافاصله واکنش نشان ندهید، بهترین سیاست این است که در تصمیمگیری خود تأخیر بیندازید. […]