امروزه با گسترش اپلیکیشنهایی که اطلاعات مکانی کاربران را ذخیره میکنند، بسیاری از کسبوکارها به دادههای مکانی مشتریان نیز دسترسی پیدا کردند. به نمایش درآوردن دادههای مکانی، میتواند گام اول در بهرهگیری از این دادهها باشد. خوشبختانه امکانات خوبی در R و پایتون برای نمایش دادههای مکانی وجود دارد. در R کتابخانه Leaflet و […]
تحلیل داده
چگونه میتوان یک کد R را بهصورت خودکار در محیط ویندوز اجرا کرد؟
در این مقاله به این میپردازم که چگونه میتوانید یک کد در R را بهصورت خودکار در سیستمعامل ویندوز (Windows) اجرا کنید. در این مثال ساده هدف من آن است کدی ایجاد کنم که هر پنج دقیقه یکبار به مدت ۱۵ دقیقه یک عدد تصادفی از توزیع نرمال تولید و به همراه زمان تولید […]
کتابخانه Numpy در پایتون برای علوم داده
کتابخانه Numpy در پایتون، ابزارهای قدرتمندی برای محاسبات عددی مبتنی بر ماتریسها و آرایههای چندبعدی در اختیار قرار میدهد. اسم این کتابخانه، Numpy، از مخفف عبارت Numerical Python میآید. این کتابخانه ابزارهای زیادی شامل انواع توابع ریاضی، توابع توزیع آماری، ابزارهای موردنیاز برای محاسبات جبر خطی و تبدیل فوریه (Fourier Transformations) و … را […]
مدل ICE برای اولویتبندی پروژههای داده
ازآنجاکه حوزه علم داده (Data Science) یک حوزه کاربردی جدید محسوب میشود، اجرای پروژههای داده معمولاً با عدم قطعیتهای زیادی همراه است. یکی از شرایطی که ممکن است تیمهای داده با آن مواجه شوند، وجود ایدههای مختلف در داخل شرکت برای پیادهسازی است. برای مثال، تیم عملیات پیشنهاد میدهد یک مدل ریاضی برای پیشبینی […]
ساختار شکست کار (WBS) و کاربرد آن در پروژههای داده چیست؟
ساختار شکست کار (Work Breakdown Structure – WBS) به شما کمک میکند تا ابعاد (Scope) فعالیتهای پروژه از طریق دستهبندی و ساختاردهی آنها مشخص شود. این رویکرد ضمن آنکه یک ساختار برای مدیریت پروژه در اختیار میدهد، کمک میکند جنبههای فنی و حل مسئله پروژه روشن شود. ساختار شکست کار سه مزیت عمده دارد: پروژه […]
ماتریس واگذاری مسئولیت (RACI) و اهمیت آن در پروژههای داده چیست؟
بسیاری از پروژههای داده پیچیده هستند و نیاز است تا افراد از تیمهای مختلف یک سازمان در کنار هم قرار گیرند تا پروژه به موفقیت برسد. مطالعات نشان میدهد از عوامل مهم شکست پروژههای داده درگیر نبودن تمامی ذینفعان، عدم تعهد مدیران میانی و نبود فهم درست از مسائل کسبوکار است. بسیار پیش میآید […]
مروری بر تبدیل Box-Cox و کاربردهای آن
بسیاری از تحلیلهای آماری و پارهای از الگوریتمهای یادگیری ماشین مبتنی بر این فرض است که نمونه از جامعهای با توزیع نرمال (Normal Distribution) به دست آمده و ساختار خطا جمعی است (Additive Error Structure). جمعی بودن ساختار خطا به این معنی است که خطا تنها به مقدار واقعی اضافه میشود و خودش وابسته به […]
توزیع نمونهگیری (Sampling Distribution)
در مقاله تابع توزیع احتمال شرح دادم چگونه تابع توزیع، متغیر تصادفی و نحوه توزیع هر یک از مقادیر آن را تبیین میکند. توزیع نمونهگیری درباره توزیع هر یک از مقادیر متغیر تصادفی نیست بلکه توزیع آماره (Statistics) یک نمونه با اندازه مشخص را نشان میدهد. در این مقاله بهصورت شهودی مفهوم توزیع نمونهگیری […]
تابع توزیع احتمال (Probability Distribution Function)
تابع توزیع احتمال نشاندهنده احتمال هر یک از مقادیر متغیر تصادفی (برای متغیرهای گسسته) یا احتمال قرار گرفتن متغیر تصادفی در یک بازه مشخص (برای متغیرهای پیوسته) است. در این مقاله سعی دارم به زبان ساده مفهوم تابع توزیع احتمال و تابع توزیع احتمال تجمعی را توضیح دهم. تصور کنید بهصورت تصادفی ۱۰۰ فرد […]
قضیه بیز (Bayes Theorem) و دلالتهای آن در عمل چیست؟
تصور کنید روزی از خواب بلند میشوید و احساس کسالت میکنید. به پزشک میروید و او از شما آزمایشهای مختلفی میگیرد. مشخص میشود نتیجه آزمایش شما برای یک بیماری نادر مثبت شده است. بیماری نادری که احتمال مبتلا شدن به آن، ۱ در هر ۱۰۰ هزار نفر است. بیماری که بسیار بد است و […]
احتمال شرطی؛ برداشتها و سوءبرداشتها
یکی از حوزههایی در احتمال که بهراحتی افراد را گیج میکند و منجر به استدلالهای خطا میشود، احتمال شرطی (Conditional Probability) است. احتمال شرطی، احتمال وقوع رخدادی مانند است بهشرط آنکه بدانیم رخدادی مانند اتفاق افتاده است. در ریاضی آن را با نشان میدهند. فرض کنید یک مطالعه ادعا میکند ۸۵ درصد بیماران سرطانی […]
مروری بر مفاهیم احتمال به زبان ساده
برتراند راسل (Bertrand Russell) میگوید “احتمال مهمترین مفهوم در علم مدرن است، بخصوص که هیچکس کوچکترین ایدهای ندارد که چه معنی میدهد.” بسیاری از ما در دوران مدرسه و دانشگاه با مفهوم احتمال از طریق آزمایشهای فکری (Thought Experiment) مانند پرتاب سکه و یا پرتاب طاس آشنا شدهایم. گرچه این مثالهای ساده به درک […]
چگونه میتوان پایتون را در خط فرمان ویندوز (CMD) اجرا کرد؟
پایتون (Python) یکی از زبانهای پرکاربرد برنامهنویسی برای کاربردهای علم داده (Data Science) است. برای پایتون محیطهای توسعه (Integrated Development Environment) متنوعی وجود دارد. خیلی از کسانی که از پایتون برای تحلیل داده استفاده میکنند ممکن است از محیطهای توسعهای نظیر Jupyter Notebook ،Spyder و یا PyCharm استفاده کنند. یکی دیگر از راههای اجرای […]
مروری بر مفاهیم نمونهگیری
ارسطو میگوید از نشانههای یک ذهن آموزشدیده آن است که با درجهای از تقریب که در تناسب با ماهیت موضوع است، راضی میشود و به دنبال دقت کامل نیست. اگر شما با دقت ۱۰۰ درصد بخواهید بفهمید که چه درصدی از آجرهای تولیدشده یک کوره آجرپزی، خراب هستند باید همه آنها را آزمایش کنید. […]
بررسی نرمال بودن دادهها
میتوان گفت توزیع نرمال (Normal Distribution) یکی از پرکاربردترین توزیعهای احتمالی در آمار و یادگیری ماشین است. علاوه بر این توزیع نرمال در توصیف خروجی بسیاری از فرآیندهای تصادفی در دنیای واقعی هم بسیار مفید است. در این مقاله بحث میکنم چگونه تشخیص دهید یک نمونه داده از جمعیتی با توزیع نرمال آمده است و […]
مقیاسهای اندازهگیری و انواع داده
یکی از مفاهیم پایهای که نیاز است کسانی که با داده کار میکنند با آن آشنا باشند مفهوم مقیاسهای اندازهگیری (Measurement Scales) و انواع داده است. علت اهمیت این موضوع در این است که نوع داده به نحوه تحلیل آن جهتگیری میدهد. لزوماً نمیتوان هر روش تحلیل دادهای را برای هر نوع دادهای بکار […]
آمار درباره چیست و چرا اهمیت دارد؟
آمار هنر و دانش بررسی ایدهها، استنتاج کردن و پاسخ دادن به پرسشها مبتنی بر داده است. امروزه هرچه که جلوتر میرویم دادههای بیشتری در اختیار عموم مردم درباره ابعاد مختلف زندگی مانند اقتصاد، کسبوکار، سیاست، سلامت و … قرار میگیرد. اینکه افراد بتوانند با یک رویکرد نقادانه این دادهها را ارزیابی کنند و […]
شاخصهای شکل در آمار
در آمار شاخصهای شکل (Shape Measures) بازتابدهنده طرح کلی توزیع دادهها است. شاخصهای شکل بهویژه برای متغیرهای پیوسته بکار میرود. دو شاخص مهم شکل، چولگی (Skewness) و کشیدگی (Kurtosis) هستند. چولگی چولگی میزان متقارن بودن توزیع را میسنجد. یک توزیع متقارن مانند توزیع نرمال (Normal Distribution) دارای چولگی صفر است. توزیعی که یک […]
مقدمهای بر مفاهیم کیفیت داده
یکی از موضوعاتی که در بسیاری از پروژههای داده که تاکنون درگیر آن بودم، برجسته بوده اهمیت کیفیت داده (Data Quality) است. کیفیت داده موضوعی است که شاید در ادبیات حوزه علم داده (Data Science) کمتر به آن پرداخته شده ولی در هنگام اجرای پروژههای واقعی داده با آن زیاد مواجه خواهید شد. بهخصوص […]
نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟
نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک میکند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی میکند یا خیر. برای مثال فرض نرمال بودن دادهها در بسیاری از آزمونهای آماری وجود دارد. بنابراین قبل از انجام چنین آزمونهای آماری نیاز است […]