بایگانی‌ها تحلیل داده

نمایش داده‌های جغرافیایی در Folium پایتون

امروزه با گسترش اپلیکیشن‌هایی که اطلاعات مکانی کاربران را ذخیره می‌کنند، بسیاری از کسب‌وکارها به داده‌های مکانی مشتریان نیز دسترسی پیدا کردند. به نمایش درآوردن داده‌های مکانی، می‌تواند گام اول در بهره‌گیری از این داده‌ها باشد. خوشبختانه امکانات خوبی در R و پایتون برای نمایش داده‌های مکانی وجود دارد. در R کتابخانه Leaflet و […]

چگونه می‌توان یک کد R را به‌صورت خودکار در محیط ویندوز اجرا کرد؟

دی ۱۸, ۱۴۰۰مهر ۱۴, ۱۴۰۱فرزاد مینویی

در این مقاله به این می‌پردازم که چگونه می‌توانید یک کد در R را به‌صورت خودکار در سیستم‌عامل ویندوز (Windows) اجرا کنید. در این مثال ساده هدف من آن است کدی ایجاد کنم که هر پنج دقیقه یک‌بار به مدت ۱۵ دقیقه یک عدد تصادفی از توزیع نرمال تولید و به همراه زمان تولید […]

کتابخانه Numpy در پایتون برای علوم داده

آذر ۱۶, ۱۴۰۰مهر ۱۴, ۱۴۰۱فرزاد مینویی

کتابخانه Numpy در پایتون، ابزارهای قدرتمندی برای محاسبات عددی مبتنی بر ماتریس‌ها و آرایه‌های چندبعدی در اختیار قرار می‌دهد. اسم این کتابخانه، Numpy، از مخفف عبارت Numerical Python می‌آید. این کتابخانه ابزارهای زیادی شامل انواع توابع ریاضی، توابع توزیع آماری، ابزارهای موردنیاز برای محاسبات جبر خطی و تبدیل فوریه (Fourier Transformations) و … را […]

مدل ICE برای اولویت‌بندی پروژه‌های داده

مهر ۲۰, ۱۴۰۰مهر ۱۴, ۱۴۰۱فرزاد مینویی

ازآنجاکه حوزه علم داده (Data Science) یک حوزه کاربردی جدید محسوب می‌شود، اجرای پروژه‌های داده معمولاً با عدم قطعیت‌های زیادی همراه است. یکی از شرایطی که ممکن است تیم‌های داده با آن مواجه شوند، وجود ایده‌های مختلف در داخل شرکت برای پیاده‌سازی است. برای مثال، تیم عملیات پیشنهاد می‌دهد یک مدل ریاضی برای پیش‌بینی […]

ساختار شکست کار (WBS) و کاربرد آن در پروژه‌های داده چیست؟

فروردین ۳, ۱۴۰۰مهر ۵, ۱۴۰۱فرزاد مینویی

ساختار شکست کار (Work Breakdown Structure – WBS) به شما کمک می‌کند تا ابعاد (Scope) فعالیت‌های پروژه از طریق دسته‌بندی و ساختاردهی آن‌ها مشخص شود. این رویکرد ضمن آن‌که‌ یک ساختار برای مدیریت پروژه در اختیار می‌دهد، کمک می‌کند جنبه‌های فنی و حل مسئله پروژه روشن شود. ساختار شکست کار سه مزیت عمده دارد: پروژه […]

ماتریس واگذاری مسئولیت (RACI) و اهمیت آن در پروژه‌های داده چیست؟

اسفند ۵, ۱۳۹۹مهر ۱۴, ۱۴۰۱فرزاد مینویی

بسیاری از پروژه‌های داده پیچیده هستند و نیاز است تا افراد از تیم‌های مختلف یک سازمان در کنار هم قرار گیرند تا پروژه به موفقیت برسد. مطالعات نشان می‌دهد از عوامل مهم شکست پروژه‌های داده درگیر نبودن تمامی ذینفعان، عدم تعهد مدیران میانی و نبود فهم درست از مسائل کسب‌و‌کار است. بسیار پیش می‌آید […]

مروری بر تبدیل Box-Cox و کاربردهای آن

دی ۲۱, ۱۳۹۹تیر ۲۱, ۱۴۰۱فرزاد مینویی

بسیاری از تحلیل‌های آماری و پاره‌ای از الگوریتم‌های یادگیری ماشین مبتنی بر این فرض است که نمونه از جامعه‌ای با توزیع نرمال (Normal Distribution) به دست آمده و ساختار خطا جمعی است (Additive Error Structure). جمعی بودن ساختار خطا به این معنی است که خطا تنها به مقدار واقعی اضافه می‌شود و خودش وابسته به […]

توزیع نمونه‌گیری (Sampling Distribution)

مرداد ۱۴, ۱۳۹۹مهر ۱۴, ۱۴۰۱فرزاد مینویی

در مقاله تابع توزیع احتمال شرح دادم چگونه تابع توزیع، متغیر تصادفی و نحوه توزیع هر یک از مقادیر آن را تبیین می‌کند. توزیع نمونه‌گیری درباره توزیع هر یک از مقادیر متغیر تصادفی نیست بلکه توزیع آماره (Statistics) یک نمونه با اندازه مشخص را نشان می‌دهد. در این مقاله به‌صورت شهودی مفهوم توزیع نمونه‌گیری […]

تابع توزیع احتمال (Probability Distribution Function)

تیر ۸, ۱۳۹۹آذر ۱۰, ۱۴۰۱فرزاد مینویی

تابع توزیع احتمال نشان‌دهنده احتمال هر یک از مقادیر متغیر تصادفی (برای متغیرهای گسسته) یا احتمال قرار گرفتن متغیر تصادفی در یک بازه مشخص (برای متغیرهای پیوسته) است. در این مقاله سعی دارم به زبان ساده مفهوم تابع توزیع احتمال و تابع توزیع احتمال تجمعی را توضیح دهم. تصور کنید به‌صورت تصادفی ۱۰۰ فرد […]

قضیه بیز (Bayes Theorem) و دلالت‌های آن در عمل چیست؟

خرداد ۲۷, ۱۳۹۹مهر ۱۴, ۱۴۰۱فرزاد مینویی

تصور کنید روزی از خواب بلند می‌شوید و احساس کسالت می‌کنید. به پزشک می‌روید و او از شما آزمایش‌های مختلفی می‌گیرد. مشخص می‌شود نتیجه آزمایش‌ شما برای یک بیماری نادر مثبت شده است. بیماری نادری که احتمال مبتلا شدن به آن، ۱ در هر ۱۰۰ هزار نفر است. بیماری که بسیار بد است و […]

احتمال شرطی؛ برداشت‌ها و سوءبرداشت‌ها

اردیبهشت ۱۴, ۱۳۹۹مهر ۱۴, ۱۴۰۱فرزاد مینویی

یکی از حوزه‌هایی در احتمال که به‌راحتی افراد را گیج می‌کند و منجر به استدلال‌های خطا می‌شود، احتمال شرطی (Conditional Probability) است. احتمال شرطی، احتمال وقوع رخدادی مانند است به‌شرط آنکه بدانیم رخدادی مانند اتفاق افتاده است. در ریاضی آن را با نشان می‌دهند. فرض کنید یک مطالعه ادعا می‌کند ۸۵ درصد بیماران سرطانی […]

مروری بر مفاهیم احتمال به زبان ساده

فروردین ۸, ۱۳۹۹مهر ۱۴, ۱۴۰۱فرزاد مینویی

برتراند راسل (Bertrand Russell) می‌گوید “احتمال مهم‌ترین مفهوم در علم مدرن است، بخصوص که هیچ‌کس کوچک‌ترین ایده‌ای ندارد که چه معنی می‌دهد.” بسیاری از ما در دوران مدرسه و دانشگاه با مفهوم احتمال از طریق آزمایش‌های فکری (Thought Experiment) مانند پرتاب سکه و یا پرتاب طاس آشنا شده‌ایم. گرچه این مثال‌های ساده به درک […]

چگونه می‌توان پایتون را در خط فرمان ویندوز (CMD) اجرا کرد؟

اسفند ۳, ۱۳۹۸مهر ۱۴, ۱۴۰۱فرزاد مینویی

پایتون (Python) یکی از زبان‌های پرکاربرد برنامه‌نویسی برای کاربردهای علم داده (Data Science) است. برای پایتون محیط‌های توسعه (Integrated Development Environment) متنوعی وجود دارد. خیلی از کسانی که از پایتون برای تحلیل داده استفاده می‌کنند ممکن است از محیط‌های توسعه‌ای نظیر Jupyter Notebook ،Spyder و یا PyCharm استفاده کنند. یکی دیگر از راه‌های اجرای […]

مروری بر مفاهیم نمونه‌گیری

بهمن ۱۲, ۱۳۹۸مهر ۸, ۱۴۰۱فرزاد مینویی

ارسطو می‌گوید از نشانه‌های یک ذهن آموزش‌دیده آن است که با درجه‌ای از تقریب که در تناسب با ماهیت موضوع است، راضی می‌شود و به دنبال دقت کامل نیست. اگر شما با دقت ۱۰۰ درصد بخواهید بفهمید که چه درصدی از آجرهای تولیدشده یک کوره آجرپزی، خراب هستند باید همه آن‌ها را آزمایش کنید. […]

بررسی نرمال بودن داده‌ها

آذر ۱, ۱۳۹۸مهر ۸, ۱۴۰۱فرزاد مینویی

می‌توان گفت توزیع نرمال (Normal Distribution) یکی از پرکاربردترین توزیع‌های احتمالی در آمار و یادگیری ماشین است. علاوه بر این توزیع نرمال در توصیف خروجی بسیاری از فرآیندهای تصادفی در دنیای واقعی هم بسیار مفید است. در این مقاله بحث می‌کنم چگونه تشخیص دهید یک نمونه داده از جمعیتی با توزیع نرمال آمده است و […]

مقیاس‌های اندازه‌گیری و انواع داده‌

آبان ۱۱, ۱۳۹۸مهر ۱۴, ۱۴۰۱فرزاد مینویی

یکی از مفاهیم پایه‌ای که نیاز است کسانی که با داده کار می‌کنند با آن آشنا باشند مفهوم مقیاس‌های اندازه‌گیری (Measurement Scales) و انواع داده است. علت اهمیت این موضوع در این است که نوع داده به نحوه تحلیل آن جهت‌گیری می‌دهد. لزوماً نمی‌توان هر روش تحلیل داده‌ای را برای هر نوع داده‌ای بکار […]

آمار درباره چیست و چرا اهمیت دارد؟

مهر ۶, ۱۳۹۸مهر ۱۴, ۱۴۰۱فرزاد مینویی

آمار هنر و دانش بررسی ایده‌ها، استنتاج کردن و پاسخ دادن به پرسش‌ها مبتنی بر داده است. امروزه هرچه که جلوتر می‌رویم داده‌های بیشتری در اختیار عموم مردم درباره ابعاد مختلف زندگی مانند اقتصاد، کسب‌وکار، سیاست، سلامت و … قرار می‌گیرد. اینکه افراد بتوانند با یک رویکرد نقادانه این داده‌ها را ارزیابی کنند و […]

شاخص‌های شکل در آمار

شهریور ۲۲, ۱۳۹۸مهر ۸, ۱۴۰۱فرزاد مینویی

در آمار شاخص‌های شکل (Shape Measures) بازتاب‌دهنده طرح کلی توزیع داده‌ها است. شاخص‌های شکل به‌ویژه برای متغیرهای پیوسته بکار می‌رود. دو شاخص مهم شکل، چولگی (Skewness) و کشیدگی (Kurtosis) هستند. چولگی چولگی میزان متقارن بودن توزیع را می‌سنجد. یک توزیع متقارن مانند توزیع نرمال (Normal Distribution) دارای چولگی صفر است. توزیعی که یک […]

مقدمه‌ای بر مفاهیم کیفیت داده

مرداد ۷, ۱۳۹۸مهر ۱۴, ۱۴۰۱فرزاد مینویی

یکی از موضوعاتی که در بسیاری از پروژه‌های داده که تاکنون درگیر آن بودم، برجسته بوده اهمیت کیفیت داده (Data Quality) است. کیفیت داده موضوعی است که شاید در ادبیات حوزه علم داده (Data Science) کمتر به آن پرداخته شده ولی در هنگام اجرای پروژه‌های واقعی داده با آن زیاد مواجه خواهید شد. به‌خصوص […]

نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟

تیر ۲۲, ۱۳۹۸مهر ۸, ۱۴۰۱فرزاد مینویی

نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک می‌کند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی می‌کند یا خیر. برای مثال فرض نرمال بودن داده‌ها در بسیاری از آزمون‌های آماری وجود دارد. بنابراین قبل از انجام چنین آزمون‌های آماری نیاز است […]