بهعنوان کسی که در حوزه استفاده از داده برای کاربردهای کسبوکار (Business Analytics) فعال هستم، با لایههای مختلف مفهوم حاکمیت داده در کارم مواجه هستم. البته به خوانندگان باید یادآوری کنم که تخصص من حوزه حاکمیت داده نیست و این مقاله را صرفاً از منظر یک استفادهکننده از داده نوشتم تا افرادی که در لایه […]
تحلیل داده
مدل ICE برای اولویتبندی پروژههای داده
ازآنجاکه حوزه علم داده (Data Science) یک حوزه کاربردی جدید محسوب میشود، اجرای پروژههای داده معمولاً با عدم قطعیتهای زیادی همراه است. یکی از شرایطی که ممکن است تیمهای داده با آن مواجه شوند، وجود ایدههای مختلف در داخل شرکت برای پیادهسازی است. برای مثال، تیم عملیات پیشنهاد میدهد یک مدل ریاضی برای پیشبینی […]
مقدمهای بر یادگیری ماشین (Machine Learning)
پیشتر در مقاله “هوش مصنوعی (Artificial Intelligence): ماشینهایی که یاد میگیرند” اشاره کردم، یادگیری ماشین شاخهای از هوش مصنوعی است که در آن هدف استدلال کردن و تصمیمگیری بر اساس حجم زیادی از دادههای ورودی است. برای مثال، میتوان یک الگوریتم یادگیری ماشین را بهگونهای آموزش داد تا دادههای سلامتی و پزشکی یک بیمار […]
هوش مصنوعی (Artificial Intelligence): ماشینهایی که یاد میگیرند
دنیای علم داده (Data Science) پر از کلمات و مفاهیمی است که در نگاه اول برای افراد خارج از این حوزه مبهم است. حتی افراد متخصص این حوزه هم ممکن است تعریف یکسانی از برخی مفاهیم نداشته باشند. عبارت هوش مصنوعی یکی از این موارد است. در این مقاله سعی دارم تا مفهوم آن […]
ساختار شکست کار (WBS) و کاربرد آن در پروژههای داده چیست؟
ساختار شکست کار (Work Breakdown Structure – WBS) به شما کمک میکند تا ابعاد (Scope) فعالیتهای پروژه از طریق دستهبندی و ساختاردهی آنها مشخص شود. این رویکرد ضمن آنکه یک ساختار برای مدیریت پروژه در اختیار میدهد، کمک میکند جنبههای فنی و حل مسئله پروژه روشن شود. ساختار شکست کار سه مزیت عمده دارد: پروژه […]
ماتریس واگذاری مسئولیت (RACI) و اهمیت آن در پروژههای داده چیست؟
بسیاری از پروژههای داده پیچیده هستند و نیاز است تا افراد از تیمهای مختلف یک سازمان در کنار هم قرار گیرند تا پروژه به موفقیت برسد. مطالعات نشان میدهد از عوامل مهم شکست پروژههای داده درگیر نبودن تمامی ذینفعان، عدم تعهد مدیران میانی و نبود فهم درست از مسائل کسبوکار است. بسیار پیش میآید […]
مروری بر تبدیل Box-Cox و کاربردهای آن
بسیاری از تحلیلهای آماری و پارهای از الگوریتمهای یادگیری ماشین مبتنی بر این فرض است که نمونه از جامعهای با توزیع نرمال (Normal Distribution) به دست آمده و ساختار خطا جمعی است (Additive Error Structure). جمعی بودن ساختار خطا به این معنی است که خطا تنها به مقدار واقعی اضافه میشود و خودش وابسته به […]
توزیع نمونهگیری (Sampling Distribution)
در مقاله تابع توزیع احتمال شرح دادم چگونه تابع توزیع، متغیر تصادفی و نحوه توزیع هر یک از مقادیر آن را تبیین میکند. توزیع نمونهگیری درباره توزیع هر یک از مقادیر متغیر تصادفی نیست بلکه توزیع آماره (Statistics) یک نمونه با اندازه مشخص را نشان میدهد. در این مقاله بهصورت شهودی مفهوم توزیع نمونهگیری […]
تابع توزیع احتمال (Probability Distribution Function)
تابع توزیع احتمال نشاندهنده احتمال هر یک از مقادیر متغیر تصادفی (برای متغیرهای گسسته) یا احتمال قرار گرفتن متغیر تصادفی در یک بازه مشخص (برای متغیرهای پیوسته) است. در این مقاله سعی دارم به زبان ساده مفهوم تابع توزیع احتمال و تابع توزیع احتمال تجمعی را توضیح دهم. تصور کنید بهصورت تصادفی ۱۰۰ فرد […]
احتمال شرطی؛ برداشتها و سوءبرداشتها
یکی از حوزههایی در احتمال که بهراحتی افراد را گیج میکند و منجر به استدلالهای خطا میشود، احتمال شرطی (Conditional Probability) است. احتمال شرطی، احتمال وقوع رخدادی مانند است بهشرط آنکه بدانیم رخدادی مانند اتفاق افتاده است. در ریاضی آن را با نشان میدهند. فرض کنید یک مطالعه ادعا میکند ۸۵ درصد بیماران سرطانی […]
چگونه میتوان پایتون را در خط فرمان ویندوز (CMD) اجرا کرد؟
پایتون (Python) یکی از زبانهای پرکاربرد برنامهنویسی برای کاربردهای علم داده (Data Science) است. برای پایتون محیطهای توسعه (Integrated Development Environment) متنوعی وجود دارد. خیلی از کسانی که از پایتون برای تحلیل داده استفاده میکنند ممکن است از محیطهای توسعهای نظیر Jupyter Notebook ،Spyder و یا PyCharm استفاده کنند. یکی دیگر از راههای اجرای […]
مروری بر مفاهیم نمونهگیری
ارسطو میگوید از نشانههای یک ذهن آموزشدیده آن است که با درجهای از تقریب که در تناسب با ماهیت موضوع است، راضی میشود و به دنبال دقت کامل نیست. اگر شما با دقت ۱۰۰ درصد بخواهید بفهمید که چه درصدی از آجرهای تولیدشده یک کوره آجرپزی، خراب هستند باید همه آنها را آزمایش کنید. […]
الگوریتم گرادیان کاهشی چیست؟
در بسیاری از الگوریتمهای یادگیری ماشین (Machine Learning) عملاً یک مسئله بهینهسازی حل میشود. برای مثال در مسائل رگرسیون (Regression) هدف آن است که فاصله مقدار پیشبینیشده توسط الگوریتم یادگیری ماشین از مقدار واقعی آن کمینه شود. ازآنجاکه بسیاری از الگوریتمهای یادگیری ماشین در کامپیوتر با روشهای عددی پیادهسازی میشوند، الگوریتم گرادیان کاهشی (Gradient […]
بررسی نرمال بودن دادهها
میتوان گفت توزیع نرمال (Normal Distribution) یکی از پرکاربردترین توزیعهای احتمالی در آمار و یادگیری ماشین است. علاوه بر این توزیع نرمال در توصیف خروجی بسیاری از فرآیندهای تصادفی در دنیای واقعی هم بسیار مفید است. در این مقاله بحث میکنم چگونه تشخیص دهید یک نمونه داده از جمعیتی با توزیع نرمال آمده است و […]
مقیاسهای اندازهگیری و انواع داده
یکی از مفاهیم پایهای که نیاز است کسانی که با داده کار میکنند با آن آشنا باشند مفهوم مقیاسهای اندازهگیری (Measurement Scales) و انواع داده است. علت اهمیت این موضوع در این است که نوع داده به نحوه تحلیل آن جهتگیری میدهد. لزوماً نمیتوان هر روش تحلیل دادهای را برای هر نوع دادهای بکار […]
آمار درباره چیست و چرا اهمیت دارد؟
آمار هنر و دانش بررسی ایدهها، استنتاج کردن و پاسخ دادن به پرسشها مبتنی بر داده است. امروزه هرچه که جلوتر میرویم دادههای بیشتری در اختیار عموم مردم درباره ابعاد مختلف زندگی مانند اقتصاد، کسبوکار، سیاست، سلامت و … قرار میگیرد. اینکه افراد بتوانند با یک رویکرد نقادانه این دادهها را ارزیابی کنند و […]
شاخصهای شکل در آمار
در آمار شاخصهای شکل (Shape Measures) بازتابدهنده طرح کلی توزیع دادهها است. شاخصهای شکل بهویژه برای متغیرهای پیوسته بکار میرود. دو شاخص مهم شکل، چولگی (Skewness) و کشیدگی (Kurtosis) هستند. چولگی چولگی میزان متقارن بودن توزیع را میسنجد. یک توزیع متقارن مانند توزیع نرمال (Normal Distribution) دارای چولگی صفر است. توزیعی که یک […]
مقدمهای بر مفاهیم کیفیت داده
یکی از موضوعاتی که در بسیاری از پروژههای داده که تاکنون درگیر آن بودم، برجسته بوده اهمیت کیفیت داده (Data Quality) است. کیفیت داده موضوعی است که شاید در ادبیات حوزه علم داده (Data Science) کمتر به آن پرداخته شده ولی در هنگام اجرای پروژههای واقعی داده با آن زیاد مواجه خواهید شد. بهخصوص […]
نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟
نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک میکند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی میکند یا خیر. برای مثال فرض نرمال بودن دادهها در بسیاری از آزمونهای آماری وجود دارد. بنابراین قبل از انجام چنین آزمونهای آماری نیاز است […]
کدام نمودار برای نمایش داده مناسب است؟
نمودارهایی که خوب طراحی شدهاند به تحلیلگر کمک میکنند تا سریعتر و بهتر اطلاعات را تحلیل و جمعبندی کنند. در سمت دیگر، در مقاله “چگونه ممکن است نمودارها شما را فریب دهند؟” بحث کردم چطور نمودارها ممکن است، موجب خطا در فهم دادهها و استنباط از آن شود. یک گام مهم در نمایش دادهها آن […]