هوش مصنوعی (Artificial Intelligence) به ماشینهایی دلالت دارد که میتوانند مانند انسان یا حیوانات یاد بگیرند، استدلال کنند، خودشان اقدام کنند و تصمیم بگیرند. امروزه تحقیقات در حوزه هوش مصنوعی تلاشهای متنوعی را در حوزههای بینایی ماشین، پردازش زبان طبیعی، رباتیک و یادگیری ماشین شامل میشود. گرچه امروزه حوزه هوش مصنوعی یکی از پیشرانهای […]
Python
نمایش دادههای جغرافیایی در Folium پایتون
امروزه با گسترش اپلیکیشنهایی که اطلاعات مکانی کاربران را ذخیره میکنند، بسیاری از کسبوکارها به دادههای مکانی مشتریان نیز دسترسی پیدا کردند. به نمایش درآوردن دادههای مکانی، میتواند گام اول در بهرهگیری از این دادهها باشد. خوشبختانه امکانات خوبی در R و پایتون برای نمایش دادههای مکانی وجود دارد. در R کتابخانه Leaflet و […]
کتابخانه Numpy در پایتون برای علوم داده
کتابخانه Numpy در پایتون، ابزارهای قدرتمندی برای محاسبات عددی مبتنی بر ماتریسها و آرایههای چندبعدی در اختیار قرار میدهد. اسم این کتابخانه، Numpy، از مخفف عبارت Numerical Python میآید. این کتابخانه ابزارهای زیادی شامل انواع توابع ریاضی، توابع توزیع آماری، ابزارهای موردنیاز برای محاسبات جبر خطی و تبدیل فوریه (Fourier Transformations) و … را […]
مروری بر تبدیل Box-Cox و کاربردهای آن
بسیاری از تحلیلهای آماری و پارهای از الگوریتمهای یادگیری ماشین مبتنی بر این فرض است که نمونه از جامعهای با توزیع نرمال (Normal Distribution) به دست آمده و ساختار خطا جمعی است (Additive Error Structure). جمعی بودن ساختار خطا به این معنی است که خطا تنها به مقدار واقعی اضافه میشود و خودش وابسته به […]
چگونه میتوان پایتون را در خط فرمان ویندوز (CMD) اجرا کرد؟
پایتون (Python) یکی از زبانهای پرکاربرد برنامهنویسی برای کاربردهای علم داده (Data Science) است. برای پایتون محیطهای توسعه (Integrated Development Environment) متنوعی وجود دارد. خیلی از کسانی که از پایتون برای تحلیل داده استفاده میکنند ممکن است از محیطهای توسعهای نظیر Jupyter Notebook ،Spyder و یا PyCharm استفاده کنند. یکی دیگر از راههای اجرای […]
الگوریتم گرادیان کاهشی چیست؟
در بسیاری از الگوریتمهای یادگیری ماشین (Machine Learning) عملاً یک مسئله بهینهسازی حل میشود. برای مثال در مسائل رگرسیون (Regression) هدف آن است که فاصله مقدار پیشبینیشده توسط الگوریتم یادگیری ماشین از مقدار واقعی آن کمینه شود. ازآنجاکه بسیاری از الگوریتمهای یادگیری ماشین در کامپیوتر با روشهای عددی پیادهسازی میشوند، الگوریتم گرادیان کاهشی (Gradient […]
بررسی نرمال بودن دادهها
میتوان گفت توزیع نرمال (Normal Distribution) یکی از پرکاربردترین توزیعهای احتمالی در آمار و یادگیری ماشین است. علاوه بر این توزیع نرمال در توصیف خروجی بسیاری از فرآیندهای تصادفی در دنیای واقعی هم بسیار مفید است. در این مقاله بحث میکنم چگونه تشخیص دهید یک نمونه داده از جمعیتی با توزیع نرمال آمده است و […]
شاخصهای شکل در آمار
در آمار شاخصهای شکل (Shape Measures) بازتابدهنده طرح کلی توزیع دادهها است. شاخصهای شکل بهویژه برای متغیرهای پیوسته بکار میرود. دو شاخص مهم شکل، چولگی (Skewness) و کشیدگی (Kurtosis) هستند. چولگی چولگی میزان متقارن بودن توزیع را میسنجد. یک توزیع متقارن مانند توزیع نرمال (Normal Distribution) دارای چولگی صفر است. توزیعی که یک […]
نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟
نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک میکند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی میکند یا خیر. برای مثال فرض نرمال بودن دادهها در بسیاری از آزمونهای آماری وجود دارد. بنابراین قبل از انجام چنین آزمونهای آماری نیاز است […]
چندک (Quantile) در R و پایتون چگونه محاسبه میگردد؟
به زبان ساده چندک (Quantile) یعنی وقتی شما دادهها را به بخشهایی مساوی تقسیم کنید، برشهایی از داده که این قسمتهای مساوی را از هم جدا میکند چندک نامیده میشود. یکی از معروفترین چندکها میانه (Median) است. میانه یک شاخص مرکزی است. اگر دادهها به ترتیب از کوچکتر به بزرگتر مرتب شوند، نیمی از آنها […]