مقدمه‌ای بر مفاهیم کیفیت داده

مقدمه‌ای بر مفاهیم کیفیت داده

یکی از موضوعاتی که در بسیاری از پروژه‌های داده که تاکنون درگیر آن بودم، برجسته بوده اهمیت کیفیت داده (Data Quality) است. کیفیت داده موضوعی است که شاید در ادبیات حوزه علم داده (Data Science) کمتر به آن پرداخته شده ولی در هنگام اجرای پروژه‌های واقعی داده با آن زیاد مواجه خواهید شد. به‌خصوص اگر […]

نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟

نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟

نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک می‌کند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی می‌کند یا خیر. برای مثال فرض نرمال بودن داده‌ها در بسیاری از آزمون‌های آماری وجود دارد. بنابراین قبل از انجام چنین آزمون‌های آماری نیاز است […]

کدام نمودار برای نمایش داده مناسب است؟

کدام نمودار برای نمایش داده مناسب است؟

نمودارهایی که خوب طراحی شده‌اند به تحلیلگر کمک می‌کنند تا سریع‌تر و بهتر اطلاعات را تحلیل و جمع‌بندی کنند. در سمت دیگر، در مقاله “چگونه ممکن است نمودارها شما را فریب دهند؟” بحث کردم چطور نمودارها ممکن است، موجب خطا در فهم داده‌ها و استنباط از آن شود. یک گام مهم در نمایش داده‌ها آن […]

تحلیل داده‌ها در جدول متقاطع و آزمون کای-دو

تحلیل داده‌ها در جدول متقاطع و آزمون کای-دو

فرض کنید در یک تحقیق مطالعه بازار علاقه‌مند هستیم بدانیم آیا مشتریان هنگام خرید محصولات مواد غذایی به اطلاعات برچسب سلامت (شکل-۱) روی بسته‌بندی توجه می‌کنند یا خیر. ممکن است یک فرضیه محقق در چنین تحقیقی این باشد که جنسیت روی توجه به اطلاعات برچسب سلامت هنگام خرید اثرگذار است؛ احتمالاً زنان هنگام خرید بیشتر […]

چندک (Quantile) در R و پایتون چگونه محاسبه می‌گردد؟

چندک (Quantile) در R و پایتون چگونه محاسبه می‌گردد؟

به زبان ساده چندک (Quantile) یعنی وقتی شما داده‌ها را به بخش‌هایی مساوی تقسیم کنید، برش‌هایی از داده که این قسمت‌های مساوی را از هم جدا می‌کند چندک نامیده می‌شود. یکی از معروف‌ترین چندک‌ها میانه (Median) است. میانه یک شاخص مرکزی است. اگر داده‌ها به ترتیب از کوچک‌تر به بزرگ‌تر مرتب شوند، نیمی از آن‌ها […]

داده‌های باز چیست؟

داده‌های باز چیست؟

مفهوم داده‌های باز (Open Data) مبتنی بر این ایده است که برخی از داده‌ها باید به‌صورت رایگان در اختیار همه قرار گیرد تا بتوانند آن را آن‌گونه که می‌خواهند استفاده، باز استفاده و منتشر کنند، بدون آنکه با محدودیت حق نشر (Copyright)، حق اختراع (Patent) و یا سایر محدودیت‌ها مواجه شوند. در تعریف بالا سه […]

سوگیری خودانتخابی چیست؟

سوگیری خودانتخابی چیست؟

معمولاً اگر شما یک وب‌سایت داشته باشید، گهگاه مشکلاتی برایتان رخ می‌دهد که نیاز دارید برای رفع آن به بخش خدمات مشتریان شرکت میزبان وب مراجعه کنید. من برای وب‌سایتم از خدمات میزبانی شرکتی استفاده می‌کنم که به‌صورت آنلاین می‌توانم با یک کارشناس فنی گفتگو کنم. پس از پایان گفتگو پنجره‌ای باز می‌شود و از […]

آموزش نرم‌افزار R برای علوم داده: رسم نمودار

آموزش نرم‌افزار R برای علوم داده: رسم نمودار

یکی از قابلیت‌های برجسته نرم‌افزار R این است که امکانات متنوعی را برای نمایش داده‌ها داراست. در این مقاله من به روش‌های پایه‌ای برای رسم نمودار اشاره می‌کنم که در دنیای کسب‌وکار بیشتر استفاده می‌شوند. در این مقاله صرفاً به توابع داخلی R برای نمایش داده می‌پردازم. خواننده باید بداند برای رسم نمودارهای پیشرفته‌تر بسته‌هایی […]

کاربرد هوش تجاری در بنگاه‌های رسانه‌ای

کاربرد هوش تجاری در بنگاه‌های رسانه‌ای

امروزه با پیشرفت‌هایی که در حوزه فن‌آوری صورت گرفته است، کاربرد داده در کسب‌وکار بیش از گذشته توسعه یافته است. این پیشرفت‌ها در ده‌های گذشته سه حوزه اصلی را شامل می‌شود. اول، پیشرفت فنّاوری باعث شده حجم انبوهی از داده تولید شود. گسترش استفاده از دستگاه‌های کارت‌خوان‌ الکترونیکی در فروشگا‌ه‌ها، تجارت و تبلیغات در فضای […]

آموزش نرم‌افزار R برای علوم داده: توابع

آموزش نرم‌افزار R برای علوم داده: توابع

بیشتر کارهایی که در نرم‌افزار R انجام می‌دهیم، توسط توابع صورت می‌گیرد. تاکنون من از توابعی که به‌صورت پیش‌فرض در R تعریف‌شده‌اند، استفاده کردم. ولی این امکان وجود دارد که شما توابع موردنظرتان را ایجاد کنید. نوشتن توابع آغاز راهی است که شما را از استفاده‌کننده صرف از R به توسعه‌دهنده تبدیل می‌کند. توابع معمولاً […]

آموزش نرم‌افزار R برای علوم داده: عبارات شرطی و حلقه‌ها

آموزش نرم‌افزار R برای علوم داده: عبارات شرطی و حلقه‌ها

ساختارهای کنترلی (Control Structures) در نرم‌افزار R به شما اجازه می‌دهد تا نحوه اجرای عبارات نوشته‌شده را پایش کنید. به‌این‌ترتیب با قرار دادن عبارات منطقی، بسته به این‌که ورودی‌ها چگونه باشد، دستورات متفاوتی اجرا می‌شود. ساختارهای کنترلی عمده در R به شرح زیر است: دستور if  و else: بررسی یک شرط و عمل بر اساس […]

موردکاوی شیرینی فروشی سمانه

موردکاوی شیرینی فروشی سمانه

سمانه در حال اتمام دوره کارشناسی رشته مدیریت در یکی از دانشگاه‌های بزرگ تهران است. او همواره یکی از سرگرمی‌هایش پخت شیرینی بوده است. سمانه به همراه دوستش تصمیم می‌گیرد تا این علاقه را تبدیل به یک کسب‌وکار کند. برای شروع، آن‌ها بازار هدف خود را دانشجویان دانشگاه قرار می‌دهند. هدف آنان این است که […]

موردکاوی فرآیند پردازش درخواست‌ها در موسسه خیریه اقدام فوری (Action Response)

موردکاوی فرآیند پردازش درخواست‌ها در موسسه خیریه اقدام فوری (Action Response)

“اقدام فوری” یک موسسه خیریه مستقر در لندن است که خود را وقف پاسخ سریع به وضعیت‌های حساس در سراسر جهان کرده است. این موسسه توسط سوزان اِنتینی (Susan N’tini)، که هم‌اکنون مدیرعاملش نیز است تأسیس گردیده و هدفش آن است که برای پروژه‌های کوچک کمک‌های مالی کوتاه‌مدت فراهم آورد تا زمانی که آن‌ها بتوانند […]

نکاتی پیرامون تحلیل داده‌های مالی و اقتصادی

نکاتی پیرامون تحلیل داده‌های مالی و اقتصادی

در مدیریت کسب‌وکار بسیار پیش می‌آید که مدیران باید اطلاعات و داده‌های مالی و اقتصادی را تحلیل کنند. همین‌طور کسانی که در سطوح کارشناسی بر روی مدل‌سازی‌های ریاضی در حوزه علوم اقتصادی و مدیریت کار می‌کنند، معمولاً با داده‌های مالی و اقتصادی سروکار دارند. من در این مقاله به نکات مهمی اشاره می‌کنم که هنگام […]

چگونه ممکن است نمودارها شما را فریب دهند؟

چگونه ممکن است نمودارها شما را فریب دهند؟

نمایش گرافیکی داده‌ها در قالب نمودار یکی از ابزارهای مؤثر برای فهم اطلاعات و رسیدن به شهود برای تصمیم‌گیری در فضای کسب‌وکار است. مدیران با نگاه کردن به نمودارها می‌توانند به‌سرعت فهم خوبی از داده‌ها به دست آورند و آن را مبنای تصمیم‌گیری خود قرار دهند. ازاین‌رو نمودارها بسیار موردعلاقه مدیران هستند. ولی نمودارها به […]