رگرسیون و تحلیل داده (دانشگاه صنعتی شریف)

کسری علیشاهی، علیرضا کدیور
نیم‌سال دوم ۱۴۰۳-۱۴۰۲

معرفی درس

تحلیل رگرسیون عبارت است از فرایند مدلسازی آماری که با هدف توضیح یا پیش‌بینی یک متغیر تصادفی از نوع عددی پیوسته انجام می‌شود. مدل آماری که در تحلیل رگرسیون به وجود می‌آید می‌تواند ساده و غیرمنطعف با تعداد پارامترهای اندک باشد و به توضیحی ابتدایی اما ساده و سرراست درباره متغیر هدف بسنده کند، یا پیچیده و منعطف با تعداد بسیار زیادی پارامتر باشد و مقدار مورد نظر را بدون ارائه هیچ توضیحی اما با دقت‌ فوق‌العاده‌ای پیش‌بینی کند.

مدل‌های رگرسیون طیف گسترده‌ای از مسائل آمار و علوم داده را از اکتشاف تا پیش‌بینی، استنتاج و تجویز در بر می‌گیرند و به همین خاطر کاربرد وسیعی در تحقیقات علمی، صنایع، فناوری‌های دیجیتال‌، تولید، کسب‌وکار، حکمرانی و … پیدا کرده‌اند. این وضعیت دو نتیجه دارد. به کارگیری موثر تحلیل رگرسیون در دنیای واقعی نیازمند مهارت‌های متنوعی مانند توانایی ایجاد ارتباط بین پدیده‌های مختلف در قالب فرضیه‌سازی و طرح پرسش، تجربه پردازش و تحلیل داده، هنر انتقال موثر و کارآمد اطلاعات در قالب مصورسازی داده و ارائه محتوای متنی است. از سوی دیگر اتکای حداکثری به مدل‌های رگرسیون پیامدهای گسترده‌ای در جامعه دارد و تحقیقات علمی در حوزه‌های گوناگون را به شدت تحت تاثیر قرار می‌دهد.

طرح درس

در این درس می‌خواهیم با هر دو جنبه موضوع دست و پنجه نرم کنیم. از یک طرف تحلیل رگرسیون را در دل مسائل واقعی با تمامی پیچیدگی‌ها و ظرایف آن به کار ‌می‌گیریم و از طرف دیگر در لایه‌ای عمیق‌تر درباره پیامدهای وابستگی گسترده به آن در ابعاد گوناگون جامعه بیاندیشیم.

درس «رگرسیون و تحلیل داده» در چهاربخش به صورت فعالیت‌محور ارائه می‌شود. در بخش نخست R و Python و همینطور RMarkdown و Jupyter Notebook به عنوان ابزارهای مورد نیاز درس به اختصار معرفی و مرور می‌شود و برای دست‌گرمی در یک مینی‌پروژه تحلیل رگرسیون مورد استفاده قرار خواهند گرفت.

در جلسات بعد داده‌هایی از حوزه‌های گوناگون مثل کسب‌وکار، انرژی، محیط زیست، حمل و نقل و … معرفی می‌شود تا در کلاس به صورت جمعی برای تحلیل آن‌ها ایده‌پردازی کنیم و به سوالاتی جذاب، مفید و البته قابل حل برسیم. پس از گفتگو و انجام برخی تحلیل‌های اولیه روی داده‌ها دانشجوها در گروه‌های سه یا چهار نفره طرحی با چند پرسش مشخص برای تحلیل داده‌ها تهیه می‌کنند و طرح‌های خود را در زمان‌بندی از پیش‌تعیین شده تحویل می‌دهند تا پس از تایید طرح، به عنوان پروژه کلاسی روی انجام وقت بگذارند و در نهایت نتایج آن را در کلاس ارائه کنند و به پرسش‌های دیگر اعضای کلاس پاسخ دهند.  

این فرایند سه بار در طول ترم انجام خواهد شد و دانشجویان کلاس تا پایان ترم سه پروژه تحلیل داده را به صورت گروهی انجام می‌دهند و تحلیل رگرسیون را در آن‌ها به کار می‌گیرند.

علاوه بر این، مجموعه‌ای از موضوعات درباره پیامدهای استفاده گسترده از مدل‌های رگرسیون در طول ترم در کلاس مورد بحث و گفتگو قرار می‌گیرد که لازم است دانشجویان برای مشارکت فعال در موضوعات مقالات معرفی شده قبل از هر جلسه مطالعه کنند و با آمادگی در کلاس شرکت کنند. در پایان ترم دانشجویان آموخته‌های خود در این بخش‌ را پس تایید موضوع در کلاس، در قالب یک مقاله تحویل خواهند داد.

در برخی از جلسات نیز سخنرانان میهمان برای ارائه تجربیات خود در پروژه‌های تحلیل داده و چالش‌های تحلیل رگرسیون در دنیای واقعی در کلاس حاضر خواهند شد.

پیش‌نیاز

  • گذراندن درس آمار
  • آشنایی با R یا Python

برنامه آموزش و ارزشیابی

پروژه تحلیل داده ۱ (۵ نمره)

  • طرح پروژه: ۱ نمره (مهلت تحویل ۲۰ اسفند ۱۴۰۲)
  • گزارش نهایی نتایج پروژه: ۳ نمره (مهلت تحویل ۱۹ فروردین ۱۴۰۳)
  • ارائه در کلاس: ۱ نمره

پروژه تحلیل داده ۲ (۵ نمره)

  • طرح پروژه: ۱ نمره (مهلت تحویل ۲۸ فروردین ۱۴۰۳)
  • گزارش نهایی نتایج پروژه: ۳ نمره (مهلت تحویل ۱۸ اردیبهشت ۱۴۰۳)
  • ارائه در کلاس: ۱ نمره
پروژه تحلیل داده ۳ (۵ نمره)
  • طرح پروژه: ۱ نمره (مهلت تحویل ۸ خرداد ۱۴۰۳)
  • گزارش نهایی نتایج پروژه: ۴ نمره (مهلت تحویل ۱۵ تیر ۱۴۰۳)
  • مقاله کلاسی (۵ نمره)

ارائه موضوع و طرح پرسش: ۱ نمره (مهلت تحویل ۴ خرداد ۱۴۰۳)

  • متن مقاله نهایی: ۴ نمره (مهلت تحویل ۱۲ مرداد ۱۴۰۳)
  • تاریخ اعلام نمرات نهایی: ۲۴ مرداد ۱۴۰۳

این درس آزمون میان‌ ترم و پایان ترم ندارد و ارزشیابی آن تنها بر اساس خروجی فعالیت‌های دانشجویان در زمان‌بندی یادشده به شرح فوق خواهد بود.

منابعی برای آمادگی انجام پروژه‌ها

مسیر اول: R

مسیر دوم: پایتون

سایر موارد

دانشکده علوم ریاضی

دسترسی به محتوای اختصاصی کلاس

برای دسترسی به محتوای اختصاصی این کلاس لطفا کدی که در اختیار شما قرار گرفته را وارد کنید و بقیه مراحل را طی کنید.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors