کسری علیشاهی، علیرضا کدیور
نیمسال دوم ۱۴۰۳-۱۴۰۲
معرفی درس
تحلیل رگرسیون عبارت است از فرایند مدلسازی آماری که با هدف توضیح یا پیشبینی یک متغیر تصادفی از نوع عددی پیوسته انجام میشود. مدل آماری که در تحلیل رگرسیون به وجود میآید میتواند ساده و غیرمنطعف با تعداد پارامترهای اندک باشد و به توضیحی ابتدایی اما ساده و سرراست درباره متغیر هدف بسنده کند، یا پیچیده و منعطف با تعداد بسیار زیادی پارامتر باشد و مقدار مورد نظر را بدون ارائه هیچ توضیحی اما با دقت فوقالعادهای پیشبینی کند.
مدلهای رگرسیون طیف گستردهای از مسائل آمار و علوم داده را از اکتشاف تا پیشبینی، استنتاج و تجویز در بر میگیرند و به همین خاطر کاربرد وسیعی در تحقیقات علمی، صنایع، فناوریهای دیجیتال، تولید، کسبوکار، حکمرانی و … پیدا کردهاند. این وضعیت دو نتیجه دارد. به کارگیری موثر تحلیل رگرسیون در دنیای واقعی نیازمند مهارتهای متنوعی مانند توانایی ایجاد ارتباط بین پدیدههای مختلف در قالب فرضیهسازی و طرح پرسش، تجربه پردازش و تحلیل داده، هنر انتقال موثر و کارآمد اطلاعات در قالب مصورسازی داده و ارائه محتوای متنی است. از سوی دیگر اتکای حداکثری به مدلهای رگرسیون پیامدهای گستردهای در جامعه دارد و تحقیقات علمی در حوزههای گوناگون را به شدت تحت تاثیر قرار میدهد.
طرح درس
در این درس میخواهیم با هر دو جنبه موضوع دست و پنجه نرم کنیم. از یک طرف تحلیل رگرسیون را در دل مسائل واقعی با تمامی پیچیدگیها و ظرایف آن به کار میگیریم و از طرف دیگر در لایهای عمیقتر درباره پیامدهای وابستگی گسترده به آن در ابعاد گوناگون جامعه بیاندیشیم.
درس «رگرسیون و تحلیل داده» در چهاربخش به صورت فعالیتمحور ارائه میشود. در بخش نخست R و Python و همینطور RMarkdown و Jupyter Notebook به عنوان ابزارهای مورد نیاز درس به اختصار معرفی و مرور میشود و برای دستگرمی در یک مینیپروژه تحلیل رگرسیون مورد استفاده قرار خواهند گرفت.
در جلسات بعد دادههایی از حوزههای گوناگون مثل کسبوکار، انرژی، محیط زیست، حمل و نقل و … معرفی میشود تا در کلاس به صورت جمعی برای تحلیل آنها ایدهپردازی کنیم و به سوالاتی جذاب، مفید و البته قابل حل برسیم. پس از گفتگو و انجام برخی تحلیلهای اولیه روی دادهها دانشجوها در گروههای سه یا چهار نفره طرحی با چند پرسش مشخص برای تحلیل دادهها تهیه میکنند و طرحهای خود را در زمانبندی از پیشتعیین شده تحویل میدهند تا پس از تایید طرح، به عنوان پروژه کلاسی روی انجام وقت بگذارند و در نهایت نتایج آن را در کلاس ارائه کنند و به پرسشهای دیگر اعضای کلاس پاسخ دهند.
این فرایند سه بار در طول ترم انجام خواهد شد و دانشجویان کلاس تا پایان ترم سه پروژه تحلیل داده را به صورت گروهی انجام میدهند و تحلیل رگرسیون را در آنها به کار میگیرند.
علاوه بر این، مجموعهای از موضوعات درباره پیامدهای استفاده گسترده از مدلهای رگرسیون در طول ترم در کلاس مورد بحث و گفتگو قرار میگیرد که لازم است دانشجویان برای مشارکت فعال در موضوعات مقالات معرفی شده قبل از هر جلسه مطالعه کنند و با آمادگی در کلاس شرکت کنند. در پایان ترم دانشجویان آموختههای خود در این بخش را پس تایید موضوع در کلاس، در قالب یک مقاله تحویل خواهند داد.
در برخی از جلسات نیز سخنرانان میهمان برای ارائه تجربیات خود در پروژههای تحلیل داده و چالشهای تحلیل رگرسیون در دنیای واقعی در کلاس حاضر خواهند شد.
پیشنیاز
- گذراندن درس آمار
- آشنایی با R یا Python
برنامه آموزش و ارزشیابی
پروژه تحلیل داده ۱ (۵ نمره)
- طرح پروژه: ۱ نمره (مهلت تحویل ۲۰ اسفند ۱۴۰۲)
- گزارش نهایی نتایج پروژه: ۳ نمره (مهلت تحویل ۱۹ فروردین ۱۴۰۳)
- ارائه در کلاس: ۱ نمره
پروژه تحلیل داده ۲ (۵ نمره)
- طرح پروژه: ۱ نمره (مهلت تحویل ۲۸ فروردین ۱۴۰۳)
- گزارش نهایی نتایج پروژه: ۳ نمره (مهلت تحویل ۱۸ اردیبهشت ۱۴۰۳)
- ارائه در کلاس: ۱ نمره
- طرح پروژه: ۱ نمره (مهلت تحویل ۸ خرداد ۱۴۰۳)
- گزارش نهایی نتایج پروژه: ۴ نمره (مهلت تحویل ۱۵ تیر ۱۴۰۳)
- مقاله کلاسی (۵ نمره)
ارائه موضوع و طرح پرسش: ۱ نمره (مهلت تحویل ۴ خرداد ۱۴۰۳)
- متن مقاله نهایی: ۴ نمره (مهلت تحویل ۱۲ مرداد ۱۴۰۳)
- تاریخ اعلام نمرات نهایی: ۲۴ مرداد ۱۴۰۳
این درس آزمون میان ترم و پایان ترم ندارد و ارزشیابی آن تنها بر اساس خروجی فعالیتهای دانشجویان در زمانبندی یادشده به شرح فوق خواهد بود.
منابعی برای آمادگی انجام پروژهها
مسیر اول: R
برای یادگیری R مطابق با ترتیب گفتهشده در «برای تحلیل داده با R چه چیزهایی یاد بگیرم؟» عمل کنید.
مسیر دوم: پایتون
سایر موارد
دسترسی به محتوای اختصاصی کلاس
برای دسترسی به محتوای اختصاصی این کلاس لطفا کدی که در اختیار شما قرار گرفته را وارد کنید و بقیه مراحل را طی کنید.