نیمسال دوم ۱۴۰۴-۱۴۰۳
معرفی درس
تحلیل رگرسیون عبارت است از فرایند مدلسازی آماری که با هدف توضیح یا پیشبینی یک متغیر تصادفی از نوع عددی پیوسته انجام میشود. مدل آماری میتواند ساده و غیرمنطعف با تعداد پارامترهای اندک باشد و به توضیحی ابتدایی اما ساده و سرراست درباره متغیر هدف بسنده کند، یا پیچیده و منعطف با تعداد بسیار زیادی پارامتر باشد و مقدار مورد نظر را بدون ارائه هیچ توضیحی اما با دقتی فوقالعاده پیشبینی کند.
مدلهای رگرسیون طیف گستردهای از مسائل آمار و علوم داده را از اکتشاف تا پیشبینی، استنتاج و تجویز در بر میگیرند و به همین خاطر کاربرد وسیعی در تحقیقات علمی، صنایع، فناوریهای دیجیتال، تولید، کسبوکار، حکمرانی و … پیدا کردهاند. در نتیجه به کارگیری موثر تحلیل رگرسیون در دنیای واقعی نیازمند مهارتهای متنوعی مانند توانایی ایجاد ارتباط بین پدیدههای مختلف در قالب فرضیهسازی و طرح پرسش، تجربه پردازش و تحلیل داده، هنر انتقال موثر و کارآمد اطلاعات و مصورسازی داده برای ارائه محتوای تاثیرگذار و باکیفیت است. به عبارت دیگر، استفاده از تحلیل رگرسیون در دنیای واقعی نیازمند مجموعهای گسترده از مهارتهای نرم و سختی است که غالبا در قلمروی تحلیل داده قرار میگیرند.
طرح درس
در این درس میخواهیم با تلفیقی مبانی نظری و رویکرد کارگاهی به موضوع رگرسیون و تحلیل داده بپردازیم و ضمن دست و پنجه نرم کردن با دادههای واقعی پیچیدگیها و ظرایف کار در این مسیر شغلی را یاد بگیریم.
درس «رگرسیون و تحلیل داده» به صورت فعالیتمحور در پنج بخش ارائه میشود و موارد قابل تحویل آن شامل دو پروژه تحلیل داده و دو کوییز از تمرینهای پنج فصل اول کتاب یادگیری آماری خواهد بود.
در بخش نخست چشمانداز درس با ارائه چند نمونه کار تحلیل داده ترسیم میشود و ابزارهای تحلیل داده مثل R و Python و کتابخانههای آن به اختصار معرفی خواهد شد، اما تدریس نمیشود پیگیری آن به عهده دانشجوست.
در بخش دوم دادههایی از حوزههای گوناگون مثل کسبوکار، انرژی، محیط زیست، حمل و نقل و … معرفی میشود تا در کلاس به صورت جمعی برای تحلیل آنها ایدهپردازی کنیم و به سوالاتی ارزشمند، مفید و البته قابل حل برسیم. پس از گفتگو و انجام برخی تحلیلهای اولیه روی دادهها دانشجوها در گروههای سه یا چهار نفره طرحی با چند پرسش مشخص برای تحلیل دادهها تهیه میکنند و طرحهای خود را در زمانبندی از پیشتعیین شده تحویل میدهند تا پس از تایید طرح، به عنوان پروژه اول کلاس روی انجام آن وقت بگذارند و در نهایت نتایج آن را در کلاس ارائه کنند و به پرسشهای سایر دانشجویان پاسخ دهند و متن کامل آن را تحویل دهند.
در بخش سوم فصلهای 1 تا 5 کتاب Introduction to Statistical Learning (Second Edition) تدریس و مطالعه خواهد شد و تمرینهای آن در کلاس بحث خواهد شد و در دو کوییز مورد ارزیابی قرار خواهد گرفت.
در بخش چهارم دادههایی برای انجام دومین پروژه تحلیل در کلاس انتخاب میشود. انتظار میرود دانشجویان در پروژه دوم توانایی بیشتری برای به کارگیری مدلهای آماری و تحلیل نتایج آن هنگام طرح سوال روی دادههای واقعی داشته باشند.
در بخش پنجم که البته از نظر زمانی به صورت موازی با سایر بخشها برگزار میشود، سخنرانان میهمان برای ارائه تجربیات خود در پروژههای تحلیل داده و مسیر شغلی آن در کلاس حاضر خواهند شد.
پیشنیاز
· گذراندن درسهای آمار و احتمال و جبر خطی
· آشنایی با R یا Python
برنامه آموزش و ارزشیابی
پروژه تحلیل داده اول (9 نمره)
· طرح پروژه: 2 نمره (مهلت تحویل 19 اسفند 1403)
· تحویل پروژه اول: 4 نمره (مهلت تحویل 19 فروردین 1404)
· ارائه نتایج در کلاس: 3 نمره
کوییزهای مدلسازی آماری (5 نمره)
· تمرینهای فصلهای 2 و 3 (2 اردیبهشت 1404)
· تمرینهای فصلهای 4 و 5 (28 اردیبهشت 1404)
پروژه تحلیل داده دوم (9 نمره)
· طرح پروژه: 2 نمره (مهلت تحویل 11 خرداد 1404)
· تحویل پروژه اول: 4 نمره (مهلت تحویل 8 تیر 1404)
· ارائه نتایج در کلاس: 3 نمره
جمع: 23 نمره
تاریخ اعلام نمرات نهایی: 31 تیر 1403
این درس آزمون میان ترم و پایان ترم ندارد و ارزشیابی آن بر اساس خروجی فعالیتهای دانشجویان در قالب پروژه و کوییز در زمانبندیهای یادشده به شرح فوق خواهد بود.
منابعی جهت آمادگی برای انجام پروژهها
مسیر اول: پایتون
مسیر دوم: R
برای یادگیری R مطابق با ترتیب گفتهشده در «برای تحلیل داده با R چه چیزهایی یاد بگیرم؟» عمل کنید.