رگرسیون و تحلیل داده (دانشگاه صنعتی شریف)

نیم‌سال دوم ۱۴۰۴-۱۴۰۳

معرفی درس

تحلیل رگرسیون عبارت است از فرایند مدلسازی آماری که با هدف توضیح یا پیش‌بینی یک متغیر تصادفی از نوع عددی پیوسته انجام می‌شود. مدل آماری می‌تواند ساده و غیرمنطعف با تعداد پارامترهای اندک باشد و به توضیحی ابتدایی اما ساده و سرراست درباره متغیر هدف بسنده کند، یا پیچیده و منعطف با تعداد بسیار زیادی پارامتر باشد و مقدار مورد نظر را بدون ارائه هیچ توضیحی اما با دقتی‌ فوق‌العاده‌ پیش‌بینی کند.

مدل‌های رگرسیون طیف گسترده‌ای از مسائل آمار و علوم داده را از اکتشاف تا پیش‌بینی، استنتاج و تجویز در بر می‌گیرند و به همین خاطر کاربرد وسیعی در تحقیقات علمی، صنایع، فناوری‌های دیجیتال‌، تولید، کسب‌وکار، حکمرانی و … پیدا کرده‌اند. در نتیجه به کارگیری موثر تحلیل رگرسیون در دنیای واقعی نیازمند مهارت‌های متنوعی مانند توانایی ایجاد ارتباط بین پدیده‌های مختلف در قالب فرضیه‌سازی و طرح پرسش، تجربه پردازش و تحلیل داده، هنر انتقال موثر و کارآمد اطلاعات و مصورسازی داده برای ارائه محتوای تاثیرگذار و باکیفیت است. به عبارت دیگر، استفاده از تحلیل رگرسیون در دنیای واقعی نیازمند مجموعه‌ای گسترده‌ از مهارت‌های نرم و سختی است که غالبا در قلمروی تحلیل داده قرار می‌گیرند.

طرح درس

در این درس می‌خواهیم با تلفیقی مبانی نظری و رویکرد کارگاهی به موضوع رگرسیون و تحلیل داده بپردازیم و ضمن دست و پنجه نرم کردن با داده‌های واقعی پیچیدگی‌ها و ظرایف کار در این مسیر شغلی را یاد بگیریم.

درس «رگرسیون و تحلیل داده» به صورت فعالیت‌محور در پنج بخش ارائه می‌شود و موارد قابل تحویل آن شامل دو پروژه تحلیل داده و دو کوییز از تمرین‌های پنج فصل اول کتاب یادگیری آماری خواهد بود.  

در بخش نخست چشم‌انداز درس با ارائه چند نمونه کار تحلیل داده ترسیم می‌شود و ابزارهای تحلیل داده مثل R و Python و کتابخانه‌های آن به اختصار معرفی خواهد شد، اما تدریس نمی‌شود پیگیری آن به عهده دانشجوست.

در بخش دوم داده‌هایی از حوزه‌های گوناگون مثل کسب‌وکار، انرژی، محیط زیست، حمل و نقل و … معرفی می‌شود تا در کلاس به صورت جمعی برای تحلیل آن‌ها ایده‌پردازی کنیم و به سوالاتی ارزشمند، مفید و البته قابل حل برسیم. پس از گفتگو و انجام برخی تحلیل‌های اولیه روی داده‌ها دانشجوها در گروه‌های سه یا چهار نفره طرحی با چند پرسش مشخص برای تحلیل داده‌ها تهیه می‌کنند و طرح‌های خود را در زمان‌بندی از پیش‌تعیین شده تحویل می‌دهند تا پس از تایید طرح، به عنوان پروژه اول کلاس روی انجام آن وقت بگذارند و در نهایت نتایج آن را در کلاس ارائه کنند و به پرسش‌های سایر دانشجویان پاسخ دهند و متن کامل آن را تحویل دهند.  

در بخش سوم فصل‌های 1 تا 5 کتاب Introduction to Statistical Learning (Second Edition) تدریس و مطالعه خواهد شد و تمرین‌های آن در کلاس بحث خواهد شد و در دو کوییز مورد ارزیابی قرار خواهد گرفت.

در بخش چهارم داده‌هایی برای انجام دومین پروژه تحلیل در کلاس انتخاب می‌شود. انتظار می‌رود دانشجویان در پروژه دوم توانایی بیشتری برای به‌ کارگیری مدل‌های آماری و تحلیل نتایج آن هنگام طرح سوال روی داده‌های واقعی داشته باشند.

در بخش پنجم که البته از نظر زمانی به صورت موازی با سایر بخش‌ها برگزار می‌شود، سخنرانان میهمان برای ارائه تجربیات خود در پروژه‌های تحلیل داده و مسیر شغلی آن در کلاس حاضر خواهند شد.

پیش‌نیاز

·       گذراندن درس‌های آمار و احتمال و جبر خطی

·       آشنایی با R یا Python

برنامه آموزش و ارزشیابی

پروژه تحلیل داده اول (9 نمره)

·        طرح پروژه: 2 نمره (مهلت تحویل 19 اسفند 1403)

·        تحویل پروژه اول: 4 نمره (مهلت تحویل 19 فروردین 1404)

·        ارائه نتایج در کلاس: 3 نمره       

کوییز‌های مدلسازی آماری (5 نمره)

·        تمرین‌های فصل‌های 2 و 3 (2 اردیبهشت 1404)

·        تمرین‌های فصل‌های 4 و 5 (28 اردیبهشت 1404)

پروژه تحلیل داده دوم (9 نمره)

·        طرح پروژه: 2 نمره (مهلت تحویل 11 خرداد 1404)

·        تحویل پروژه اول: 4 نمره (مهلت تحویل 8 تیر 1404)

·        ارائه نتایج در کلاس: 3 نمره      

جمع: 23 نمره

 

تاریخ اعلام نمرات نهایی: 31 تیر 1403

 

این درس آزمون میان‌ ترم و پایان ترم ندارد و ارزشیابی آن بر اساس خروجی فعالیت‌های دانشجویان در قالب پروژه و کوییز در زمان‌بندی‌های یادشده به شرح فوق خواهد بود.

منابعی جهت آمادگی برای انجام پروژه‌ها

مسیر اول: پایتون

مسیر دوم: R

سایر موارد

sharif logo 1 | رگرسیون و تحلیل داده (دانشگاه صنعتی شریف)
دانشکده علوم ریاضی

دسترسی به محتوای اختصاصی کلاس

برای دسترسی به محتوای اختصاصی این کلاس لطفا کدی که در اختیار شما قرار گرفته را وارد کنید و بقیه مراحل را طی کنید.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors