پردازش دادههای حجیم در پایتون یکی از چالشهای تحلیلگران داده در مواجهه با دادههای واقعی است.
بخش قابل توجهی از این چالشها، با استفاده کارآمد و اصولی از کتابخانه pandas همچنان قابل انجام است. عدم استفاده درست از پانداس، عملکرد پردازش را به شدت تحت تاثیر قرار میدهد. با در نظر گرفتن این موارد می توان به سقف عملکردی پردازش با pandas نزدیک شد.
پس از آن برای بهبود عملکرد بر روی یک سیستم، می توان سراغ پردازش موازی دادهها با چند هسته رفت. یکی از سرراستترین راهها با رسیدن به این هدف استفاده از کتابخانه polars است.
اگر به چالش پردازش دادههای حجیم در پایتون برخورده کردهاید، این دوره برای شماست. بخش عمده این دوره به بررسی زیر بخشهای مهم pandas اختصاص دارد و با معرفی polars و انجام یک پروژه پردازش داده در انتهای دوره خاتمه مییابد.
مخاطبین دوره
- تحلیلگران داده در کسبوکار و دیگر علاقهمندان به حوزه تحلیل داده
- برنامهنویسان پایتون که به دنبال بهبود مهارتهای خود در پردازش داده هستند
- دانشجویان و فارغالتحصیلان رشتههای علوم داده، کامپیوتر، آمار و …
معرفی مدرس

حسام محمدحسینی
مدیر ارشد مهندسی داده و پلتفرم مدیریت ارزش مشتری (CVM) در ایرانسل، سابقه مدیریت محصول در پلتفرم کلانداده دیجیکالا و مدیر ارشد اسبق عملکرد شبکه در ایرانسل؛ کارشناسی مهندسی برق از دانشگاه خواجه نصیرالدین طوسی و کارشناسی ارشد مخابرات سیستم از دانشگاه تربیت مدرس
در هفته اول، با معرفی دوره و ایدههای اصلی پردازش مقیاسپذیر با پانداس آشنا میشویم. یک نمونه رایج از پردازش غیربهینه را بررسی میکنیم و انگیزه برای بهینهسازی را ایجاد میکنیم. همچنین، مروری بر دستورات پانداس خواهیم داشت. در هفته دوم، به پردازش رشته در پانداس و کار با عبارات قاعدهمند میپردازیم. وارد کردن داده در پایتون، پیشپردازش و پاکسازی دادههای متنی حجیم در قالب یک پروژه کوچک را نیز بررسی میکنیم.
در هفته سوم، تلفیق، تجمیع و تغییر ساختار دادهها را به همراه رویکردهای بهینه برای اعمال روی دادههای حجیم بررسی میکنیم. تبدیل دادههای طولی به عرضی و ارتباط pandas و SQL را نیز خواهیم داشت. بهینهسازی پردازش با انتقال محاسبات به پایگاه داده از دیگر مباحث این هفته است.
در هفته چهارم، روشهای کارآمد حذف دادههای تکراری و مرتبسازی بهینه، چندکبندی دادههای حجیم، انواع تغییر ساختار داده، پاکسازی زنجیرهای دادهها، خواندن و نوشتن بهینه دادهها و استفاده از numpy در حجم بالا را بررسی میکنیم. در هفته پنجم، محدودیتهای پانداس و دلایل آن را بررسی میکنیم و مقدمهای بر پردازش موازی با چند هسته با کتابخانه polars خواهیم داشت. در هفته ششم، به تحلیل دادههای حجیم (پروژه پایانی) میپردازیم.
اطلاعات دوره
- طول دوره: ۱۸ ساعت (۶ هفته)
- تاریخ شروع: ۱۵ اردیبهشت ۱۴۰۴
- زمان برگزاری: دوشنبهها ۱۸:۰۰ تا ۲۱:۰۰
- سطح: پیشرفته (pandas) و مقدماتی (polars)
- شیوه برگزاری: آنلاین (در بستر google meet)
برنامه آموزشی
هفته | موضوع | تاریخ |
اول | معرفی دوره، نگاهی به ایدههای اصلی برای پردازش مقیاسپذیر با پانداس، بررسی یک نمونه رایج از پردازش غیربهینه و ایجاد انگیزه برای استفاده بهینه از پانداس مروری بر دستورات پانداس filter, make new columns, assign و … | ۱۵ اردیبهشت ۱۴۰۴ |
دوم | پردازش رشته در پانداس، کار با عبارات قاعدهمند (Regular Expressions): وارد کردن داده در پایتون، پیشپردازش و پاکسازی یک داده متنی حجیم در قالب یک مینی پروژه | ۲۲ اردیبهشت ۱۴۰۴ |
سوم | تلفیق Join، تجمیع Aggregating and Grouping و تغییر ساختار Reshape: رویکردهای بهینه برای اعمال روی دادههای حجیم تبدیل دادههای طولی (Long Format) به دادههای عرضی (Wide Format) برای ترسیم جداول مشاهده (Tidy Data) ارتباط pandas و SQL، اتصال به پایگاههای داده رابطهای با کتابخانه sqlalchemy و پردازش نتیجه با پانداس، بهینهسازی پردازش با انتقال هر چه بیشتر محاسبات به پایگاه داده | ۲۹ اردیبهشت ۱۴۰۴ |
چهارم | روشهای کارآمد حذف دادههای تکراری (duplicates) و مرتبسازی بهینه (optimized sorting)، چندکبندی دادههای حجیم با cut و qcut، انواع تغییر ساختار داده با متد transform، برقراری ارتباط بین جداول داده با متد pipe، پاکسازی زنجیرهای دادهها Method Chaining، خواندن و نوشتن بهینه دادهها، استفاده از numpy در حجم بالا | ۵ خرداد ۱۴۰۴ |
پنجم | بررسی سقف عملکردی و محدودیت های پانداس و واکاوی دلایل آن، مقدمه ای بر پردازش موازی با چند هسته با کتابخانه polars | ۱۲ خرداد ۱۴۰۴ |
ششم | پردازش و تحلیل دادههای حجیم | ۱۹ خرداد ۱۴۰۴ |

پیشنیازها
برای شرکت در این دوره آشنایی با Python لازم است. علاوه بر آن آشنایی و تجربه قبلی کار با کتابخانههای numpy و pandas و matplotlib نیز قویا توصیه میشود. اگر با این موارد آشنایی ندارید قبل از شروع دوره، منابعی برای مطالعه و آشنایی با این موضوعات در اختیار شما قرار میگیرد.
مزیتهای دورههای آموزشیِ مدرسه دقیقه
ویدئوی جلسات
دریافت ویدئوی ضبطشده هر جلسه چند ساعت بعد از برگزاری آن
پشتیبانی کامل
پرسشوپاسخ و دریافت پشتیبانی و مشاوره آموزشی در طول مدت دوره
محتوای آموزشی+
دسترسی به محتوای آموزشی و تمرینها علاوه بر محتوای کلاس
ثبتنام و پرداخت
شهریه
۵,۹۴۰,۰۰۰ تومان
با استفاده از کد تخفیف Psp30 تا ۷ اسفند ۱۴۰۳ از 30% تخفیف برای پرداخت کامل برخوردار شوید.
قابل پرداخت در سه قسط
۱,۹۸۰,۰۰۰ تومان
با استفاده از کد تخفیف sPp20 تا ۷ اسفند ۱۴۰۳ از 20% تخفیف برای پرداخت قسطی برخوردار شوید.