پردازش بهینه با pandas و polars

pyps - website

پردازش داده‌های حجیم در پایتون یکی از چالش‌های تحلیلگران داده در مواجهه با داده‌های واقعی است.

بخش قابل توجهی از این چالش‌ها، با استفاده کارآمد و اصولی از کتابخانه pandas همچنان قابل انجام است. عدم استفاده درست از پانداس، عملکرد پردازش را به شدت تحت تاثیر قرار می‌دهد. با در نظر گرفتن این موارد می توان به سقف عملکردی پردازش با pandas  نزدیک شد.
پس از آن برای بهبود عملکرد بر روی یک سیستم، می توان سراغ پردازش موازی داده‌ها با چند هسته رفت. یکی از سرراست‌ترین راه‌ها با رسیدن به این هدف استفاده از کتابخانه polars است.

اگر به چالش پردازش داده‌های حجیم در پایتون برخورده‌ کرده‌اید، این دوره برای شماست. بخش عمده این دوره به بررسی زیر بخش‌های مهم pandas اختصاص دارد و با معرفی polars و انجام یک پروژه پردازش داده در انتهای دوره خاتمه‌ می‌یابد.

مخاطبین دوره

  • تحلیلگران داده در کسب‌وکار و دیگر علاقه‌مندان به حوزه تحلیل داده
  • برنامه‌نویسان پایتون که به دنبال بهبود مهارت‌های خود در پردازش داده‌ هستند
  • دانشجویان و فارغ‌التحصیلان رشته‌های علوم داده، کامپیوتر، آمار و …

معرفی مدرس

حسام‌ محمدحسینی

حسام‌ محمدحسینی

مدیر ارشد مهندسی داده و پلتفرم مدیریت ارزش مشتری (CVM) در ایرانسل، سابقه مدیریت محصول در پلتفرم کلان‌داده دیجیکالا و مدیر ارشد اسبق عملکرد شبکه در ایرانسل؛ کارشناسی مهندسی برق از دانشگاه خواجه نصیرالدین طوسی و کارشناسی ارشد مخابرات سیستم از دانشگاه تربیت مدرس

در هفته اول، با معرفی دوره و ایده‌های اصلی پردازش مقیاس‌پذیر با پانداس آشنا می‌شویم. یک نمونه رایج از پردازش غیربهینه را بررسی می‌کنیم و انگیزه برای بهینه‌سازی را ایجاد می‌کنیم. همچنین، مروری بر دستورات پانداس خواهیم داشت. در هفته دوم، به پردازش رشته در پانداس و کار با عبارات قاعده‌مند می‌پردازیم. وارد کردن داده در پایتون، پیش‌پردازش و پاکسازی داده‌های متنی حجیم در قالب یک پروژه کوچک را نیز بررسی می‌کنیم.

در هفته سوم، تلفیق، تجمیع و تغییر ساختار داده‌ها را به همراه رویکردهای بهینه برای اعمال روی داده‌های حجیم بررسی می‌کنیم. تبدیل داده‌های طولی به عرضی و ارتباط pandas و SQL را نیز خواهیم داشت. بهینه‌سازی پردازش با انتقال محاسبات به پایگاه داده از دیگر مباحث این هفته است.

در هفته چهارم، روش‌های کارآمد حذف داده‌های تکراری و مرتب‌سازی بهینه، چندک‌بندی داده‌های حجیم، انواع تغییر ساختار داده، پاکسازی زنجیره‌ای داده‌ها، خواندن و نوشتن بهینه داده‌ها و استفاده از numpy در حجم بالا را بررسی می‌کنیم. در هفته پنجم، محدودیت‌های پانداس و دلایل آن را بررسی می‌کنیم و مقدمه‌ای بر پردازش موازی با چند هسته با کتابخانه polars خواهیم داشت. در هفته ششم، به تحلیل داده‌های حجیم (پروژه پایانی) می‌پردازیم.

اطلاعات دوره

  • طول دوره: ۱۸ ساعت (۶ هفته)
  • تاریخ شروع: ۱۵ اردیبهشت ۱۴۰۴
  • زمان برگزاری: دوشنبه‌ها ۱۸:۰۰ تا ۲۱:۰۰
  • سطح: پیشرفته (pandas) و مقدماتی (polars)
  • شیوه برگزاری: آنلاین (در بستر google meet)

برنامه آموزشی

 هفته موضوع تاریخ
اول

معرفی دوره، نگاهی به ایده‌های اصلی برای پردازش مقیاس‌پذیر با پانداس، بررسی یک نمونه رایج از پردازش غیربهینه و ایجاد انگیزه برای استفاده بهینه از پانداس

مروری بر دستورات پانداس filter, make new columns, assign و …

۱۵ اردیبهشت ۱۴۰۴
دوم

پردازش رشته در پانداس، کار با عبارات قاعده‌مند (Regular Expressions): وارد کردن داده در پایتون، پیش‌پردازش و پاکسازی یک داده متنی حجیم در قالب یک مینی پروژه

۲۲ اردیبهشت ۱۴۰۴
سوم

تلفیق Join، تجمیع Aggregating and Grouping و تغییر ساختار Reshape: رویکردهای بهینه برای اعمال روی داده‌های حجیم

تبدیل داده‌های طولی (Long Format) به داده‌های عرضی (Wide Format) برای ترسیم جداول مشاهده (Tidy Data)

ارتباط pandas و SQL،  اتصال به پایگاه‌های داده رابطه‌ای با کتابخانه sqlalchemy و پردازش نتیجه با پانداس، بهینه‌سازی پردازش با انتقال هر چه بیشتر محاسبات به پایگاه داده

۲۹ اردیبهشت ۱۴۰۴
چهارم

روش‌های کارآمد حذف داده‌های تکراری (duplicates) و مرتب‌سازی بهینه (optimized sorting)، چندک‌بندی داده‌های حجیم با cut و qcut، انواع تغییر ساختار داده با متد transform، برقراری ارتباط بین جداول داده با متد pipe، پاکسازی زنجیره‌ای داده‌ها Method Chaining، خواندن و نوشتن بهینه داده‌ها، استفاده از numpy در حجم بالا

۵ خرداد ۱۴۰۴
پنجم

بررسی سقف عملکردی و محدودیت های پانداس و واکاوی دلایل آن، مقدمه ای بر پردازش موازی با چند هسته با کتابخانه polars

۱۲ خرداد ۱۴۰۴
ششمپردازش و تحلیل داده‌های حجیم۱۹ خرداد ۱۴۰۴
python logo circle | پردازش بهینه با pandas و polars

پیش‌نیازها

برای شرکت در این دوره آشنایی با Python لازم است. علاوه بر آن آشنایی و تجربه قبلی کار با کتابخانه‌های numpy و pandas و matplotlib نیز قویا توصیه می‌شود. اگر با این موارد آشنایی ندارید قبل از شروع دوره، منابعی برای مطالعه و آشنایی با این موضوعات در اختیار شما قرار می‌گیرد.

مزیت‌های دوره‌‌های آموزشیِ مدرسه دقیقه

ویدئوی جلسات

دریافت ویدئوی ضبط‌شده هر جلسه چند ساعت بعد از برگزاری آن

پشتیبانی کامل

پرسش‌و‌پاسخ و دریافت پشتیبانی و مشاوره آموزشی در طول مدت دوره

محتوای آموزشی+

دسترسی به محتوای آموزشی و تمرین‌ها علاوه بر محتوای کلاس

ثبت‌نام و پرداخت

شهریه

۵,۹۴۰,۰۰۰ تومان

با استفاده از کد تخفیف Psp30 تا ۷ اسفند ۱۴۰۳ از 30% تخفیف برای پرداخت کامل برخوردار شوید.

قابل پرداخت در سه قسط

۱۸۰,۰۰۰ تومان

با استفاده از کد تخفیف sPp20 تا ۷ اسفند ۱۴۰۳ از 20% تخفیف برای پرداخت قسطی برخوردار شوید.

روز
ساعت
دقیقه
ثانیه

برگزارکننده

پشتیبان دوره

شماره تماس:

09103209837

شناسه تلگرام: 

@dlearnsup

تماس با مدرسه پردازش و تحلیل داده دقیقه:

02188349244

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors