پردازش زبان‌های طبیعی (NLP) و مدل‌های زبانی بزرگ (LLM) در پایتون

Picture2

پردازش متن و زبان طبیعی (NLP) به یک ابزار ضروری برای درک و تحلیل داده‌ در سال‌های اخیر بدل شده است. این حوزه شامل ایده‌ها و الگوریتم‌های متعددی برای درک متن و زبان است، در بسیاری از زمینه‌ها مانند موتورهای جستجو در وب، تحلیل احساسات، خلاصه‌سازی، ترجمه، پاسخگویی به سوالات نقش حیاتی ایفا می‌کند.

با توسعه فناوری و پیدایش مدل‌های زبانی بزرگ  (LLMs) پردازش متن به بستری برای ارائه راهکارها و ایده‌های جدید برای حل مشکلات مختلف تبدیل شده است. مدل‌های زبانی بزرگ (LLM) از طریق آموزش بر روی حجم عظیمی از داده‌های متنی ساخته می‌شوند و به همین خاطر قابلیت‌هایی برای درک و تولید محتوا دارند و می‌توان آن‌ها را با تمرکز بر دانش و اطلاعات یک حوزه خاص آموزش داد و به کار گرفت. 

در این دوره جامع، از مبانی پردازش رشته و متن در پایتون شروع می‌کنیم و به مراحل پیشرفته‌تری مانند معرفی تکنیک‌های پرکاربرد برای پردازش عبارات باقاعده  RegEX، کتابخانه‌های قدرتمند پردازش زبان‌های طبیعی مثل NLTK و  Spacy، روش‌های Embedding برای استفاده از مدل‌های یادگیری ماشین و در نهایت، معرفی و آموزش مدل‌های زبانی بزرگ (LLMs) دست یابید.

آشنایی با مدل‌های زبانی و توانایی بهره‌برداری از آن‌ها برای پژوهشگران، تحلیلگران و متخصصین فناوری اطلاعات و توسعه کسب‌وکار در سال‌های اخیر از اهمیت ویژه‌ای برخوردار شده است. 

این دوره آموزشی آنلاین با همین هدف طراحی شده و از پنج بخش تشکیل می‌شود:

۱. پیش‌پردازش متن و کار با RegEx در پایتون
۲. پردازش زبان‌های طبیعی NLP با پایتون
۳. یادگیری ماشین برای پردازش زبان در پایتون
۴. کار با مدل های زبانی بزرگ LLMs در پایتون
۵. پروژه پایانی

مدرسین دوره

سعید مجیدی

سعید مجیدی

متخصص پردازش زبان‌های طبیعی و مدل‌های زبانی بزرگ در گروه صنعتی انتخاب، دکترای یادگیری ماشین با گرایش پردازش زبان از دانشگاه تافتس آمریکا

حسام محمدحسینی

حسام محمدحسینی

مدیر ارشد مهندسی داده در ایرانسل، سابقه مدیریت محصول در پلتفرم کلان‌داده دیجیکالا، کارشناسی ارشد مهندسی برق و مخابرات از دانشگاه تربیت مدرس

علیرضا کدیور

علیرضا کدیور

تحلیلگر داده و هم‌بنیانگذار در شرکت دقیقه، مدرس مبانی برنامه‌نویسی و تحلیل داده در دانشگاه صنعتی شریف، کارشناسی ارشد آمار و تحقیق در عملیات از دانشگاه اسکس انگلستان

برنامه آموزشی

سرفصلمبحثمدرستاریخ
بخش اول: پیش پردازش متن در پایتون
معرفی دوره، آشنایی با داده های متنی و کلاس رشته در پایتون و encoding های مختلف برای پردازش کاراکترهای فارسیسعید مجیدی، علیرضا کدیور و حسام محمدحسینی۴ آذر ۱۴۰۳
آشنایی با عبارات قاعده مند (Regular Expression) در پایتون و حل مسأله با استفاده از RegExحسام محمدحسینی۴ آذر ۱۴۰۳
کاربردهای RegEx در برنامه نویسی و پردازش دادهحسام محمدحسینی۱۱ آذر ۱۴۰۳
کارگاه پردازش و پاکسازی داده های متنی: آشنایی با کتابخانه Beautiful Soap برای گردآوری و پردازش داده های متنی از صفحات وبحسام محمدحسینی۱۱ آذر ۱۴۰۳
بخش دوم: پردازش زبان های طبیعی با پایتون
آشنایی با مفاهیم اساسی پردازش زبان های طبیعی Natural Language Processingسعید مجیدی۱۸ آذر ۱۴۰۳
آشنایی با کتابخانه NLTK برای پیش پردازش داده های زبانی در پایتون شامل Tokenization، Lemmatization، Stemming و …سعید مجیدی۱۸ آذر ۱۴۰۳
NLP برای زبان فارسی با کتابخانه های مختلفسعید مجیدی۲۵ آذر ۱۴۰۳
کارگاه NLP در پایتونسعید مجیدی۲۵ آذر ۱۴۰۳
بخش سوم: یادگیری ماشین برای پردازش زبان در پایتون
روش‌های تبدیل متن به بردار (Bag of Words, TF-IDF)علیرضا کدیور۲ دی ۱۴۰۳
روش‌های Word Embedding برای تبدیل متن به بردارهایی با ابعاد بالاترعلیرضا کدیور۲ دی ۱۴۰۳
مروری بر کاربردهای یادگیری ماشین در پردازش و تحلیل داده های زبانیسعید مجیدی۹ دی ۱۴۰۳
آشنایی با کتابخانه‌های Gensim و spaCy برای پردازش پیشرفته زبان های طبیعیسعید مجیدی۹ دی ۱۴۰۳
کارگاه یادگیری ماشین در پردازش داده های زبانی در پایتونسعید مجیدی۱۶ دی ۱۴۰۳
بخش چهارم: کار با مدل های زبانی بزرگ در پایتون
مرور جامع شبکه‌های عصبی و یادگیری عمیق – معرفی شبکه‌های Sequence-to-Sequenceسعید مجیدی۱۶ دی ۱۴۰۳
آشنایی با مدل‌‌سازی زبان و مدل‌های زبانی بزرگسعید مجیدی۲۳ دی ۱۴۰۳
معرفی معماری Transformers و مکانیزم Attentionسعید مجیدی۲۳ دی ۱۴۰۳
آموزش و Fine-tuning مدل‌های زبانیسعید مجیدی۳۰ دی ۱۴۰۳
کارگاه مدل های زبانی بزرگ (LLM) در پایتونسعید مجیدی۳۰ دی ۱۴۰۳
معرفی و رفع اشکال پروژه پایانیسعید مجیدیبهمن ۱۴۰۳

پیش‌نیازها

برای شرکت در این دوره آشنایی با پایتون و مفاهیم و الگوریتم‌های یادگیری ماشین لازم است. اگر با این مفاهیم آشنایی ندارید قبل از شروع دوره، منابعی برای مطالعه و آشنایی با موضوعات در اختیار شما قرار می‌گیرد

اطلاعات برگزاری

  • تاریخ شروع کلاس‌ها: ۴ آذر ۱۴۰۳
  • تاریخ پایان کلاس‌ها: ۳۰ دی ۱۴۰۳
  • زمان برگزاری: یکشنبه‌ها ساعت ۱۸:۰۰ تا ۲۱:۱۵
  • طول دوره: ۳۰ ساعت
  • سطح دوه: متوسط و پیشرفته
  • شیوه برگزاری: آنلاین (google meet)

ویژگی‌های دوره

  • یادگیری یکی از مورد توجه‌ترین شاخه‌های هوش مصنوعی و یادگیری ماشین در دنیا 
  • تجربه رویارویی با چالش‌های موجود در مسائل واقعی
  • انجام چند پروژه واقعی از صفر تا صد در طول دوره
  • دسترسی به محتوای آموزشی و تمرین‌ها علاوه بر محتوایی که در کلاس ارائه می‌شود
  • دریافت ویدئوی ضبط‌شده هر جلسه ۲۴ ساعت بعد از برگزاری آن
  • امکان پرسش‌و‌پاسخ و دریافت پشتیبانی و مشاوره آموزشی
  • ایجاد ارتباط با مدرس و دیگر شرکت‌کنندگان و تقویت شبکه ارتباطی
  • امکان پرداخت قسطی
  • امکان ثبت نام جداگانه در بخش‌های مختلف دوره (در صورت نیاز به پیش از ثبت نام به پشتیبانی اطلاع دهید) 
  • صدور گواهی دو زبانه در پایان دوره

<<

ثبت‌نام و پرداخت

شهریه

۷,۲۰۰,۰۰۰ تومان

در صورت پرداخت یکجا با کد تخفیف nLMdk از ۲۵% تخفیف برخوردار می‌شوید.
(اعتبار کد تخفیف تا ۳۰ آبان ۱۴۰۳)

پرداخت در چهار قسط

۱,۸۰۰,۰۰۰ تومان

در صورت استفاده از کد تخفیف nLMdio از ۲۰% تخفیف در هر قسط برخوردار می‌شوید.
(اعتبار کد تخفیف تا ۳۰ آبان ۱۴۰۳)

روز
ساعت
دقیقه
ثانیه

برگزارکننده

پشتیبان دوره

شماره تماس: 09103209837

شناسه تلگرام: 

@dlearnsup

تماس با مدرسه پردازش و تحلیل داده دقیقه: 02188349244

دیدگاه‌ها

11 پاسخ

  1. سلام. من خیلی علاقه مندم در این دوره شرکت کنم ولی یکم برام مبهمه که در پایان دوره دقیقا چه کارهایی میتونم بکنم و از چیزهایی که یاد میگیرم چه استفاده هایی میتونم بکنم. کاربردها چی هستند؟
    اگر ممکنه کمی بیشتر در این مورد توضیح بدید
    خیلی ممنون

    1. با سلام،
      در انتهای این دوره شما یاد خواهید گرفت که چگونه با داده‌های متنی کارکنید و بتونید مدل‌های مختلف یادگیری ماشین رو بر روی داده‌های متنی اعمال کنید. هم‌چنین با معماری و نحوه‌ی کارکرد و آموزش مدل‌های زبانی بزرگ آشنا خواهید شد و یاد می‌گیرید که یک مدل زبانی رو چه‌شکلی میشه با داده‌های متنی در دسترس برای یک هدف مشخص Fine tune کرد.

    1. سلام و درود، برای اینکه در این دوره بتونید با مباحث بیاید جلو باید با پایتون آشنا باشید و تجربه کدنویسی در محیط پایتون را داشته باشید. آشنایی با کتابخانه‌های numpy، pandas و matplotlib هم حتما مفید خواهد بود که میتونید به منابع آموزشی مدرسه مراجعه کنید و این موارد را مطالعه کنید. آشنایی با مبانی یادگیری ماشین و تعدادی از الگوریتم‌هاش هم میتونه کمکتون کنه اگرچه اون مقداری که لازمه در کلاس مرور میشه.
      ریاضیاتی که لازمه چیزی فراتر از مفهوم مشتق و استفاده از آن برای پیدا کردن مینیمم و ماکزیمم توابع و همینطور درک فضاهای برداری در جبر خطی نیست.

      منابع آموزشی برای آشنایی با ریاضیات این حوزه در این دو لینک آمده:

      d-learn.ir/courses/driv_opt
      d-learn.ir/courses/linalgpy

      دسترسی به پیش‌نیازهای دوره قبل از شروع در اختیارتون قرار می‌گیره.

  2. سلام خیلی علاقه به یاد گیری این برنامه دارم ولی هیچ سررشته اولیه ندارم به قول معروف صفر ،صفر هستم می خواست بدونم مشکلی نداره یا نه پیش نیاز اولیه از قبل باید داشته باشیم تا بتونیم در این دوره شرکت کنیم تشکر

    1. سلام. یک اشتراک سبز با کد تخفیف freeweekfall به صورت رایگان تهیه کنید و درس‌های زیر را قبل از شروع دوره بگذرونید:

      + آشنایی با پایتون
      d-learn.ir/courses/intropy
      + محاسبات برداری با numpy
      d-learn.ir/courses/numpy-intro
      + پردازش و تبدیل داده با pandas
      d-learn.ir/courses/pandas-intro
      + مصورسازی داده با matplotlib
      d-learn.ir/courses/matplotlib
      + مشتق‌گیری و بهینه‌یابی در پایتون
      d-learn.ir/courses/driv_opt
      + آشنایی با جبر خطی در پایتون
      d-learn.ir/courses/linalgpy

      اگر از پیشرفتتون در این مباحث راضی بودید و تونستید در یک بازه دو ماهه بخش خوبی از این مباحث را یاد بگیرید، احتمالا از پس این دوره هم بر میاید.

      اگر به توضیح و راهنمایی نیاز داشتید به ما اطلاع بدید.

    1. یادگیری چنین موضوعاتی در کسب‌وکارهای گوناگون اعم از تولیدی یا خدماتی کاربردهای زیادی دارد. در ادامه به چند مورد از آن‌ها اشاره می‌کنم:

      تحلیل بازخورد مشتریان:
      اگر کسب‌وکار شما در حال دریافت بازخوردهای متنی مثل اظهار نظرهای در شبکه‌های اجتماعی، ایمیل‌ها، یا فرم‌های نظرسنجی است، می‌توانید از تکنیک‌های پردازش زبان طبیعی برای تحلیل این داده‌ها استفاده کنید و به نیازها و پیشنهادهای مشتریان بهتر پاسخ دهید.

      خلاصه‌سازی و استخراج اطلاعات مهم:
      با استفاده از مدل‌های زبانی، می‌توانید حجم بالایی از متن‌ها مانند گزارشات تولیدی، دستورالعمل‌ها و همینطور اخبار مرتبط با صنعت را به‌صورت خودکار خلاصه‌سازی کرده و به اطلاعات مهم دسترسی پیدا کنید.

      خودکارسازی ارتباطات داخلی و خارجی:
      با پیاده‌سازی مدل‌های زبانی بزرگ، می‌توانید چت‌بات‌ها و سیستم‌های خودکار برای پاسخ به سوالات معمول مشتریان یا راهنمایی کارمندان داخلی ایجاد کنید. این می‌تواند باعث صرفه‌جویی در زمان و افزایش بهره‌وری شود.

      طبقه‌بندی و دسته‌بندی داده‌ها:
      می‌توانید داده‌های متنی مختلف را دسته‌بندی و طبقه‌بندی کنید، مثلا برای شناسایی مشکلات معمول مشتریان یا ردیابی موارد مشابه، که می‌تواند در بهبود کیفیت محصول و خدمات کمک کند.

      برای بسیاری از این موارد ابزارهای عمومی هوش مصنوعی وجود دارد. اما ممکن است بخواهید چنین اقداماتی را روی داده‌ها و اسناد خود به صورت شخصی‌سازی‌شده انجام دهید یا از کسی بخواهید چنین برنامه‌ای برای شما بنویسد. در چنین شرایط لازم است دانش عمیق‌تری درباره امکانات NLP و LLMs و شیوه‌های پیاده‌سازی آن کسب کنید.

  3. سلام، من ممکن هست سر زمان کلاس انلاین نباشم و یا اصلا از بهمن دوره را ببینم امکان ثبت نام بعد از شروع دوره هم هست؟ و میشه ویدیو افلاین دید؟ و مدرک گرفت؟

    1. سلام. معمولا تعدادی از شرکت‌کننده‌ها به صورت آفلاین در دوره شرکت می‌کنند. فیلم ضبط شده را می‌بینند و سوالاتی که دارند را در گروه تلگرام مطرح و رفع اشکال می‌کنند. اگر مباحث را پیگیری کنید و خودتون را به پروژه پایانی برسونید گواهی داده میشه. تا زمانی که گزینه‌های ثبت نام در این صفحه فعال باشه می‌تونید ثبت نام کنید. موفق باشید.

  4. با سلام

    تاجایی که بنده گفت‌وشنود داشتم مدل‌های زبانی که توسعه داده شده عمدتاً در زبان انگلیسی آموزش داده شده و عملکرد خوبی دارند. خواستم بپرسم در زبان فارسی هم آیا عملکرد nlp و llm به نحوی هست که کاربردی در بازار مورد استقبال و استفاده قرار بگیرد؟

    بعد از این دوره ما به درجه‌ای از مهارت برای ورود به بازار کار خواهیم رسید یا این آموزش‌ها مقدماتی خواهد بود؟

    باتشکر از پاسخگویی شما

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors