پردازش متن و زبان طبیعی (NLP) به یک ابزار ضروری برای درک و تحلیل داده در سالهای اخیر بدل شده است. این حوزه شامل ایدهها و الگوریتمهای متعددی برای درک متن و زبان است، در بسیاری از زمینهها مانند موتورهای جستجو در وب، تحلیل احساسات، خلاصهسازی، ترجمه، پاسخگویی به سوالات نقش حیاتی ایفا میکند.
با توسعه فناوری و پیدایش مدلهای زبانی بزرگ (LLMs) پردازش متن به بستری برای ارائه راهکارها و ایدههای جدید برای حل مشکلات مختلف تبدیل شده است. مدلهای زبانی بزرگ (LLM) از طریق آموزش بر روی حجم عظیمی از دادههای متنی ساخته میشوند و به همین خاطر قابلیتهایی برای درک و تولید محتوا دارند و میتوان آنها را با تمرکز بر دانش و اطلاعات یک حوزه خاص آموزش داد و به کار گرفت.
در این دوره جامع، از مبانی پردازش رشته و متن در پایتون شروع میکنیم و به مراحل پیشرفتهتری مانند معرفی تکنیکهای پرکاربرد برای پردازش عبارات باقاعده RegEX، کتابخانههای قدرتمند پردازش زبانهای طبیعی مثل NLTK و Spacy، روشهای Embedding برای استفاده از مدلهای یادگیری ماشین و در نهایت، معرفی و آموزش مدلهای زبانی بزرگ (LLMs) دست یابید.
آشنایی با مدلهای زبانی و توانایی بهرهبرداری از آنها برای پژوهشگران، تحلیلگران و متخصصین فناوری اطلاعات و توسعه کسبوکار در سالهای اخیر از اهمیت ویژهای برخوردار شده است.
این دوره آموزشی آنلاین با همین هدف طراحی شده و از پنج بخش تشکیل میشود:
۱. پیشپردازش متن و کار با RegEx در پایتون
۲. پردازش زبانهای طبیعی NLP با پایتون
۳. یادگیری ماشین برای پردازش زبان در پایتون
۴. کار با مدل های زبانی بزرگ LLMs در پایتون
۵. پروژه پایانی
مدرسین دوره
سعید مجیدی
متخصص پردازش زبانهای طبیعی و مدلهای زبانی بزرگ در گروه صنعتی انتخاب، دکترای یادگیری ماشین با گرایش پردازش زبان از دانشگاه تافتس آمریکا
حسام محمدحسینی
مدیر ارشد مهندسی داده در ایرانسل، سابقه مدیریت محصول در پلتفرم کلانداده دیجیکالا، کارشناسی ارشد مهندسی برق و مخابرات از دانشگاه تربیت مدرس
علیرضا کدیور
تحلیلگر داده و همبنیانگذار در شرکت دقیقه، مدرس مبانی برنامهنویسی و تحلیل داده در دانشگاه صنعتی شریف، کارشناسی ارشد آمار و تحقیق در عملیات از دانشگاه اسکس انگلستان
برنامه آموزشی
سرفصل | مبحث | مدرس | تاریخ |
بخش اول: پیش پردازش متن در پایتون
|
معرفی دوره، آشنایی با داده های متنی و کلاس رشته در پایتون و encoding های مختلف برای پردازش کاراکترهای فارسی | سعید مجیدی، حسام محمدحسینی | ۴ آذر ۱۴۰۳ |
آشنایی با عبارات قاعده مند (Regular Expression) در پایتون و حل مسأله با استفاده از RegEx | حسام محمدحسینی | ۴ آذر ۱۴۰۳ | |
کاربردهای RegEx در برنامه نویسی و پردازش داده | حسام محمدحسینی | ۱۱ آذر ۱۴۰۳ | |
کارگاه پردازش و پاکسازی داده های متنی: آشنایی با کتابخانه Beautiful Soap برای گردآوری و پردازش داده های متنی از صفحات وب | حسام محمدحسینی | ۱۱ آذر ۱۴۰۳ | |
بخش دوم: پردازش زبان های طبیعی با پایتون
|
آشنایی با مفاهیم اساسی پردازش زبان های طبیعی Natural Language Processing | سعید مجیدی | ۱۸ آذر ۱۴۰۳ |
آشنایی با کتابخانه NLTK برای پیش پردازش داده های زبانی در پایتون شامل Tokenization، Lemmatization، Stemming و … | سعید مجیدی | ۱۸ آذر ۱۴۰۳ | |
NLP برای زبان فارسی با کتابخانه های مختلف | سعید مجیدی | ۲۵ آذر ۱۴۰۳ | |
کارگاه NLP در پایتون | سعید مجیدی | ۲۵ آذر ۱۴۰۳ | |
بخش سوم: یادگیری ماشین برای پردازش زبان در پایتون
|
روشهای تبدیل متن به بردار (Bag of Words, TF-IDF) | علیرضا کدیور | ۲ دی ۱۴۰۳ |
روشهای Word Embedding برای تبدیل متن به بردارهایی با ابعاد بالاتر | علیرضا کدیور | ۲ دی ۱۴۰۳ | |
مروری بر کاربردهای یادگیری ماشین در پردازش و تحلیل داده های زبانی | سعید مجیدی | ۹ دی ۱۴۰۳ | |
آشنایی با کتابخانههای Gensim و spaCy برای پردازش پیشرفته زبان های طبیعی | سعید مجیدی | ۹ دی ۱۴۰۳ | |
کارگاه یادگیری ماشین در پردازش داده های زبانی در پایتون | سعید مجیدی | ۱۶ دی ۱۴۰۳ | |
بخش چهارم: کار با مدل های زبانی بزرگ در پایتون
|
مرور جامع شبکههای عصبی و یادگیری عمیق – معرفی شبکههای Sequence-to-Sequence | سعید مجیدی | ۱۶ دی ۱۴۰۳ |
آشنایی با مدلسازی زبان و مدلهای زبانی بزرگ | سعید مجیدی | ۲۳ دی ۱۴۰۳ | |
معرفی معماری Transformers و مکانیزم Attention | سعید مجیدی | ۲۳ دی ۱۴۰۳ | |
آموزش و Fine-tuning مدلهای زبانی | سعید مجیدی | ۳۰ دی ۱۴۰۳ | |
کارگاه مدل های زبانی بزرگ (LLM) در پایتون | سعید مجیدی | ۳۰ دی ۱۴۰۳ | |
معرفی و رفع اشکال پروژه پایانی | سعید مجیدی | بهمن ۱۴۰۳ |
پیشنیازها
برای شرکت در این دوره آشنایی با پایتون و مفاهیم و الگوریتمهای یادگیری ماشین لازم است. اگر با این مفاهیم آشنایی ندارید قبل از شروع دوره، منابعی برای مطالعه و آشنایی با موضوعات در اختیار شما قرار میگیرد
اطلاعات برگزاری
- تاریخ شروع کلاسها: ۴ آذر ۱۴۰۳
- تاریخ پایان کلاسها: ۳۰ دی ۱۴۰۳
- زمان برگزاری: یکشنبهها ساعت ۱۸:۰۰ تا ۲۱:۱۵
- طول دوره: ۳۰ ساعت
- سطح دوه: متوسط و پیشرفته
- شیوه برگزاری: آنلاین (google meet)
ویژگیهای دوره
- یادگیری یکی از مورد توجهترین شاخههای هوش مصنوعی و یادگیری ماشین در دنیا
- تجربه رویارویی با چالشهای موجود در مسائل واقعی
- انجام چند پروژه واقعی از صفر تا صد در طول دوره
- دسترسی به محتوای آموزشی و تمرینها علاوه بر محتوایی که در کلاس ارائه میشود
- دریافت ویدئوی ضبطشده هر جلسه ۲۴ ساعت بعد از برگزاری آن
- امکان پرسشوپاسخ و دریافت پشتیبانی و مشاوره آموزشی
- ایجاد ارتباط با مدرس و دیگر شرکتکنندگان و تقویت شبکه ارتباطی
- امکان پرداخت قسطی
- امکان ثبت نام جداگانه در بخشهای مختلف دوره (در صورت نیاز به پیش از ثبت نام به پشتیبانی اطلاع دهید)
- صدور گواهی دو زبانه در پایان دوره
<<
ثبتنام و پرداخت
شهریه
۷,۲۰۰,۰۰۰ تومان
پرداخت در چهار قسط
۱,۸۰۰,۰۰۰ تومان
برگزارکننده
پشتیبان دوره
شماره تماس: 09103209837
شناسه تلگرام:
@dlearnsup
تماس با مدرسه پردازش و تحلیل داده دقیقه: 02188349244
14 پاسخ
سلام. من خیلی علاقه مندم در این دوره شرکت کنم ولی یکم برام مبهمه که در پایان دوره دقیقا چه کارهایی میتونم بکنم و از چیزهایی که یاد میگیرم چه استفاده هایی میتونم بکنم. کاربردها چی هستند؟
اگر ممکنه کمی بیشتر در این مورد توضیح بدید
خیلی ممنون
با سلام،
در انتهای این دوره شما یاد خواهید گرفت که چگونه با دادههای متنی کارکنید و بتونید مدلهای مختلف یادگیری ماشین رو بر روی دادههای متنی اعمال کنید. همچنین با معماری و نحوهی کارکرد و آموزش مدلهای زبانی بزرگ آشنا خواهید شد و یاد میگیرید که یک مدل زبانی رو چهشکلی میشه با دادههای متنی در دسترس برای یک هدف مشخص Fine tune کرد.
سلام. لطفا بفرمایید پیشنیازهای دوره چیه و این که چقدر ریاضیات لازم داره از قبل بلد باشیم؟
سلام و درود، برای اینکه در این دوره بتونید با مباحث بیاید جلو باید با پایتون آشنا باشید و تجربه کدنویسی در محیط پایتون را داشته باشید. آشنایی با کتابخانههای numpy، pandas و matplotlib هم حتما مفید خواهد بود که میتونید به منابع آموزشی مدرسه مراجعه کنید و این موارد را مطالعه کنید. آشنایی با مبانی یادگیری ماشین و تعدادی از الگوریتمهاش هم میتونه کمکتون کنه اگرچه اون مقداری که لازمه در کلاس مرور میشه.
ریاضیاتی که لازمه چیزی فراتر از مفهوم مشتق و استفاده از آن برای پیدا کردن مینیمم و ماکزیمم توابع و همینطور درک فضاهای برداری در جبر خطی نیست.
منابع آموزشی برای آشنایی با ریاضیات این حوزه در این دو لینک آمده:
d-learn.ir/courses/driv_opt
d-learn.ir/courses/linalgpy
دسترسی به پیشنیازهای دوره قبل از شروع در اختیارتون قرار میگیره.
سلام خیلی علاقه به یاد گیری این برنامه دارم ولی هیچ سررشته اولیه ندارم به قول معروف صفر ،صفر هستم می خواست بدونم مشکلی نداره یا نه پیش نیاز اولیه از قبل باید داشته باشیم تا بتونیم در این دوره شرکت کنیم تشکر
سلام. یک اشتراک سبز با کد تخفیف freeweekfall به صورت رایگان تهیه کنید و درسهای زیر را قبل از شروع دوره بگذرونید:
+ آشنایی با پایتون
d-learn.ir/courses/intropy
+ محاسبات برداری با numpy
d-learn.ir/courses/numpy-intro
+ پردازش و تبدیل داده با pandas
d-learn.ir/courses/pandas-intro
+ مصورسازی داده با matplotlib
d-learn.ir/courses/matplotlib
+ مشتقگیری و بهینهیابی در پایتون
d-learn.ir/courses/driv_opt
+ آشنایی با جبر خطی در پایتون
d-learn.ir/courses/linalgpy
اگر از پیشرفتتون در این مباحث راضی بودید و تونستید در یک بازه دو ماهه بخش خوبی از این مباحث را یاد بگیرید، احتمالا از پس این دوره هم بر میاید.
اگر به توضیح و راهنمایی نیاز داشتید به ما اطلاع بدید.
سلام، لطفا بفرمایید کاربرد این دوره برای یک کسب و کار تولیدی چی میتونه باشه؟
یادگیری چنین موضوعاتی در کسبوکارهای گوناگون اعم از تولیدی یا خدماتی کاربردهای زیادی دارد. در ادامه به چند مورد از آنها اشاره میکنم:
تحلیل بازخورد مشتریان:
اگر کسبوکار شما در حال دریافت بازخوردهای متنی مثل اظهار نظرهای در شبکههای اجتماعی، ایمیلها، یا فرمهای نظرسنجی است، میتوانید از تکنیکهای پردازش زبان طبیعی برای تحلیل این دادهها استفاده کنید و به نیازها و پیشنهادهای مشتریان بهتر پاسخ دهید.
خلاصهسازی و استخراج اطلاعات مهم:
با استفاده از مدلهای زبانی، میتوانید حجم بالایی از متنها مانند گزارشات تولیدی، دستورالعملها و همینطور اخبار مرتبط با صنعت را بهصورت خودکار خلاصهسازی کرده و به اطلاعات مهم دسترسی پیدا کنید.
خودکارسازی ارتباطات داخلی و خارجی:
با پیادهسازی مدلهای زبانی بزرگ، میتوانید چتباتها و سیستمهای خودکار برای پاسخ به سوالات معمول مشتریان یا راهنمایی کارمندان داخلی ایجاد کنید. این میتواند باعث صرفهجویی در زمان و افزایش بهرهوری شود.
طبقهبندی و دستهبندی دادهها:
میتوانید دادههای متنی مختلف را دستهبندی و طبقهبندی کنید، مثلا برای شناسایی مشکلات معمول مشتریان یا ردیابی موارد مشابه، که میتواند در بهبود کیفیت محصول و خدمات کمک کند.
برای بسیاری از این موارد ابزارهای عمومی هوش مصنوعی وجود دارد. اما ممکن است بخواهید چنین اقداماتی را روی دادهها و اسناد خود به صورت شخصیسازیشده انجام دهید یا از کسی بخواهید چنین برنامهای برای شما بنویسد. در چنین شرایط لازم است دانش عمیقتری درباره امکانات NLP و LLMs و شیوههای پیادهسازی آن کسب کنید.
سلام، من ممکن هست سر زمان کلاس انلاین نباشم و یا اصلا از بهمن دوره را ببینم امکان ثبت نام بعد از شروع دوره هم هست؟ و میشه ویدیو افلاین دید؟ و مدرک گرفت؟
سلام. معمولا تعدادی از شرکتکنندهها به صورت آفلاین در دوره شرکت میکنند. فیلم ضبط شده را میبینند و سوالاتی که دارند را در گروه تلگرام مطرح و رفع اشکال میکنند. اگر مباحث را پیگیری کنید و خودتون را به پروژه پایانی برسونید گواهی داده میشه. تا زمانی که گزینههای ثبت نام در این صفحه فعال باشه میتونید ثبت نام کنید. موفق باشید.
با سلام
تاجایی که بنده گفتوشنود داشتم مدلهای زبانی که توسعه داده شده عمدتاً در زبان انگلیسی آموزش داده شده و عملکرد خوبی دارند. خواستم بپرسم در زبان فارسی هم آیا عملکرد nlp و llm به نحوی هست که کاربردی در بازار مورد استقبال و استفاده قرار بگیرد؟
بعد از این دوره ما به درجهای از مهارت برای ورود به بازار کار خواهیم رسید یا این آموزشها مقدماتی خواهد بود؟
باتشکر از پاسخگویی شما
سلام،
درسته که مدلهای زبانی بزرگ بیشتر بر روی دادههای انگلیسی آموزش دیدهاند، اما مدلهای جدیدتر معمولا چندزبانه هستند و مدلهایی همچون Gemma، Llama، و … تقریبا عملکرد خوبی برروی زبان فارسی دارند. مضافبراینکه هماکنون شرکتها و تیمهای تحقیقاتی مختلفی در سرتاسر ایران در حال فاینتون کردن مدلهایی برای کار با زبان فارسیاند.
هدف از این دوره هم آمادهکردن شرکتکنندهگان برای ورود به بازار کاره. سعی ما اینکه که آموزشها در این جهت باشه.
سلام لینک کلاس کجا ارسال شده؟؟
سلام. تمامی اطلاعات شرکت در دوره براتون ایمیل شده.
به همون آدرسی که حساب کاربریتون روی مدرسه را روی اون ساختید.
الان از طریق تلگرام هم براتون میفرستم.