محیط وب یکی از بزرگترین منابع برای دادههای گوناگون است. اگر میخواهید قیمتهای یک فروشگاه اینترنتی را یکجا استخراج کنید، دادههای بورس یا قیمت ارز را از وبسایتهای مربوطه بدست آورید، یا آمار اقتصادی و محیط زیستی وبگاه یک سازمان را برای استفاده در تحقیق خود به دست آورید باید فناوریهای استخراج داده از وب را یاد بگیرید. این فرآیندها که معمولا تحت عنوانهای کلی Web Crawling یا Web Scraping شناخته میشوند، در این دوره با رویکرد پروژهمحور به شما آموزش داده خواهد شد.
در دوره آموزشی «استخراج داده از وب» قبل از هر چیزی یاد میگیریم دنیای وب از چه تکنولوژیهایی ساخته شده و یک صفحه وب از چه اجزائی تشکیل شده است. چه پروتکلها و فرآیندهایی در بازیابی اطلاعات از وب وجود دارد و نقش هر کدام چیست. سپس روشهای کلاسیک برای بدست آوردن دادهها از وب را میآموزیم و در مثالهای واقعی، اخذ دادهها از صفحات وب را گام به گام و با استفاده از ابزارهای Web scraping و همچنین زبان Python تمرین خواهیم کرد. پروژه پایانی دوره بهترین فرصت برای تمرین آموختههای شما در طول دوره خواهد بود.
اهداف دوره
- یادگیری اصول پایه و تکنولوژیهای وب (HTML / CSS / JavaScript)
- آشنایی با مفهوم API
- آشنایی با Request و Response و انواع آنها
- شناخت ساختارهای داده در وب (Json و Xml)
- استفاده از Css Selectorها برای استخراج دادهها از وب
- استفاده از افزونه Scraper در مرورگرهای مبتنی بر کروم
- یادگیری دسترسی به صفحات وب در پایتون
- شناخت کاربرد شبیهسازهای مرورگر
- آشنایی با راهکارهای استفاده از Cookie و کپچا برای سایتهای غیرِ باز
مدرس

مجید پورکاشانی
همبنیانگذار، توسعهدهنده نرمافزار و مهندس داده در شرکت پردازش و تحلیل داده دقیقه، کارشناسی مهندس برق از دانشگاه شریف و کارشناسی ارشد هوش مصنوعی از دانشگاه علموصنعت
برنامه آموزشی
- چرایی اهمیت دادهها در وب
- اصول دسترسی و ارتباطات در وب
- مفهوم Client – Server
- درخواست و پاسخ (Request – Response)
- فرآیندها و پروتکلهای ارتباطی
- ساختار صفحات وب
- ساختار HTML
- زبان Javascript
- گرافیک و استایل در وب با CSS
- شرح عملکرد مرورگر
۲. روش Web API Interception برای دسترسی به دادهها
- آشنایی با Developer Tools
- تب Elements
- تب Network
- مشاهده عملیات پشت صحنه
- شناسایی APIها
- چه صفحاتی برای این روش مناسب هستند؟
- مفهوم Dynamic Web page
- مشاهده Request/Responseها در مثال واقعی و زنده
- چگونگی یافتن APIهای حاوی دیتا
- آشنایی با ساختارهای داده
- Json
- XML
- تست و شبیهسازی APIها
- ساختار کلی Request و API
- تست در مرورگر
- تست در Postman
۳. آشنایی با ابزار Postman
- نصب و راه اندازی
- ایجاد Request
- مفهوم GET و POST
- گرفتن خروجی و ارزیابی Response
- ورود اطلاعات Header
- انواع body
- انواع Authorization
- فرمتهای خروجی
- برونداد کد پایتون و …
۴. شناخت Css Selectorها برای استخراج از وب
- مفهوم Query
- جستجو در tag، Class و id
- ترکیب Queryها
- روابط والد، فرزند و همنیایی
- جستجو در ویژگیها (Attributes)
- توالی و شمارش
۵. استفاده از افزونه WebScraper در کروم
- نصب و راه اندازی
- ایجاد Sitemap و ساختار درختی
- اجزای داده
- Element Selector
- Link Selector
- Text Selector
- Element Click
- مدیریت صفحات (Pagination)
- اجرای تمرینات واقعی
- سایت دیجی کالا
- سایت کدال
۶. کتابخانه BeautifulSoup در پایتون
- خواندن فایلهای HTML
- پیمایش عناصر
- استفاده از Css Selectorها
- توابع و متدها
۷. موارد پیشرفته
- سایتهای دارای Login و مسئله Cookieها
- کتابخانه Selenium و شبیهسازهای مرورگر
- استفاده از هوش مصنوعی برای استخراج داده از وب
۸. پروژه پایانی
این دوره برای چه کسانی مفید است؟
- محققان و پژوهشگران: برای جمعآوری دادههای مورد نیاز خود از وبسایتهای مختلف.
- دانشجویان: برای انجام پروژههای دانشگاهی و پایاننامهها که نیاز به دادههای وب دارند.
- تحلیلگران داده: برای جمعآوری و تحلیل دادههای وب به منظور شناسایی روندها و الگوها.
- کارشناسان تحقیقات بازار: برای جمعآوری اطلاعات از وبسایتهای رقبا و تحلیل رفتار مشتریان.
- روزنامهنگاران: برای جمعآوری اطلاعات و دادههای مورد نیاز برای گزارشهای خود.
- اقتصاددانان و جامعهشناسان: برای جمعآوری دادهاز وبسایتهای مختلف و تحلیل آنها.
- مهندسان داده: برای جمعآوری و پردازش دادههای وب به منظور استفاده در پروژههای دادهمحور.
- برنامهنویسان تازهکار: این دوره میتواند به عنوان پروژه عملی برای یادگیری برنامهنویسی و تمرین پایتون مورد استفاده قرار گیرد.
- توسعهدهندگان کسبوکار: با توجه به اینکه وب منبع عظیمی از داده است، کسانی که ایده توسعه کسبوکار با داده را دارند، میتوانند از این دوره بهرهمند شود.
پیشنیاز
برای شرکت در این دوره پیشنیاز ویژهای وجود ندارد اما آشنایی اجمالی با تکنولوژیهای وب و همینطور آشنایی اولیه با زبان پایتون میتواند به فهم بهتر و سریعتر مطالب کمک کند (اگر به منابع یادگیری پایتون نیاز داشتید هنگام ثبت نام به ما اطلاع دهید).
اطلاعات برگزاری
- تاریخ شروع کلاسها: ۱۷ اردیبهشت ۱۴۰۴
- زمان برگزاری: چهارشنبهها ۱۸:۳۰ تا ۲۱:۳۰
- تاریخ پایان کلاسها: ۲۱ خرداد ۱۴۰۴
- ۵ هفته ۱۵ ساعت (همراه با پروژه پایانی)
- شیوه برگزاری: آنلاین
مزیتهای دورههای آموزشیِ مدرسه دقیقه
ویدئوی جلسات
دریافت ویدئوی ضبطشده هر جلسه چند ساعت بعد از برگزاری آن
پشتیبانی کامل
پرسشوپاسخ و دریافت پشتیبانی و مشاوره آموزشی در طول مدت دوره
محتوای آموزشی+
دسترسی به محتوای آموزشی و تمرینها علاوه بر محتوای کلاس
پرداخت قسطی
امکان پرداخت قسطی شهریهی دورههای آموزشی
شبکهسازی
ارتباط با مدرس و شرکتکنندگان و تقویت شبکه ارتباطی
صدور گواهی
صدور گواهی دو زبانه معتبر (قابل استعلام)
ثبتنام و پرداخت
شهریه
۵,۴۰۰,۰۰۰ تومان
با استفاده از کد تخفیف WbStj30 تا ۷ اسفند ۱۴۰۳ از 30% تخفیف برای پرداخت کامل برخوردار شوید.
قابل پرداخت در سه قسط
۱,۸۰۰,۰۰۰ تومان
با استفاده از کد تخفیف WbSj20 تا ۷ اسفند ۱۴۰۳ از 20% تخفیف برای پرداخت قسطی برخوردار شوید.
برگزارکننده
پشتیبان دوره
شماره تماس:
09103209837
شناسه تلگرام:
تماس با مدرسه پردازش و تحلیل داده دقیقه: ۸۸۳۴۹۲۴۴
2 پاسخ
سلام من خیلی به این موضوع علاقه دارم اما رشته علوم انسانی بوده. با ابزارهای دیجیتال در حد متعارف کار کردم اما سابقه برنامهنویسی ندارم. آیا در پایان این دوره میتونم اطلاعات وبسایت مورد نظرم را استخراج کنم و به صورت جدول ذخیره کنم؟
سلام.
مطالب دوره اگرچه به درک کلی مفاهیم مرتبط با عملکرد برنامههای کامپیوتری نیاز دارند، اما تلاش ما این هست که موضوعات بدون پیش نیاز و به ترتیب ارائه شود به طوری که برای علاقمندان و کاربران تحلیل داده با هر زمینه تحصیلی قابل استفاده باشد.
بخشی از محتوای دوره (مشخصا جلسه ۶ و بخشی از جلسه ۷) نیازمند پیش زمینه برنامه نویسی هستند. اما ابزارهایی در دوره معرفی می شوند (مثل Webscraper) که برای استفاده از آنها نیازی به دانش برنامه نویسی نیست. اگر وبسایت موردنظر شما از تکنولوژی یا ابزارهای محدود کننده زیادی استفاده کرده باشد ناگزیر از مقداری برنامه نویسی برای استخراج اطلاعات هستید. اما درصد بسیار زیادی از وب از محتوایی تشکیل شده که به سادگی و بدون نیاز به کدنویسی قابل استخراج هستند.
همچنین با وجود ابزارهای هوش مصنوعی جدید خیلی از کارها به صورت خودکار قابل انجام هستند. در نتیجه نگران نباشید حتما بخش اعظم دوره برای شما قابل استفاده خواهد بود.