استخراج داده از وب

wbsp - website

محیط وب یکی از بزرگترین منابع برای داده‌های گوناگون است. اگر می‌خواهید قیمت‌های یک فروشگاه اینترنتی را یکجا استخراج کنید، داده‌های بورس یا قیمت ارز را از وبسایت‌های مربوطه بدست آورید، یا آمار اقتصادی و محیط زیستی وبگاه یک سازمان را برای استفاده در تحقیق خود به دست آورید باید فناوری‌های استخراج داده‌ از وب را یاد بگیرید. این فرآیندها که معمولا تحت عنوان‌های کلی Web Crawling یا Web Scraping شناخته می‌شوند، در این دوره با رویکرد پروژه‌محور به شما آموزش داده خواهد شد.

در دوره آموزشی «استخراج داده‌ از وب» قبل از هر چیزی یاد می‌گیریم دنیای وب از چه تکنولوژی‌هایی ساخته شده و یک صفحه وب از چه اجزائی تشکیل شده است. چه پروتکل‌ها و فرآیندهایی در بازیابی اطلاعات از وب وجود دارد و نقش هر کدام چیست. سپس روش‌های کلاسیک برای بدست آوردن داده‌ها از وب را می‌آموزیم و در مثال‌های واقعی، اخذ داده‌ها از صفحات وب را گام به گام و با استفاده از ابزارهای Web scraping و همچنین زبان Python تمرین خواهیم کرد. پروژه پایانی دوره بهترین فرصت برای تمرین آموخته‌های شما در طول دوره خواهد بود. 

اهداف دوره

  • یادگیری اصول پایه و تکنولوژی‌های وب (HTML / CSS / JavaScript)
  • آشنایی با مفهوم API
  • آشنایی با Request و Response و انواع آنها
  • شناخت ساختارهای داده در وب (Json و Xml)
  • استفاده از Css Selectorها برای استخراج داده‌ها از وب
  • استفاده از افزونه Scraper در مرورگرهای مبتنی بر کروم
  • یادگیری دسترسی به صفحات وب در پایتون 
  • شناخت کاربرد شبیه‌سازهای مرورگر
  • آشنایی با راهکارهای استفاده از Cookie و کپچا برای سایت‌های غیرِ باز

مدرس

مجید پورکاشانی

مجید پورکاشانی

هم‌بنیان‌گذار، توسعه‌دهنده نرم‌افزار و مهندس داده در شرکت پردازش و تحلیل داده دقیقه، کارشناسی مهندس برق از دانشگاه شریف و کارشناسی ارشد هوش مصنوعی از دانشگاه علم‌و‌صنعت

برنامه آموزشی

۱. آشنایی با وب
  • چرایی اهمیت داده‌ها در وب
  • اصول دسترسی و ارتباطات در وب
    • مفهوم Client – Server
    • درخواست و پاسخ (Request – Response)
    • فرآیندها و پروتکل‌های ارتباطی
  • ساختار صفحات وب
    • ساختار HTML
    • زبان Javascript
    • گرافیک و استایل در وب با CSS
    • شرح عملکرد مرورگر 
 

۲. روش Web API Interception برای دسترسی به داده‌ها

  • آشنایی با Developer Tools
    • تب Elements
    • تب Network
    • مشاهده عملیات پشت صحنه 
  • شناسایی APIها
    • چه صفحاتی برای این روش مناسب هستند؟
    • مفهوم Dynamic Web page
    • مشاهده Request/Responseها در مثال واقعی و زنده
    • چگونگی یافتن APIهای حاوی دیتا
  • آشنایی با ساختارهای داده 
    • Json
    • XML
  • تست و شبیه‌سازی APIها
    •  ساختار کلی Request و API
    • تست در مرورگر
    • تست در Postman
 

۳. آشنایی با ابزار Postman

  • نصب و راه اندازی
  • ایجاد Request
  • مفهوم GET و POST
  • گرفتن خروجی و ارزیابی Response
  • ورود اطلاعات Header
  • انواع body
  • انواع Authorization
  • فرمت‌های خروجی
  • برونداد کد پایتون و …
 

۴. شناخت Css Selectorها برای استخراج از وب

  • مفهوم Query
  • جستجو در tag، Class و id 
  • ترکیب Queryها
  • روابط والد، فرزند و هم‌نیایی
  • جستجو در ویژگی‌ها (Attributes)
  • توالی و شمارش 

 

۵. استفاده از افزونه WebScraper در کروم

  • نصب و راه اندازی
    • ایجاد Sitemap و ساختار درختی 
  • اجزای داده
    • Element Selector
    • Link Selector
    • Text Selector
    • Element Click
    • مدیریت صفحات (Pagination)
  • اجرای تمرینات واقعی
    • سایت دیجی کالا
    • سایت کدال
 

۶. کتابخانه BeautifulSoup در پایتون

  • خواندن فایل‌های HTML
  • پیمایش عناصر
  • استفاده از Css Selectorها
  • توابع و متدها
 

۷. موارد پیشرفته

  • سایتهای دارای Login و مسئله Cookieها
  • کتابخانه Selenium و شبیه‌سازهای مرورگر
  • استفاده از هوش مصنوعی برای استخراج داده از وب 
 

۸پروژه پایانی

این دوره برای چه کسانی مفید است؟

  • محققان و پژوهشگران: برای جمع‌آوری داده‌های مورد نیاز خود از وب‌سایت‌های مختلف.
  • دانشجویان: برای انجام پروژه‌های دانشگاهی و پایان‌نامه‌ها که نیاز به داده‌های وب دارند.
  • تحلیلگران داده: برای جمع‌آوری و تحلیل داده‌های وب به منظور شناسایی روندها و الگوها.
  • کارشناسان تحقیقات بازار: برای جمع‌آوری اطلاعات از وب‌سایت‌های رقبا و تحلیل رفتار مشتریان.
  • روزنامه‌نگاران: برای جمع‌آوری اطلاعات و داده‌های مورد نیاز برای گزارش‌های خود.
  • اقتصاددانان و جامعه‌شناسان: برای جمع‌آوری داده‌از وب‌سایت‌های مختلف و تحلیل آنها.
  • مهندسان داده: برای جمع‌آوری و پردازش داده‌های وب به منظور استفاده در پروژه‌های داده‌محور.
  • برنامه‌نویسان تازه‌کار: این دوره می‌تواند به عنوان پروژه عملی برای یادگیری برنامه‌نویسی و تمرین پایتون مورد استفاده قرار گیرد.
  • توسعه‌دهندگان کسب‌وکار: با توجه به اینکه وب منبع عظیمی از داده‌ است، کسانی که ایده توسعه کسب‌وکار با داده‌ را دارند، می‌توانند از این دوره بهره‌مند شود.

پیش‌نیاز

برای شرکت در این دوره پیش‌نیاز ویژه‌ای وجود ندارد اما آشنایی اجمالی با تکنولوژی‌های وب و همینطور آشنایی اولیه با زبان پایتون می‌تواند به فهم بهتر و سریعتر مطالب کمک کند (اگر به منابع یادگیری پایتون نیاز داشتید هنگام ثبت نام به ما اطلاع دهید).

اطلاعات برگزاری

  • تاریخ شروع کلاس‌ها: ۱۷ اردیبهشت ۱۴۰۴
  • زمان برگزاری: چهارشنبه‌ها ۱۸:۳۰ تا ۲۱:۳۰
  • تاریخ پایان کلاس‌ها: ۲۱ خرداد ۱۴۰۴
  • ۵ هفته ۱۵ ساعت (همراه با پروژه پایانی)
  • شیوه برگزاری: آنلاین

مزیت‌های دوره‌‌های آموزشیِ مدرسه دقیقه

ویدئوی جلسات

دریافت ویدئوی ضبط‌شده هر جلسه چند ساعت بعد از برگزاری آن

پشتیبانی کامل

پرسش‌و‌پاسخ و دریافت پشتیبانی و مشاوره آموزشی در طول مدت دوره

محتوای آموزشی+

دسترسی به محتوای آموزشی و تمرین‌ها علاوه بر محتوای کلاس

پرداخت قسطی

امکان پرداخت قسطی شهریه‌‌ی دوره‌های آموزشی

شبکه‌سازی

ارتباط با مدرس و شرکت‌کنندگان و تقویت شبکه ارتباطی

صدور گواهی

صدور گواهی دو زبانه معتبر (قابل استعلام)

ثبت‌نام و پرداخت

شهریه

۵,۴۰۰,۰۰۰ تومان

با استفاده از کد تخفیف WbStj30 تا ۷ اسفند ۱۴۰۳ از 30% تخفیف برای پرداخت کامل برخوردار شوید.

قابل پرداخت در سه قسط

۱,۸۰۰,۰۰۰ تومان

با استفاده از کد تخفیف WbSj20 تا ۷ اسفند ۱۴۰۳ از 20% تخفیف برای پرداخت قسطی برخوردار شوید.

روز
ساعت
دقیقه
ثانیه

برگزارکننده

پشتیبان دوره

شماره تماس: 

09103209837

شناسه تلگرام: 

t.me/dlearnsup

تماس با مدرسه پردازش و تحلیل داده دقیقه: ۸۸۳۴۹۲۴۴

دیدگاه‌ها

2 پاسخ

  1. سلام من خیلی به این موضوع علاقه دارم اما رشته علوم انسانی بوده. با ابزارهای دیجیتال در حد متعارف کار کردم اما سابقه برنامه‌نویسی ندارم. آیا در پایان این دوره می‌تونم اطلاعات وبسایت مورد نظرم را استخراج کنم و به صورت جدول ذخیره کنم؟

  2. سلام.

    مطالب دوره اگرچه به درک کلی مفاهیم مرتبط با عملکرد برنامه‌های کامپیوتری نیاز دارند، اما تلاش ما این هست که موضوعات بدون پیش نیاز و به ترتیب ارائه شود به طوری که برای علاقمندان و کاربران تحلیل داده با هر زمینه تحصیلی قابل استفاده باشد.

    بخشی از محتوای دوره (مشخصا جلسه ۶ و بخشی از جلسه ۷) نیازمند پیش زمینه برنامه نویسی هستند. اما ابزارهایی در دوره معرفی می شوند (مثل Webscraper) که برای استفاده از آنها نیازی به دانش برنامه نویسی نیست. اگر وبسایت موردنظر شما از تکنولوژی یا ابزارهای محدود کننده زیادی استفاده کرده باشد ناگزیر از مقداری برنامه نویسی برای استخراج اطلاعات هستید. اما درصد بسیار زیادی از وب از محتوایی تشکیل شده که به سادگی و بدون نیاز به کدنویسی قابل استخراج هستند.

    همچنین با وجود ابزارهای هوش مصنوعی جدید خیلی از کارها به صورت خودکار قابل انجام هستند. در نتیجه نگران نباشید حتما بخش اعظم دوره برای شما قابل استفاده خواهد بود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors