برای تحلیل داده با R چه چیزهایی یاد بگیرم؟

data-analyst-with-r-learning-path

یادگیری تحلیل داده با R را از کجا شروع کنم و سراغ چه درس‌هایی بروم؟

بسیاری از کسانی که دوست دارند وارد بازار کار علوم داده شوند با این سوال دست به گریبانند که یادگیری را از کجا شروع کنند و چه مسیری را برای توسعه دانش و تقویت مهارت‌هایشان طی کنند.

در این نوشته می‌خواهم با پرداختن به یکی از این مسیرهای یادگیری به نام «تحلیلگر داده با R» به این سوال پاسخ دهم. قبل از اینکه سراغ خود مسیر و ایستگاه‌های مختلف آن برویم به دو سوال که معمولا درباره این کلیت این راه پرسیده می‌شود می‌پردازم.

چرا تحلیل داده؟

در «علوم داده چیست و چگونه کار می‌کند؟» با تفصیل بیشتر توضیح داده‌ شده که علوم داده سه گرایش اصلی دارد: «تحلیل داده»، «تحلیل کسب و کار» و «مهندسی داده». اگر دنبال نوشته‌ای هستید تا به صورت مختصر و مفید با علوم داده آشنا شوید پیشنهاد می‌کنم آن را مطالعه کنید.   

کسانی که با پیش‌زمینه‌ای غیر از مهندسی کامپیوتر یا علوم کامپیوتر قصد عزیمت به بازار کار علوم داده می‌کنند، معمولا به «تحلیل داده» و «تحلیل کسب و کار» گرایش دارند و در آن موفق‌تر عمل می‌کنند. 

چرا R؟

معمولا کسانی که با پیش‌زمینه‌ای غیر از مهندسی کامپیوتر یا علوم کامپیوتر سراغ «تحلیل داده» و تا حدی «تحلیل کسب و کار» می‌روند، با زبان R راحت و بهتر ارتباط برقرار می‌کنند و آن را سریع‌تر یاد می‌گیرند.

علوم داده جنبه عملی و آزمایشگاهی جدی دارد و باید همیشه ابزاری برای آزمون و خطا و تحلیل در دسترس باشد. به همین دلیل معمولا مسیر یادگیری علوم داده متکی بر یک ابزار مشخص تعریف می‌شود تا افراد روی یادگیری مفاهیم و روش‌ها متمرکز شوند. R یکی از محبوب‌ترین و قدرتمندترین ابزارهای برای تحلیل داده در دنیا است و تقریبا تمامی نیازهای تحلیلگر برای کار با داده را پوشش می‌دهد.

یادگیری R، تحلیلگر داده را تا حد زیادی از یادگیری ابزارهای دیگر بی‌نیاز می‌کند و او را در یادگیری مفاهیم و روش‌ها و به کار بردن ایده‌های جدید متمرکز نگه می‌دارد و همین دلیل نقش به‌سزایی در برانگیختن و رشد و تحلیلگران داده دارد.

اگر دوست دارید بیشتر درباره R بدانید، «چرا R ؟» را مطالعه کنید.

پس اگر پیش‌زمینه‌ای در علوم یا مهندسی کامپیوتر و توسعه نرم‌افزار ندارید و با پیش‌زمینه‌ای غیر از این موارد می‌خواهید سراغ علوم داده بروید و در علوم داده نیز بیشتر به «تحلیل داده» یا «تحلیل کسب و کار» گرایش دارید، از مسیر یادگیری تحلیلگر داده با R که در ادامه می‌آید برای شما مناسب است. 

عناوینی که در حال حاضر محتوای آموزشی‌شان در مدرسه دقیقه موجود است، به درس مربوطه لینک شده‌اند.

مسیر رشد تحلیلگر داده با R

برای این که دستی در «تحلیل داده با R» پیدا کنیم، سه دسته از مفاهیم و مهارت‌ها هستند که باید آن‌ها را یاد بگیریم: 

  1. پردازش و مصورسازی
  2. آمار و مدلسازی
  3. ایده‌پردازی و گزارش‌نویسی موثر

این سه دسته، 12 درس را شامل می‌شوند که نام هر یک از آن‌ها در ادامه آمده است. با یادگیری این موارد می‌توان به عنوان تحلیلگر داده در بازار حرفه‌ای مشغول به کار شد. علاوه بر این‌ها عناوین دیگری نیز هست که بعد از ارائه این عناوین به آن‌ها پرداخته شده است.

۱. پردازش و مصورسازی

  1. آشنایی با زبان R
    Introduction to R
  2. مصورسازی داده با ggplot2
    Data Visualization with ggplot2
  3. وارد کردن داده در R
    Data Importing in R
  4. تبدیل داده با dplyr یا data.table
    Data Manipulation with dplyr or data.table
  5. توابع و روش‌های پرکاربرد در R
    Useful Functions and Methods in R

۲. آمار و مدلسازی

  1. آشنایی با آمار در R
    Introduction to Statistics in R
  2. نمونه‌گیری آماری در R
    Statistical Sampling in R
  3. استنتاج آماری و آزمون فرض در R
  4. Statistical Inference and Hypothesis Testing in R
  5. مدلسازی آماری در R
    Statistical Modeling in R
  6. تحلیل رگرسیون در R
    Regression Analysis in R
  7. شناسایی داده‌های پرت در R
    Outlier Detection in R

۳. ایده‌پردازی و گزارش‌نویسی

  1. روایت‌گری با داده‌ و دیتاژورنالیسم
    Story-Telling with Data and Data-Journalism
  2. تحلیل اکتشافی داده در R
    Exploratory Analysis in R
  3. مدیریت فایل‌ها و نسخه‌های برنامه
    File Management and Version Control

یادگیری عناوین فوق برای ورود به بازار کار تحلیل داده و ثبیت در یک موقعیت شغلی کافیست. با این حال موضوعات دیگری نیز وجود دارد که کاملا محتمل است در کارمان به آن‌ها بر بخوریم و هر زمان لازم شد می‌توانیم آن‌ها را برای رفع نیازهای تحلیلی‌مان یاد بگیریم. در ادامه فهرستی از این عناوین آمده است. 

سایر موارد (یادگیری در زمان نیاز)

دیگر رویکردها و مدل‌های آماری

  • نمونه‌گیری در R
    Sampling in R
  • تحلیل عاملی در R
    Factor Analysis in R
  • تحلیل بقا در R
    Survival Analysis in R
  • تحلیل سری‌های زمانی با zoo و xts
    Time Series Analysis with zoo and xts
  • معادلات ساختاری در R
    Structural Equation Modeling in R
  • طراحی آزمایش آماری در R
    Experimental Design in R

یادگیری ماشین

  • مبانی یادگیری ماشین در R
    Introduction to Machine Learning in R
  • دسته‌بندی در R
    Classification in R
  • خوشه‌بندی در R
    Clustering in R
  • بردارهای پشتیبان در R
    Support Vector Machine in R
  • تحلیل سبد خرید (تحلیل قواعد همبستگی / انجمنی) در R
    Market Basket Analysis (Association Rule Mining) in R
  • کاهش ابعاد داده در R
    Dimensionality Reduction in R
  • شبکه‌های عصبی و یادگیری عمیق در R
  •  

پردازش زبان طبیعی

  • پیش‌پردازش متن در R
    Text Preprocessing in R
  • روش‌های بازنمایی متن در R
    Text Representation and Vectorization in R
  • مدلسازی موضوعی در R
    Topic Modeling In R
  • نظرکاوی در R
    Sentiment Analysis in R

سایر موارد

  • تحقیق در عملیات در R
    Operational Research in R
  • آزمون A/B در R
    A/B Testing in R
  • تحلیل گراف (شبکه) در R
    Network Analysis in R
  • فرایندکاوی در R
    Process Mining in R
  • تحلیل‌های مکانی در R
    Spatial Analysis in R

برنامه‌نویسی

  • توابع و روش‌های پرکاربرد در R
    R programming Best Practices
  • کار با عبارت‌های قاعده‌مند در R
    Working with Regular Expressions in R
  • توسعه کتابخانه در R
    Package Development in R
  • برنامه‌نویسی بهینه در R
    Writing Efficient R Codes
  • استخراج و گردآوری داده از سطح وب در R
  • استفاده از R Markdown در گزارش‌نویسی
    Reporting with R Markdown
  • توسعه سامانه‌های تعاملی تحت وب با Shiny
    Developing Shiny Web Application

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors