یادگیری تحلیل داده با R را از کجا شروع کنم و سراغ چه درسهایی بروم؟
بسیاری از کسانی که دوست دارند وارد بازار کار علوم داده شوند با این سوال دست به گریبانند که یادگیری را از کجا شروع کنند و چه مسیری را برای توسعه دانش و تقویت مهارتهایشان طی کنند.
در این نوشته میخواهم با پرداختن به یکی از این مسیرهای یادگیری به نام «تحلیلگر داده با R» به این سوال پاسخ دهم. قبل از اینکه سراغ خود مسیر و ایستگاههای مختلف آن برویم به دو سوال که معمولا درباره این کلیت این راه پرسیده میشود میپردازم.
چرا تحلیل داده؟
در «علوم داده چیست و چگونه کار میکند؟» با تفصیل بیشتر توضیح داده شده که علوم داده سه گرایش اصلی دارد: «تحلیل داده»، «تحلیل کسب و کار» و «مهندسی داده». اگر دنبال نوشتهای هستید تا به صورت مختصر و مفید با علوم داده آشنا شوید پیشنهاد میکنم آن را مطالعه کنید.
کسانی که با پیشزمینهای غیر از مهندسی کامپیوتر یا علوم کامپیوتر قصد عزیمت به بازار کار علوم داده میکنند، معمولا به «تحلیل داده» و «تحلیل کسب و کار» گرایش دارند و در آن موفقتر عمل میکنند.
چرا R؟
معمولا کسانی که با پیشزمینهای غیر از مهندسی کامپیوتر یا علوم کامپیوتر سراغ «تحلیل داده» و تا حدی «تحلیل کسب و کار» میروند، با زبان R راحت و بهتر ارتباط برقرار میکنند و آن را سریعتر یاد میگیرند.
علوم داده جنبه عملی و آزمایشگاهی جدی دارد و باید همیشه ابزاری برای آزمون و خطا و تحلیل در دسترس باشد. به همین دلیل معمولا مسیر یادگیری علوم داده متکی بر یک ابزار مشخص تعریف میشود تا افراد روی یادگیری مفاهیم و روشها متمرکز شوند. R یکی از محبوبترین و قدرتمندترین ابزارهای برای تحلیل داده در دنیا است و تقریبا تمامی نیازهای تحلیلگر برای کار با داده را پوشش میدهد.
یادگیری R، تحلیلگر داده را تا حد زیادی از یادگیری ابزارهای دیگر بینیاز میکند و او را در یادگیری مفاهیم و روشها و به کار بردن ایدههای جدید متمرکز نگه میدارد و همین دلیل نقش بهسزایی در برانگیختن و رشد و تحلیلگران داده دارد.
اگر دوست دارید بیشتر درباره R بدانید، «چرا R ؟» را مطالعه کنید.
پس اگر پیشزمینهای در علوم یا مهندسی کامپیوتر و توسعه نرمافزار ندارید و با پیشزمینهای غیر از این موارد میخواهید سراغ علوم داده بروید و در علوم داده نیز بیشتر به «تحلیل داده» یا «تحلیل کسب و کار» گرایش دارید، از مسیر یادگیری تحلیلگر داده با R که در ادامه میآید برای شما مناسب است.
عناوینی که در حال حاضر محتوای آموزشیشان در مدرسه دقیقه موجود است، به درس مربوطه لینک شدهاند.
مسیر رشد تحلیلگر داده با R
برای این که دستی در «تحلیل داده با R» پیدا کنیم، سه دسته از مفاهیم و مهارتها هستند که باید آنها را یاد بگیریم:
- پردازش و مصورسازی
- آمار و مدلسازی
- ایدهپردازی و گزارشنویسی موثر
این سه دسته، 12 درس را شامل میشوند که نام هر یک از آنها در ادامه آمده است. با یادگیری این موارد میتوان به عنوان تحلیلگر داده در بازار حرفهای مشغول به کار شد. علاوه بر اینها عناوین دیگری نیز هست که بعد از ارائه این عناوین به آنها پرداخته شده است.
۱. پردازش و مصورسازی
- آشنایی با زبان R
Introduction to R - مصورسازی داده با ggplot2
Data Visualization with ggplot2 - وارد کردن داده در R
Data Importing in R - تبدیل داده با dplyr یا data.table
Data Manipulation with dplyr or data.table - توابع و روشهای پرکاربرد در R
Useful Functions and Methods in R
۲. آمار و مدلسازی
- آشنایی با آمار در R
Introduction to Statistics in R - نمونهگیری آماری در R
Statistical Sampling in R - استنتاج آماری و آزمون فرض در R
- Statistical Inference and Hypothesis Testing in R
- مدلسازی آماری در R
Statistical Modeling in R - تحلیل رگرسیون در R
Regression Analysis in R - شناسایی دادههای پرت در R
Outlier Detection in R
۳. ایدهپردازی و گزارشنویسی
- روایتگری با داده و دیتاژورنالیسم
Story-Telling with Data and Data-Journalism - تحلیل اکتشافی داده در R
Exploratory Analysis in R - مدیریت فایلها و نسخههای برنامه
File Management and Version Control
یادگیری عناوین فوق برای ورود به بازار کار تحلیل داده و ثبیت در یک موقعیت شغلی کافیست. با این حال موضوعات دیگری نیز وجود دارد که کاملا محتمل است در کارمان به آنها بر بخوریم و هر زمان لازم شد میتوانیم آنها را برای رفع نیازهای تحلیلیمان یاد بگیریم. در ادامه فهرستی از این عناوین آمده است.
سایر موارد (یادگیری در زمان نیاز)
دیگر رویکردها و مدلهای آماری
- نمونهگیری در R
Sampling in R - تحلیل عاملی در R
Factor Analysis in R - تحلیل بقا در R
Survival Analysis in R - تحلیل سریهای زمانی با zoo و xts
Time Series Analysis with zoo and xts - معادلات ساختاری در R
Structural Equation Modeling in R - طراحی آزمایش آماری در R
Experimental Design in R
یادگیری ماشین
- مبانی یادگیری ماشین در R
Introduction to Machine Learning in R - دستهبندی در R
Classification in R - خوشهبندی در R
Clustering in R - بردارهای پشتیبان در R
Support Vector Machine in R - تحلیل سبد خرید (تحلیل قواعد همبستگی / انجمنی) در R
Market Basket Analysis (Association Rule Mining) in R - کاهش ابعاد داده در R
Dimensionality Reduction in R - شبکههای عصبی و یادگیری عمیق در R
پردازش زبان طبیعی
- پیشپردازش متن در R
Text Preprocessing in R - روشهای بازنمایی متن در R
Text Representation and Vectorization in R - مدلسازی موضوعی در R
Topic Modeling In R - نظرکاوی در R
Sentiment Analysis in R
سایر موارد
- تحقیق در عملیات در R
Operational Research in R - آزمون A/B در R
A/B Testing in R - تحلیل گراف (شبکه) در R
Network Analysis in R - فرایندکاوی در R
Process Mining in R - تحلیلهای مکانی در R
Spatial Analysis in R
برنامهنویسی
- توابع و روشهای پرکاربرد در R
R programming Best Practices - کار با عبارتهای قاعدهمند در R
Working with Regular Expressions in R - توسعه کتابخانه در R
Package Development in R - برنامهنویسی بهینه در R
Writing Efficient R Codes - استخراج و گردآوری داده از سطح وب در R
- استفاده از R Markdown در گزارشنویسی
Reporting with R Markdown - توسعه سامانههای تعاملی تحت وب با Shiny
Developing Shiny Web Application