روز نخست کارگاه «تحلیل داده در R» در هفتهای که گذشت در دانشکده مهندسی صنایع دانشگاه شریف توسط انجمن علمی دانشجویان همین دانشکده برگزار شد.
مقدمه
در ابتدای جلسه توضیح دادم که در این کارگاه، بخشهای آموزشی به صورت گزیده و بسیار فشرده ارائه میشه. به جاش، بیشترِ وقتمون را روی همفکری برای حل یک مسئله تحلیل داده با استفاده از دادههای واقعی صرف میکنیم. این کار مزایای زیادی در یادگیری داره اما ممکنه گاهی چالشآفرین هم باشه. به همین دلیل اگر جایی احساس کردید بعضی از واژهها، مفاهیم یا تکنیکها و ابزارها براتون گنگه و احتیاج به درنگ و تمرکز بیشتر برای یادگیریشون دارید، حتما خودتون براشون وقت بگذارید و با جستجو در اینترنت و مراجعه به منابع سعی کنید گلیمتون را از آب بیرون بکشید، یا در طول مدت کارگاه سوال بپرسید و مرعوب مجهولات نشید.
اگر فکر میکنید لازمه که در کنار کارگاه یک یا چند منبع آموزشی را به طور کامل مطالعه کنید تا مطمئن شید نسبت به جوانب موضوع اشراف پیدا کردید، به لینک زیر مراجعه کنید:
اینجا علاوه بر منابع آموزشی، یک سری پروژه هم هست که اگر دنبال منابعی برای تمرین و دستورزی بیشتر هستید، میتونه به کارتون بیاد.
اگر دنبال یک ترتیب مناسب برای یادگیری امکانات و سرفصلهای مختلف تحلیل داده با R هستید میتونید به این ترتیب پیش برید:
برای اینکه به محتوای مدرسه دقیقه (d-learn.ir) به طور کامل دسترسی پیدا کنید، لازمه از اینجا اشتراک تهیه کنید:
برای تهیه اشتراک، اگر «اشتراک سبز یکماهه» انتخاب کنید و عبارت زیر را در بخش کد تخفیف وارد کنید، خرید اشتراک رایگان خواهد شد:
iesharif-grn1m-free
این کد تخفیف تا پایان هفته اول اسفند فعال خواهد بود.
اگر فکر میکنید برای یادگیری موثر، به دریافت بازخورد اختصاصی نیاز دارید، اشتراکهای
طلایی را انتخاب کنید. با وارد کردن کد تخفیف زیر، ۵۰% تخفیف روی تمامی طرحهای اشتراک
دریافت کنید:
iesharif-all-50%
این کد تخفیف تا پایان هفته اول اسفند فعال خواهد بود.
اگر احیانا خواستید این کدهای تخفیف را در اختیار دوستانتون قرار بدید هیچ اشکالی نداره و خیلی هم خوب و خوشحال کنندهست. اگر نظر یا پیشنهادی هم درباره محتوای آموزشی مدرسه داشتید حتما در میان بگذارید.
آشنایی سریع با R
در روز اول کارگاه، به صورت فشرده با R آشنا شدیم و مقادیر و عملگرهای پایه در R را بررسی کردیم. دیدیم که بردار چه موقعیت کلیدی و مهمی در R داره و چقدر موجود سهلالوصول و دردسترسیه. شاید به همین دلیله که R بین تحلیلگران داده و آماردانها این اندازه محبوبه. بعد از اون دیدم که چطور میتونیم با اندیسگذاری «صحیح، منطقی و اسم» مقادیرشون را فراخوانی کنیم. در نهایت رسیدیم به اینجا که چطور میتونیم با استفاده از بردارها ماتریس، لیست و جدول بسازیم با ساختارهای پیچیدهتر دادهها کار کنیم. اگر دوست دارید این مباحث را کاملتر مطالعه کنید به اینجا مراجعه کنید:
کدهایی که در کلاس نوشتیم را میتونید اینجا ملاحظه کنید:
# Basic Values in R
# numeric
class(3.56)
class(2)
# integer
class(2L)
# logical
class(F)
TRUE
FALSE
T
F
# character
class('salam')
# We always deal with basic values as vectors
x = c(2,3,5,7,9)
x <- c(2,3,5,7,9)
# = and <- are both assignment operators
class(x) # there is not a new class for vectors
length(x)
y = 1:5
class(y) # integer
# vectorized (element-wise) operations
x * 3
x + y
x > y
z = 51:100
print(z)
# some built-in functions
class()
typeof()
c()
mean(d$k)
min(d$k)
max(d$k)
which.max(d$k)
## How to call values from a vector
# method 1. indexing by integer
z[3]
z[c(3,7,40)]
# method 2. by logical indexing
z > 80
z[z > 80]
z[z > 80 & z < 90]
# method 3. by calling names
t = c(Ali = 15, Mina = 18, Sina = 15)
t
class(t)
t['Ali']
class(t[c('Mina', 'Sina')])
names(t)
a = c(1,3)
names(a) = c('s1', 's2')
a
# Values are mutable in R and can be replaced by new values while calling them
a[2] = 12
a
# a vector has only one class
e = c(1L, 3.6, F, T, 's')
class(e) # takes the most general class among the present values
e
#####################
# matrix
m = 1:100
dim(m) # a vector has no dimention in R
dim(m) = c(20, 5)
m
class(m)
typeof(m) # typeof returns the most general class that an object belongs to
x[c(3, 6, 10),]
# concatenating vectors to build a matrix by row or column
rbind(1:5, 6:10)
cbind(1:5, 6:10)
# list
x = list(n1 = c(1,2,4),
n2 = c('a', 'b', 'c', 'd'),
n3 = 1:20)
class(x)
x
class(x[1]) # [] returns a list
x[[1]]
class(x[[1]]) # [[]] drop the class of the list and returns class the value
x[['n1']]
x$n2 # no need to use '' when we call the names by $
# data.frame
d = data.frame(x = 1:10,
y = letters[1:10],
z = LETTERS[1:10],
k = runif(10, 0, 10))
d
class(d)
# data.frame is a type of list
# it's a list that has been made up of vectors of the same length
typeof(d) # typeof returns the most general class that an object belongs to
# converting matrix to a data.frame
dm = as.data.frame(m)
class(d$x)
d[1,]
d[, 1]
d[1:4, 1:2]
d$x + d$k
d$new_column = 1
d[3, 4] = 40
d[3, 4]
بعد از این قسمت، کمی درباره چگونگی تعریف توابع جدید، قواعد نوشتن ساختار شرط و حلقههای تکرار در R صحبت کردیم که نمونه کدهایی که در کلاس نوشته شد را میتونید در ادامه مشاهده کنید:
newfunction = function(x, y){
z = x + y
return(z)
}
newfunction(3, 6)
x = 8
if (x > 10){
print('x is larger than 10')
} else if (x < 10) {
print('x is less than 10')
} else {
print('x is 10')
}
for (i in 1:10){
print(i)
}
j = 0
while (j < 5){
print(j)
j = j + 1
}
# some plotting functions in base R
plot(runif(50, 0, 10), rnorm(50, 0, 1))
hist(rnorm(50, 0, 1))
تحلیل دادههای آلودگی هوای تهران
بعد از این معرفی، با توجه به وضعیت کیفیت هوا در ماههای اخیر، رفتیم سراغ موضوع آلودگی هوا و دادههای شرکت کنترل کیفیت هوای تهران (متعلق به شهرداری) با دستورزی با این دادهها چیزهایی که یاد گرفتیم را به کار بگیریم و کلی مطلب جدید یاد بگیریم.
این دادهها را میتونید از لینک زیر بردارید (آرشیو شاخص کیفیت هوا):
برای شروع کار تحلیل داده، قدم اول طرح مسئله است. میخواهیم با استفاده از این دادهها و هر داده دیگری که امکان جمعآوریش کم و بیش در اینترنت فراهم باشه، به یک سوال مرتبط با آلودگی هوا که برای خودمون یا افکار عمومی مطرح شده هوا جواب بدیم. در قدم اول باید سوال مورد نظرمون را مشخص کنیم. در همین راستا تعداد قابل توجهی ایده در کلاس طرح شد که 10 تاش را لیست کردیم و در موردشون صحبت کردیم و سعی کردیم در حد توانمون به پرسشهای پختهتری تبدیلشون کنیم:
- تحلیل رابطه تعطیلی با آلودگی هوا: آیا تعطیل کردن مدارس، دانشگاهها تاثیر قابل توجهی در کاهش آلودگی هوا دارد؟
- تحلیل رابطه آلودگی هوا با آمار مرگ و میر: آیا آلودگی هوا با تاثیر بر سلامت افراد سالمند و آسیبپذیر باعث افزایش آمار مرگ و میر میشود؟
- آیا آلودگی هوا در مناطق مختلف تهران یک پدیده یکدست است یا در مناطق تفاوتهای چشمگیر وجود دارد؟ به بیان دیگر وقتی هوا آلوده میشود در همه مناطق آلوده است یا تنها در برخی مناطق آلودگی مشاهده میشود در حالیکه در مناطق دیگر کیفیت هوا قابل قبول یا پاک است؟
- تحلیل سرعت تغییرات آلودگی هوا در تهران برای اینکه به درکی از سرعت تولید آلایندهها در شهر: بیشترین تغییر
- تحلیل رابطه آلودگی هوا با آمار تصادفهای درون شهری چون ممکن است با توجه کاهش دید و تاثیر روانی موثر باشد.
- تحلیل رابطه آلودگی هوا با آمار بیماریهای مادرزادی
- ارتباط آلودگی هوا با پوشش گیاهی و فرسایش خاک
- تحلیل رابطه مصرف انرژی به طور مشخص در نیروگاهها با آلودگی هوا: آیا میتوان با تلفیق این دادهها با یکدیگر سرنخی از سوزاندن سوختهای آلایندهتر مانند سوختهای مایعی مثل گازوییل و مازوت در نیروگاهها پیدا کرد؟
- بررسی رابطه آلودگی هوا با آمار خروج اتوموبیلها از شهر
- بررسی وضعیت آلودگی هوا در ایستگاههای نزدیک به محلهای سوزاندن زباله نسبت به سایر ایستگاهها
همونطور که در کلاس هم بحث شد در مورد خیلی از این موارد ممکنه با موانع زیادی در تحلیل مواجه شیم و خیلی راه همواری پیش رومون نباشه. مثلا ممکنه به دادههای آب و هوایی نیاز داشته باشیم چون به عنوان نمونه میدونیم که وزش باد تاثیر زیادی روی کاهش آلودگی هوا داره، یا مثلا اگر بخواهیم رابطه آلودگی هوا با آمار مرگ و میر را مورد بررسی قرار بدیم، باید به پدیدهای مثل کرونا که میدونیم روی مرگ و میر تاثیر زیادی میگذاره توجه کنیم و چارهای براشون بیاندیشیم و کلی چالشهای دیگه مثل همینا … البته خیلی وقتها پرداختن به همین چالشها در حقیقت همون چیزیه که بررسی ما رو پیش میبره و به طرح فرضیه و تحلیلهای بعدی میرسونه.
بعد از کمی بحث و گفتگو درباره این عناوین، دادههایی را که برای پاسخ به هر سوال نیاز داریم بررسی کردیم. در نتیجه این بررسی، پرسشهای 5 و 6 و 7 به خاطر دشواری در دسترسی به دادههای مورد نیاز کنار گذاشنه شدند. بعد از کاهش تعداد گزینهها روی موارد باقیمانده رایگیری کردیم. گزینههای 8 و 1 با اختلاف بیشتر از بقیه ایدهها رأی آوردند. در نتیجه، دستور کارِ کارگاه شد تلاش برای پاسخ به پرسش شماره 8.
اما قبل از اینکه بریم سراغ تحلیل دادههای مختلف و سعی کنیم با کنار هم قرار دادنشون به این پرسش پاسخ بدیم، باید دادههای آلودگی هوا که موضوع اصلی تحلیلمان خواهد بود را به صورت اختصاصی پیشپردازش و بررسی کنیم.
فایلی که از سایت شرکت کنترل کیفیت هوا در کامپیوتر خودمون دانلود کردیم، فایلی با فرمت xlsx است و برای وارد کردن آن در R باید کتابخانهای مثل readxl را نصب و فراخوانی کنیم. این پیشپردازش را به صورت زیر آغاز کردیم. پیشپردازش مختصری که در دقایق پایانی کلاس انجام دادیم را میتونید در ادامه مشاهده کنید.
library(readxl)
d = read_excel('D:/SMCloud/dataSource/shahrdariTehran/airnow/report.xlsx', skip = 1)
class(d)
# rename the columns
names(d)[1:2] = c('station', 'date')
names(d)[10:15] = paste0('s', 1:6)
# removing the rows that are not observations
d = d[d$station != unique(d$station)[1],]
# take a look at the class of each column
class(d$date)
class(d$CO)
class(d$O3)
# looking at the classes of the columns all at once
sapply(d, class)
# how much of the first column is not available
sum(!is.na(d$station)) / nrow(d)
# calculating not-na-percent in all columns
is_na = function(x){
return(sum(!is.na(x)) / length(x))
}
sapply(d, is_na)
# summary() returns information about NAs in each columns, next to other statistics
summary(d)
در ادامه این کارگاه تلاش میکنیم تا با تحلیل داده آلودگی هوا و اضافه کردن داده مصرف نیروگاهها و شاید دادههای آب و هوا به پرسشی که طرح کردیم جواب بدیم و در خلال پاسخ به این پرسش کار با بعضی از مهمترین کتابخانههای تحلیل داده مثل کتابخانه ggplot2 را یاد بگیریم.
یک پاسخ
ممنون که محتوای کارگاه را به اشتراک گذاشتید
برای موضوعات دیگه هم لطفا این کار را بکنید