آشنایی و نصب

مفاهیم پایه

بردار

ماتریس

فاکتور

لیست

جدول

معرفی جدول (data.frame)

فهرست

data.frame چیست؟

در بسیاری از مسائل تحلیلی، داده‌ها در قالب جدول سازماندهی می‌شوند. سازماندهی داده‌ها در قالب جدول پردازش بسیاری از داده‌ها را ساده‌تر می‌کند. برای اینکه کار با جدول در محیط R راحت و بی‌دردسر باشد، نوعی به نام data.frame در R وجود دارد. در data.frame داده‌ها در قالب جدول سازماندهی می‌شوند. 

نوع data.frame در R در واقع حالت خاصی از list است که دو ویژگی افزون بر لیست دارد:

  • اعضای آن همگی بُردارهایی از نوع numeric ،integer ،logical ،character و factor هستند.
  • طول تمامی اعضای آن یکسان است.
  • تمامی اعضای لیست، نام دارند. 

به بیان ساده‌تر، data.frame لیستی است که از تعداد بردار هم‌طولِ نامگذاری شده تشکیل شده است. 

تعریف در محیط R

برای تعریف data.frame از تابعی پیش‌ساخته با همین نام استفاده می‌شود. فرض کنید نظر چند نفر را درباره یک محصول پرسیده‌ایم و می‌خواهیم نظرات پرسش‌شوندگان را همراه با برخی اطلاعات دموگرافیک آن‌ها مانند سن، جنسیت، وضعیت تاهل و سال نظرسنجی در یک جدول ذخیره کنیم. برای ایجاد چنین جدولی کافیست به صورت زیر عمل کنیم:

				
					d = data.frame(name = c('Ali', 'Maryam', 'Sina', 'Zahra', 'Mina'),
               gender = c('male', 'female', 'male', 'female', 'female'),
               age = c(14, 16, 21, 32, 37),
               married = c(F, F, F, T, T),
               Opinion = c('like', 'dislike', 'like', 'dislike', 'dislike'),
               year = 1400)

class(d)
print(d)

				
			
				
					[1] "data.frame"

    name gender age married Opinion year
1    Ali   male  14   FALSE    like 1400
2 Maryam female  16   FALSE dislike 1400
3   Sina   male  21   FALSE    like 1400
4  Zahra female  32    TRUE dislike 1400
5   Mina female  37    TRUE dislike 1400
				
			

در کد بالا، متغیر d از نوع جدول data.frame است. بردارهای مختلف از نوع‌های character، numeric و logical به عنوان ستون‌های جدول به یکدیگر وصل شده‌اند و یک جدول را تشکیل داده‌اند. 

* * *

چگونه داده‌ها را در قالب جدول سازماندهی کنیم؟

اینکه داده‌های خود را چگونه در قالب جدول سازماندهی کنیم به نیازمندی‌های مسئله بستگی دارد. یکی از پرکاربردترین روش‌ها برای ساماندهی داده‌ها، آرایش‌ آن‌ها به گونه‌ای است که هر سطر نشان‌دهندۀ یک مشاهده، هر ستون نشان‌دهندۀ یک متغیر و هر خانه از جدول نشان‌دهندۀ تنها یک مقدار باشد. 

در این روش سازماندهی داده‌ها، هیچ دو خانه‌ای با یکدیگر ادغام (merge) نمی‌شود.

سطر: مشاهده

هر یک از سطرها در جدول d، معرّف مقادیر مربوط به یکی از پرسش‌شوندگان است که اصطلاحاً به هر یک از آن‌ها یک مشاهده (Observation) گفته می‌شود. مشاهده‌ها از روی یکدیگر قابل محاسبه نیستند؛ مثلا اگر مقدار متوسط سن پرسش‌شوندگان را در یک سطر به جدول اضافه کنیم، این سطر دیگر یک مشاهده قلمداد نمی‌شود چون از روی دیگر سطرها قابل محاسبه است. 

ستون: متغیر

اگر سطرهای جدول نشانگرِ یک مشاهده باشند، می‌توانیم هر یک از ستون‌های آن را از نقطه‌نظر آماری یک متغیر (Variable) قلمداد کنیم. 

* * *

آرایش یک جدول به گونه‌ای که سطرها مجموعه‌‎ای از مشاهدات باشند امکان انجام اعمال ریاضی روی ستون‌ها را که در تحلیل داده‌ها حائز اهمیت فراوان است فراهم می‌کند. مثلا برای اینکه بفهمیم چند نفر از پرسش‌شوندگان متاهل بوده‌اند کافیست ستون married را از جدولِ d فراخوانی و مقادیر آن را با یکدیگر جمع کنیم. 

سازماندهی جدول در قالب مشاهده و متغیر، علاوه بر محاسبات ریاضی، فراخوانی‌های وابسته به چند ستون را هم میسر می‌کند. 

در درس‌های بعد با این موارد بیشتر آشنا خواهیم شد.

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors