معرفی جدول (data.frame) – مدرسه پردازش و تحلیل داده دقیقه

سرفصل‌ها

آشنایی و نصب

مفاهیم پایه

بردار

ماتریس

فاکتور

لیست

جدول

معرفی جدول (data.frame)

data.frame چیست؟

در بسیاری از مسائل تحلیلی، داده‌ها در قالب جدول سازماندهی می‌شوند. سازماندهی داده‌ها در قالب جدول پردازش بسیاری از داده‌ها را ساده‌تر می‌کند. برای اینکه کار با جدول در محیط R راحت و بی‌دردسر باشد، نوعی به نام data.frame در R وجود دارد. در data.frame داده‌ها در قالب جدول سازماندهی می‌شوند.

نوع data.frame در R در واقع حالت خاصی از list است که دو ویژگی افزون بر لیست دارد:

اعضای آن همگی بُردارهایی از نوع numeric ،integer ،logical ،character و factor هستند.
طول تمامی اعضای آن یکسان است.
تمامی اعضای لیست، نام دارند.

به بیان ساده‌تر، data.frame لیستی است که از تعداد بردار هم‌طولِ نامگذاری شده تشکیل شده است.

typeof و mode علاوه بر تابع class توابع typeof و mode نیز برای دانستن نوع یک متغیر یا مقدار در R کاربرد دارند. typeof و mode شباهت زیادی به یکدیگر دارند و سعی ‌کنند نوع مقادیر را در پایین‌ترین سطح تشخیص دهند و گزارش کنند. اما class نوع را در بالاترین سطح گزارش می‌کند. این تفاوت، وقتی در درس‌های بعد ببینیم نوع‌هایی که تا کنون با آن‌ها آشنا شدیم چگونه به نوع‌های جدید و ساختاریافته‌تر بدل می‌شوند، مشخص‌تر خواهد شد. مثلا اگر یک دیتافریم را به عنوان ورودی به تابع typeof مقدار list بازگردانده می‌شود، چراکه data.frame از روی list ساخته شده است.

تعریف در محیط R

برای تعریف data.frame از تابعی پیش‌ساخته با همین نام استفاده می‌شود. فرض کنید نظر چند نفر را درباره یک محصول پرسیده‌ایم و می‌خواهیم نظرات پرسش‌شوندگان را همراه با برخی اطلاعات دموگرافیک آن‌ها مانند سن، جنسیت، وضعیت تاهل و سال نظرسنجی در یک جدول ذخیره کنیم. برای ایجاد چنین جدولی کافیست به صورت زیر عمل کنیم:

				
					d = data.frame(name = c('Ali', 'Maryam', 'Sina', 'Zahra', 'Mina'),
               gender = c('male', 'female', 'male', 'female', 'female'),
               age = c(14, 16, 21, 32, 37),
               married = c(F, F, F, T, T),
               Opinion = c('like', 'dislike', 'like', 'dislike', 'dislike'),
               year = 1400)

class(d)
print(d)

				
					[1] "data.frame"

    name gender age married Opinion year
1    Ali   male  14   FALSE    like 1400
2 Maryam female  16   FALSE dislike 1400
3   Sina   male  21   FALSE    like 1400
4  Zahra female  32    TRUE dislike 1400
5   Mina female  37    TRUE dislike 1400

در کد بالا، متغیر d از نوع جدول data.frame است. بردارهای مختلف از نوع‌های character، numeric و logical به عنوان ستون‌های جدول به یکدیگر وصل شده‌اند و یک جدول را تشکیل داده‌اند.

تفاوت matrix و data.frame در R دیتافریم و ماتریس هر دو از تعدادی سطر و ستون تشکیل شده‌اند و از این نظر به یکدیگر شباهت زیادی دارند - به همین دلیل می‌توان برخی توابعی که برای کار با ماتریس‌ها معرفی شد مانند nrow، ncol و dim را برای دیتافریم‌ها نیز به کار برد؛ اما در ماتریس تمامی مقادیر از یک نوع هستند، مثلا numeric ،integer ،logical ،character یا factor اند. اما در دیتافریم ستون‌ها می‌توانند مقادیر متفاوت داشته باشند.

* * *

چگونه داده‌ها را در قالب جدول سازماندهی کنیم؟

اینکه داده‌های خود را چگونه در قالب جدول سازماندهی کنیم به نیازمندی‌های مسئله بستگی دارد. یکی از پرکاربردترین روش‌ها برای ساماندهی داده‌ها، آرایش‌ آن‌ها به گونه‌ای است که هر سطر نشان‌دهندۀ یک مشاهده، هر ستون نشان‌دهندۀ یک متغیر و هر خانه از جدول نشان‌دهندۀ تنها یک مقدار باشد.

در این روش سازماندهی داده‌ها، هیچ دو خانه‌ای با یکدیگر ادغام (merge) نمی‌شود.

سطر: مشاهده

هر یک از سطرها در جدول d، معرّف مقادیر مربوط به یکی از پرسش‌شوندگان است که اصطلاحاً به هر یک از آن‌ها یک مشاهده (Observation) گفته می‌شود. مشاهده‌ها از روی یکدیگر قابل محاسبه نیستند؛ مثلا اگر مقدار متوسط سن پرسش‌شوندگان را در یک سطر به جدول اضافه کنیم، این سطر دیگر یک مشاهده قلمداد نمی‌شود چون از روی دیگر سطرها قابل محاسبه است.

ستون: متغیر

اگر سطرهای جدول نشانگرِ یک مشاهده باشند، می‌توانیم هر یک از ستون‌های آن را از نقطه‌نظر آماری یک متغیر (Variable) قلمداد کنیم.

* * *

آرایش یک جدول به گونه‌ای که سطرها مجموعه‌‎ای از مشاهدات باشند امکان انجام اعمال ریاضی روی ستون‌ها را که در تحلیل داده‌ها حائز اهمیت فراوان است فراهم می‌کند. مثلا برای اینکه بفهمیم چند نفر از پرسش‌شوندگان متاهل بوده‌اند کافیست ستون married را از جدولِ d فراخوانی و مقادیر آن را با یکدیگر جمع کنیم.

سازماندهی جدول در قالب مشاهده و متغیر، علاوه بر محاسبات ریاضی، فراخوانی‌های وابسته به چند ستون را هم میسر می‌کند.

در درس‌های بعد با این موارد بیشتر آشنا خواهیم شد.

→ قبلی بعد ←

آشنایی و نصب

چرا R ؟

مفاهیم پایه

متغیر و توابع پیش‌‍ساخته

تمرین: جلوگیری از سرماخوردگی!

تمرین: مساحت بین دایره و مربع

بردار

فراخوانی مقدارهای یک بردار

توابع پرکاربرد روی بردارها

تمرین: کمک‌های نقدی

تمرین: آزمایش خون

تمرین: رسیدگی به نمرات

ماتریس

فراخوانی مقادیر ماتریس

تمرین: آنالیز فروش صندلی‌ها

تمرین: مطالعۀ شبکۀ دوستی

فاکتور

معرفی فاکتور

ترتیب مقدارهای مجاز و مقدار مرجع

لیست

معرفی لیست

جدول

توصیف و بررسی اولیه

فراخوانیِ مقادیر و مرتب‌سازی

تمرین: تحلیل تبلیغات دیجیتال

تمرین: فاکتورهای فروش فراورده‌های شیر

فهرست

data.frame چیست؟

تعریف در محیط R

چگونه داده‌ها را در قالب جدول سازماندهی کنیم؟

سطر: مشاهده

ستون: متغیر

شبکه‌های اجتماعی

آخرین مطالب

مدرسه پردازش و تحلیل داده دقیقه

وارد شدن