فهرست مطالب
همانطور که گفته شد استفاده از فایلهای csv به دلیل ساختار ساده آن بیشتر مورد استفاده قرار میگیرد. در R نیز استفاده از این نوع فایلها بسیار متداول است. دستور ()read.csv
بلافاصله پس از نصب R قابل استفاده است. این دستور در کتابخانه utils
قرار دارد و با راهاندازی R بصورت خودکار بارگذاری میشود و برای فراخوانی آن احتیاج به نصب و باگذاری کتابخانهای نیست.
ورود داده با read.csv
دستور read.csv
در واقع همان دستور read.table
است با این تفاوت که پیشفرضهای آن طوری تنظیم شده است که برای فایلهای csv مناسب است. جدول زیر برخی آرگومان های پرکاربرد این دستور را توضیح می دهد.
توضیح | آرگومان |
مقدار جلوی این آرگومان مسیر داده و نام فایل مورد نظر را مشخص میکند. | file |
مقدار این آرگومان بصورت پیشفرض TRUE است به این معنی که سطر اول به عنوان نام ستونها در نظر گرفته خواهد شد. اگر ستونهای شما نام ندارند میتوانیم مقدار را به FALSE تغییر دهید. | header |
جدا کننده مقادیر. بصورت پیشفرض مقدار این آرگومان “,” (کاما) است. لازم نیست آن را تنظیم کنید مگر آنکه جدا کننده مقادیر در فایل شما چیز دیگری باشد. | sep |
اگر سطرهای شما برای تمام مشاهدهها از نظر تعدادی یکسان نباشد با تنظیم این آرگومان به TRUE بصورت خودکار سورل سطرها یکسان میشود و برای سطرهایی که دادههای که به یک اندازه نیستند مقدار خالی بجای آن گذاشته میشود. | fill |
مقدار عددی مثبت است که محل شروع به خواندن داده را مشخص میکند. برای نمونه اگر این مقدار ۱ درنظر گرفته شود دادهها از سطر دوم به بعد خوانده میشود. مقدار پیشفرض صفر است. | skip |
مقدار عددی مثبت است که حداکثر سطرهای خواندن داده را محدود میکند. برای نمونه اگر ۱۰۰ در نظر گرفته شود تنها ۱۰۰ سطر از داده را وارد R میکند. مقدار پیشفرض برای این آرگومان بینهایت است. | nrows |
اگر مقادیر شما دارای فضای خالی باشد در هنکام خواندش داده میتوان با این آرگومان آنها را از بین برد. میتوانید مقدار این آرگومان را به TRUE تغییر دهید تا فضاهای خالی پاک شوند. مقدار پیشفرض در این آرگومان FALSE است. | strip.white |
در ادامه مراحل ورود داده را با استفاده از دستور ()read.csv
دنبال میکنیم.
قدم اول- دریافت داده
میخواهیم دادههای مسافران کشتی تایتانیک را وارد R کنیم. ابتدا فایل csv را از اینجا دانلود میکنیم. و آنرا به پوشه مورد نظر انتقال میدهیم. در اینجا فایل را به درایو F و پوشه data در پوشه my-r-project انتقال میدهیم.
شکل زیر نمایی از داده تایتانیک در نرم افزار notepad است.
قدم دوم - تنظیم مسیر کاری
مسیر کاری را با دستور ()setwd
به پوشه my-r-project تغییر میدهیم.
setwd("f:/my-r-project")
قدم سوم - خواندن داده
حالا کافی است داده را با استفاده از دستور ()read.csv
وارد R کنیم و در متغیری دلخواه ذخیره کنیم.
df = read.csv(file = "data/titanic.csv")
اگر خطایی دریافت نکردید اکنون فایل شما وارد R شده و به صورت دیتافریم در آمده است. میتوانید با دستور ()head
چند سطر ابتدایی آن را مشاهده کنید.
head(df)
Survived Pclass Name Sex Age Siblings.Spouses.Aboard Parents.Children.Aboard Fare
1 0 3 Mr. Owen Harris Braund male 22 1 0 7.2500
2 1 1 Mrs. John Bradley (Florence Briggs Thayer) Cumings female 38 1 0 71.2833
3 1 3 Miss. Laina Heikkinen female 26 0 0 7.9250
4 1 1 Mrs. Jacques Heath (Lily May Peel) Futrelle female 35 1 0 53.1000
5 0 3 Mr. William Henry Allen male 35 0 0 8.0500
6 0 3 Mr. James Moran male 27 0 0 8.4583
همانطور که ملاحظه کردید احتیاجی به تنظیم تمام آرگومانها نیست. اما در برخی موارد بنا بر نوع نیاز میتوانید آرگومانهای ورودی را تنظیم کتید تا داده تمیزتری را در اختیار داشته باشید.