ملزومات وارد کردن داده در R

وارد کردن انواع داده در R

کتابخانه‌های مرتبط با خواندن داده

مباحث پیشرفته در خواندن و نوشتن فایل‌ها

وارد کردن داده از فایل‌ csv

فهرست مطالب

همانطور که گفته شد استفاده از فایل‌های csv  به دلیل ساختار ساده آن بیشتر مورد استفاده قرار می‌گیرد. در R  نیز استفاده از این نوع فایل‌ها بسیار متداول است. دستور ()read.csv بلافاصله پس از نصب R  قابل استفاده است. این دستور در کتابخانه utils قرار دارد و با راه‌اندازی R بصورت خودکار بارگذاری می‌شود و برای فراخوانی آن احتیاج به نصب و باگذاری کتابخانه‌ای نیست. 

ورود داده با read.csv

دستور read.csv در واقع همان دستور read.table است با این تفاوت که پیش‌فرض‌های آن طوری تنظیم شده است که برای فایل‌های csv مناسب است. جدول زیر برخی آرگومان های پرکاربرد این دستور را توضیح می دهد.

توضیح

آرگومان

مقدار جلوی این آرگومان مسیر داده و نام فایل مورد نظر را مشخص می‌کند.

file

مقدار این آرگومان بصورت پیش‌فرض TRUE است به این معنی که سطر اول به عنوان نام ستون‌ها در نظر گرفته خواهد شد. اگر ستون‌های شما نام ندارند می‌توانیم مقدار را به FALSE تغییر دهید.

header

جدا کننده مقادیر. بصورت پیش‌فرض مقدار این آرگومان “,” (کاما) است. لازم نیست آن را تنظیم کنید مگر آن‌که جدا کننده مقادیر در فایل شما چیز دیگری باشد.

sep

اگر سطر‌های شما برای تمام مشاهده‌ها از نظر تعدادی یکسان نباشد با تنظیم این آرگومان به TRUE بصورت خودکار سورل سطرها یکسان می‌شود و برای سطرهایی که داده‌های که به یک اندازه نیستند مقدار خالی بجای آن گذاشته می‌شود.

fill

مقدار عددی مثبت است که محل شروع به خواندن داده را مشخص می‌کند. برای نمونه اگر این مقدار ۱ درنظر گرفته شود داده‌ها از سطر دوم به بعد خوانده می‌شود. مقدار پیش‌فرض صفر است.

skip

مقدار عددی مثبت است که حداکثر سطرهای خواندن داده را محدود می‌کند. برای نمونه اگر ۱۰۰ در نظر گرفته شود تنها ۱۰۰ سطر از داده را وارد R  می‌کند. مقدار پیش‌فرض برای این آرگومان بینهایت است.

nrows

اگر مقادیر شما دارای فضای خالی باشد در هنکام خواندش داده می‌توان با این آرگومان آن‌ها را از بین برد. می‌توانید مقدار این آرگومان را به TRUE تغییر دهید تا فضاهای خالی پاک شوند. مقدار پیش‌فرض در این آرگومان FALSE  است.

strip.white

در ادامه مراحل ورود داده را با استفاده از دستور ()read.csv دنبال می‌کنیم.

قدم اول- دریافت داده

می‌خواهیم داده‌های مسافران کشتی تایتانیک را وارد R کنیم. ابتدا فایل csv  را از اینجا دانلود می‌کنیم. و آن‌را به پوشه مورد نظر انتقال می‌دهیم. در اینجا فایل را به درایو F  و پوشه data در  پوشه my-r-project  انتقال می‌دهیم.

شکل زیر نمایی از داده تایتانیک در نرم افزار notepad  است.

قدم دوم - تنظیم مسیر کاری

مسیر کاری را با دستور ()setwd به پوشه my-r-project تغییر میدهیم. 

				
					 setwd("f:/my-r-project")
				
			

قدم سوم - خواندن داده

حالا کافی است داده را با استفاده از دستور ()read.csv وارد R کنیم و در متغیری دلخواه ذخیره کنیم.

				
					df = read.csv(file = "data/titanic.csv")
				
			

اگر خطایی دریافت نکردید اکنون فایل شما وارد R شده و به صورت دیتافریم در آمده است. می‌توانید با دستور ()head چند سطر ابتدایی آن را مشاهده کنید.

				
					head(df)
				
			
				
					 Survived Pclass                        Name  Sex Age Siblings.Spouses.Aboard Parents.Children.Aboard  Fare
1    0   3               Mr. Owen Harris Braund  male 22            1            0 7.2500
2    1   1 Mrs. John Bradley (Florence Briggs Thayer) Cumings female 38            1            0 71.2833
3    1   3               Miss. Laina Heikkinen female 26            0            0 7.9250
4    1   1    Mrs. Jacques Heath (Lily May Peel) Futrelle female 35            1            0 53.1000
5    0   3              Mr. William Henry Allen  male 35            0            0 8.0500
6    0   3                  Mr. James Moran  male 27            0            0 8.4583
				
			

همانطور که ملاحظه کردید احتیاجی به تنظیم تمام آرگومان‌ها نیست. اما در برخی موارد بنا بر نوع نیاز می‌توانید آرگومان‌های ورودی را تنظیم کتید تا داده تمیزتری را در اختیار داشته باشید.

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors