مقدمه

بررسی‌

نتیجه‌گیری

منابع و مستندات

۱. دادۀ بزرگ چیست؟

ما در روزگار خود شاهد روند فزایندۀ داده‌نگاری[1] در زندگی اجتماعی‌مان هستیم. فعالیت‌های انسان و ارتباطش با محیط با دقت و کارآمدی روبه‌رشدی ثبت می‌شوند و ردپای دیجیتالی عظیمی از فعالیت‌های انسان و محیط به وجود می‌آید. «داده‌ بزرگ» که معمولاً طیِ چنین فرایندی انباشته می‌شود را گنجینه‌ای بی‌بدیل برای تحقیقات علمی در نظر می‌گیرند چرا که امروز دسترسی به داده‌های انبوه با در اختیار داشتنِ ادوات پردازشیِ پیچیده‌ و توانمند همراه شده و استخراج دانش از آن را میسر کرده است.

یک نمونۀ شناخته‌شده از فرایند یادشده، داده‌های گوناگونی است که از بیماران سرطانی جمع‌آوری می‌شود مانند توالی ژنوم، مشخصات روانشناختی و پاسخ‌های بدن بیمار به مداخلات درمانی که همگی با هدف ارتقای فرایند تشخیص و درمان انجام می‌شوند. نمونه دیگر جمع‌آوری داده‌ از ترافیک شهری، شرایط جوّی، وضعیت جغرافیایی و رفتار انسانی برای به وجود آوردن شاخص‌های رفتار ایمن در وسایل نقلیه بدون راننده است. تعریف و محاسبۀ این شاخص‌ها باعث می‌شود استراتژی معینی برای پردازش داده‌ها وجود داشته باشد و داده‌ها هنگام مواجهه با اتفاقات غیرمنتظره، بی‌درنگ تحلیل شوند تا واکنش مناسب بدون فوت وقت در دستور کار قرار گیرد. مثلا اگر یک خودروی در حال حرکت، ناگهان با کودکی در خیابان مواجه شود، باید مسیر حرکت خود را منحرف کند تا به او برخورد نکند. در عین حال، اگر زیاد مسیرش را تغییر دهد ممکن است از کنترل خارج شود و به دیگران برخورد کند. اگر این اتفاق در زمستان بیافتد و جاده یخ‌زده باشد ماشین به راحتی از کنترل خارج می‌شود که خود ضرورت اجتناب از حرکت اضافه هنگام تغییر مسیر را بیشتر می‌کند. این داده‌ها همگی در ماشین‌های خودران پردازش می‌شوند و مورد استفاده قرار می‌گیرند. نمونۀ دیگر آگاهی پیدا کردن از وضعیت تغذیه و پی بردن به نیازهای یک جمعیت مشخص است که از ترکیب داده‌های مصرف مواد غذایی از یک طرف و داده‌های سلامت عمومی از طرف دیگر قابل استخراج است. داده‌های مصرف مواد غذایی و روند تغییرات آن در تراکنش فروشگاه‌ها، رستوران‌ها، رسانه‌های اجتماعی و موارد دیگری از این دست تولید می‌شود و داده‌های سلامت عمومی در ارائه خدمات تشخیص‌طبی مانند نتیجۀ آزمایش‌های خون و مراجعات بیمارستانی مرتبط با سوء تغذیه تولید می‌شوند.

در هر یک از این نمونه‌ها، دسترسی به داده‌ها  و ابزار تحلیلیِ مرتبط، فرصت‌های تازه‌ای برای تحقیق ایجاد کرده و امکان‌های تازه‌ای برای طرح پرسش به وجود آورده است. از این رو باوری عمومی وجود دارد که این ویژگی‌ها کلیت علم را دگرگون می‌کند.

برای نشان دادن اهمیت این گونه نمونه‌ها در فهم چهارچوب فلسفی فرایند تحقیقات، یک نقطۀ شروع سودمند توجه به چیزی است که عبارت «داده‌های بزرگ» در گفتمان‌ معاصر علم به آن اشاره می‌کند. روش‌های مختلفی برای تعریف داده بزرگ وجود دارد[2]. سرراست‌ترین توصیف از مشخصات داده بزرگ، اشاره به داده‌ای حجیم است که به صورت دیجیتال تولید می‌شود و با ابزار پردازشی، تحلیل می‌شود. به همین خاطر، حجم[3] و سرعتِ انباشت[4]، نخستین ویژگی‌هایی است که معمولاً به داده‌های بزرگ نسبت داده می‌شود. حجم به اندازه فایلی اشاره دارد که برای ذخیره و انتقال داده‌ها استفاده می‌شود، و سرعت به مدت‌‌زمانی که داده در آن تولید و پردازش می‌شود. پیکرۀ داده‌های دیجیتالی که به واسطۀ مطالعات گوناگون به وجود آمده با سرعت سرسام‌آوری در حال رشد است. بررسی و تحلیل این حجم فزاینده از داده‌ها به کلی از عهده قوای شناختی انسان بیرون است. به همین دلیل، برای انجام این کار نوعی تحلیل خودکارسازی‌شده مورد نیاز است که کامپیوتر بتواند آن را به جای انسان انجام دهد.

حجم و سرعت اگرچه متداول‌ترین ویژگی‌ها در تعریف داده بزرگ هستند، اما مورد مناقشه‌ترین نیز هستند. آنچه به عنوان «حجم بالا» و «سرعت زیاد» مطرح می‌شود تا اندازه زیادی به فناوری‌های تولید، ذخیره‌سازی، پردازش، جابجایی و مصورسازیِ داده‌ها بستگی دارد که اتفاقاً همگی با سرعت چشمگیری در حال تغییر و توسعه هستند. این مسئله در توالی‌یابی‌های ژنتیکی[5] و بیان ژن‌ها[6] به خوبی قابل مشاهده است. داده‌های ژنتیکی با توان عملیاتی بالایی تولید، ذخیره و جابجا می‌شوند. حجم و سرعتِ انباشتِ داده‌ها در این حوزه در دو دهه اخیر افزایش خیره‌کننده‌ای داشته است.

فهمی رایج از داده‌های بزرگ وجود دارد که می‌گوید «هر داده‌ای که به راحتی نتوان آن را در جدول‌های اِکسِل تحلیل کرد دادۀ بزرگ به حساب می‌آید». اما افزایش توان پردازش و نگهداری داده‌ها این فهم را متحول کرده است. پدید آمدن امکانات و نرم‌افزارهای تحلیلی جدید سبب شده تا ایدۀ تحلیل داده‌ها در قالب جداول اکسل و دیگر برنامه‌های مشابه آن به تاریخ بپیوندد. علاوه بر این، حجم و سرعت، چیزی دربارۀ تنوع داده‌هایی که پژوهشگران پردازش و تحلیل می‌کنند نمی‌گوید. این داد‌ه‌ها گاهی ممکن است از ابتدا به صورت دیجیتال تولید نشده باشند یا در اَشکالِ دیجیتالی دسترس باشند که پردازش آن‌ها به سادگی امکان‌پذیر نباشد. عدم توجه به گوناگونی موجود در ساختار داده‌هایی که در پژوهش‌های کمّی جدید مورد استفاده قرار می‌گیرد باعث غفلت از اهمیتِ شرایط ابتدایی در تولید و انتشار داده‌ها و تاثیر آن بر نتیجه‌گیری‌ها و تفسیرهای نهایی می‌شود. همچنان که در ادامه بحث خواهد شد، تاکید زیاد بر ویژگی‌های فیزیکی داده‌، وابستگی بالای نتیجه‌گیری‌های نهاییِ تحقیقات به الزامات گوناگون کار با داده‌ مثل شرایط ناشی از دستورات ویژۀ استخراج داده[7]، مقدارهای مرجع، تخصص‌های مشارکت‌کننده در تحقیق و بسیاری موارد دیگر را تحت‌الشعاع قرار می‌دهد.

اگر داده بزرگ را با ارجاع به ویژگی‌های فیزیکی آن تعریف نکنیم، برای ارائه تعریف جایگزین باید ببینیم با داده بزرگ چه کاری می‌توانیم و چه کاری نمی‌توانیم انجام دهیم. از این منظر، داده بزرگ مجموعه‌ای ناهمگون از داده‌هایی است که از منابع متنوع جمع‌آوری می‌شود. این داده‌ها معمولاً – اما نه همیشه – به صورت‌های دیجیتالی وجود دارند که برای طراحی و پیاده‌سازی الگوریتم‌هایی با هدف تولید دانش‌های جدید مناسب است. به عنوان نمونه بوید و کرافورد[8] داده بزرگ را با توجه به «ظرفیت جستجو، تجمیع و قابلیت برقراری ارتباط‌های متقابل در چند مجموعه دادۀ پرشمار و عظیم» مشخص می‌کنند، در حالیکه اومالی و سویر[9] تمرکز خود را بر قابلیت جستجو و برقراری ارتباط‌های درونی داده‌هایی با انواع گوناگون قرار می‌دهند با این هدف که تمامی آن‌ها برای رسیدن به یک مجموعه‌ مرتبط از شواهد به کار گرفته شود.

نمونه‌هایی که از «بزرگ‌داده‌پژوهشی[10]» مطرح شد در این نگاه قابل جمع هستند: در دسترس بودن مجموعه عظیمی از داده‌ها به تنهایی نمی‌تواند داده‌های بزرگ را متمایز کند، مهم‌تر از آن امکان جابجا کردن داده‌ بین منابع مختلف مانند سوابق درمانی، تحقیقات محیطی، اندازه‌گیری‌های آب و هوایی و رفتار مصرف‌کنندگان و قابلیت برقراری ارتباط بین آن‌هاست. این روایت، مجال طرح مجموعه کامل‌تری از ویژگی‌های داده‌ بزرگ که از قضا همه آن‌ها در زبان انگلیسی با حرف V شروع می‌شوند را فراهم می‌کند. این ویژگی‌ها عبارتند از:

  • گوناگونی[11]: داده‌ بزرگ از نظر نوع و اهداف استفاده از ویژگیِ گوناگونی برخوردار است. این گوناگونی می‌تواند مقولاتی به غایت متنوع مانند نمونه‌هایی از بافت بدن حیوانات، مشاهدات بصری، اندازه‌گیری‌ حسگرهای رطوبتی، موقعیت جغرافیایی (GPS) و نتایج آزمایش‌های خون را در بر بگیرد[12].
  • صحت[13]: داده‌ بزرگ تنها زمانی قابل استفاده است که کیفیت و قابل اتکا بودن مقدارهای آن در فرایند تولید داده دچار اشکال نشده باشد. زیرساخت‌های سخت‌افزاری و نرم‌افزاری به دلایل مختلف ممکن است در ثبت و نگهداری داده‌ها درست عمل نکنند. داده‌‌ای که با سرعت زیاد و با اتصال به منابع متعدد به روز می‌شود در خطر بروز خطا، ثبت مقادیر ناصحیح و سوگیری‌های بی‌حساب و کتاب است. در غیاب مکانیزم‌های کیفیت‌سنجی و تایید اعتبار، داده بزرگ ممکن است به پایه‌ای مخدوش و گمراه‌کننده برای استخراج دانش بدل شود[14]. صحت داده بزرگ نشان‌دهنده میزان کیفیت و قابل اتکا بودن مقادیر درون آن است.
  • روایی[15]: داده بزرگ زمانی به کار می‌آید به اهداف مورد نظر مربوط باشد. انتخاب مجموعه‌ای از داده‌ها به عنوان مشاهدات پایه نیازمند دلایل کافی و تصریح‌شده است. این دلایل باید از پشتوانه دانش‌های تخصصی آن حوزه برخوردار باشد تا بتواند تعیین کند چه چیزی در زمینه مورد مطالعه به عنوان داده قلمداد شود[16].
  • ناپایداری[17]: داده‌ بزرگ تنها زمانی می‌تواند به عنوان موجودیتی پایدار و قابل اتکا در تحقیقات نقش‌آفرینی کند که علی رغم تغییر در فناوری‌های بایگانی، همچنان موجود، در دسترس و قابل فهم باقی بماند. این مسئله از آن رو حائز اهمیت است که اَشکال و ابزارِ ذخیره‌سازی و تحلیل داده‌ها مطابق گرایش‌ غالب در فناوری اطلاعات ممکن است دستخوش تغییرات گسترده شود یا حتی به کلی منسوخ گردد. با توجه به اینکه بسیاری از پژوهش‌ها نیازمند جمع‌آوری داده در دوره‌های زمانی طولانی هستند، داده بزرگ نیازمند برنامه‌ریزی‌هایی است که زیرساخت‌هایش را به روز کند تا دسترسی بلندمدت به داده‌ها ضمانت شود[18].
  • ارزش[19]: داده‌ بزرگ از وجوه گوناگون اهمیت و ارزشمندی برای بخش‌های مختلف اجتماع برخوردار است. اهمیت پروژه‌های مبتنی بر داده‌های بزرگ، برای بخش‌های مختلف جامعه، به انگیزه‌های بهره‌برداری از داده‌ها و شرایط تاریخی، اجتماعی و جغرافیایی آنان بستگی دارد[20]. در کنار ارزش علمی، پژوهشگران ممکن است بسته به انگیزه‌هایشان برای استفاده از داده و همچنین پیامدهای تاریخی، اجتماعی و جغرافیایی به‌کارگیری داده‌ها، ارزش‌های مالی و اخلاقی، و همینطور شهرت و محبوبیت و حتی احساسات خود را با پژوهش ممزوج کنند. موسساتی که در مدیریت داده‌ها مسئولیت دارند و پژوهش‌ها را تامین مالی می‌کنند نیز در ارزش‌گذاری داده‌ها رویکرد خود را دارند که همیشه نیز با ارزش‌های پژوهشگران همراستا نیست[21].

این ویژگی‌ها شاید جامع و کامل نباشند اما به خوبی توضیح می‌دهند که داده بزرگ تنها «حجم زیادی از داده‌ها» نیست. مزیت معرفت‌شناسانه داده بزرگ به ظرفیت آن در پل زدن بین گروه‌های تحقیقاتی گوناگون، رویکردهای روش‌شناسی و چهارچوب‌های نظری مختلفی باز می‌گردد که شکاف‌های مفهومی، موانع اجتماعی و دشواری‌های فنی معمولاً برقراری ارتباط بین آن‌ها را مشکل می‌کند[22].  در حقیقت، داده بزرگ اغلب در شرایطی پدید می‌آید که جستجو و تحقیق از هر سه منظر فنی، مفهومی و اجتماعی چالش‌برانگیز است و ناکافی بودن روش‌ها و منابع موجود در آن اثبات شده است.  

چنین فهمی از داده‌های بزرگ در تاریخ طولانی رویارویی پژوهشگران با داده‌های پرشمار و پیچیده در حوزه‌های گوناگونی مانند ستاره‌شناسی، هواشناسی، رده‌‌بندی[23] و جمعیت‌شناسی ریشه دارد[24]. به صورت مشابه، پژوهش‌های زیست‌پزشکی و به طور خاص زیرمجموعه‌هایی از آن مانند همه‌گیرشناسی، داروشناسی و سلامت عمومی پیشینه گسترده‌ای در به کار بستن داده‌های حجیم، به‌روزشونده، گوناگون و ناپایدار را دارند و از قضا صحت، روایی و ارزشمندی داده نیز معمولا در این حوزه‌ها مورد بحث و جدل بیماران، حکومت‌ها، سرمایه‌گذاران، شرکت‌های دارویی، بیمه‌ها و موسسات عمومی بوده است[25]. تلاش‌هایی از این دست، در تمامی سال‌های قرن بیستم در جریان بود و موسسه‌ها، روش‌ها و ابزارهای گردآوری، مرتب‌سازی و بصری‌سازی و تحلیل داده‌ها را سامان داد. پیکربندی‌های استاندارد، شیوه‌نامه‌ها، ابزارها، تدوین اصول مدیریت و راهکارهای برقراری امنیت داده‌های حساس و زیرساخت‌های یکپارچه‌سازی و نگهداری داده برای مدت طولانی همگی محصول این دوره زمانی‌اند[26].

این فعالیت‌ها با به‌ کار بستنِ فناوری‌های محاسباتی، ابزارهای مدلسازی و روش‌های آماری روی داده‌های بزرگ اوج گرفتند[27] و بدین ترتیب با رواجِ ایده‌ها و تکنیک‌هایی مانند یادگیری وابسته ناظر[28]، برازش مدل[29]، شبکه‌های عصبی عمیق[30]، روش‌های جستجو و بهینه‌سازی[31]، مصورسازی پیچیدۀ داده[32] و بسیاری دیگر که امروزه بیشتر در ارتباط با هوش مصنوعی شناخته‌ می‌شوند مرزهای تحلیلگری داده گسترش یافت. بسیاری از این فناوری‌ها بر پایه الگوریتم‌هایی بنا شده‌اند که عملکرد و نتیجه آن‌ با استفاده از بخشی از داده‌ها سنجیده می‌شود (به این فرایند آموزش[33] می‌گویند). این الگوریتم‌ها به گونه‌ای طراحی شده‌اند که از هر گونه تعامل با داده‌های جدید چیزهایی را یاد[34] بگیرند. به بیان دیگر، آن‌ها این قابلیت را دارند که خود را متناسب با  ورودی‌های جدید تغییر دهند. به همین دلیل، این روش‌ها می‌توانند با پدیده‎‌ای که تحلیلش می‌کنند هماهنگ شوند و رفتار آتی آن را پیش‌بینی کنند و به مرور زمان توان پیش‌بینی خود را با دریافت داده‌های بیشتر بهبود ببخشند. حدود و ثغور این تحولات از فرضیه‌هایی که در طراحی‌ و ساختِ الگوریتم‌ها به کار گرفته می‌شوند و همینطور از قابلیت‌های نرم‌افزاری و سخت‌افزاریِ شناسایی، ارزیابی و پردازش اطلاعاتِ مرتبط هنگام مدلسازی و یادگیری تاثیر می‌پذیرند و تعیین می‌شوند. با این حال، درجه‌ای از پیش‌بینی‌ناپذیری و ابهام در چنین سیستم‌هایی وجود دارد که ممکن است تا مرحله رویارویی با فهم انسانی پیش برود (توضیحات بیشتر در ادامه آمده است).

موسسات جدید، بسترهای نقل و انتقال و چهارچوب‌های تنظیم‌گر با هدف جمع‌آوری، آماده‌سازی و نگهداری پدید آمدند[35] که از آن جمله می‌توان به چند مورد اشاره کرد: زیرساخت‌های گوناگونِ مدیریت داده‌های دیجیتال، نهادهای هماهنگ‌کننده‌ای که چشم‌انداز جهانی بهره‌برداری از داده‌ها را بهبود می‌بخشند مثل نهاد اتحاد داده‌های تحقیقاتی[36] و اقدامات جدیدی که برای حراست از داده‌ها‌در دستور کار قرار می‌گیرند مثل مقررات عمومی حفاظت از داده در اتحادیه اروپا[37] که از سال 2017 شروع به کار کرد. این روش‌ها و موسسات در کنار یکدیگر موقعیتی را به وجود آورده‌اند تا داده‌ها در ابعادی غیر‌قابل مقایسه با گذشته گردآوری و تحلیل شوند و امکان‌پذیر شدن سطوح مناسب‌تری از ریزدانگی در تحلیل داده‌ها را نوید دهند[38]. آن‌ها افق دید هر تحقیقی را گسترش می‌دهند چراکه این امکان را برای محققین فراهم می‌کند تا یافته‌هایشان را با پژوهشگران بی‌شماری در سراسر جهان – درون و بیرون فضای آکادمیک – به اشتراک بگذارند. فناوری‌های جدیدتر قابلیت جابجایی داده‌ را ارتقا می‌بخشند و به همین سبب تعریف پژوهش‌هایی که هنگام تولید داده‌ به آن‌ها فکر نشده نیز را امکان‌پذیر می‌شود. آن‌ها در حقیقت با تغییر نقش داده در تحقیقات و خلق ارزش در دستاوردهای پژوهشی جایگاه خود را بالا می‌برند. توسعه این طیف از روش و فناوری پیامد‌های فلسفیِ در خور تأملی در انتزاع و مفهوم‌سازیِ داده، فرایند استنتاج و دانش تجربی دارد؛ همچنان که بر نحوه راهبری، سازماندهی، حکمرانی و ارزیابی تحقیقات نیز اثر می‌گذارد. در ادامه به بررسی در همین دغدغه‌های فلسفی‌‌ می‌پردازم.

ترجمه از مدخل «تحقیقات علمی و داده‌های بزرگ» در دانشنامه فلسفی استنفورد؛ نوشته سابینا لیونلی استاد فلسفه و تاریخ علم دانشگاه اگزتر انگلستان، ویراسته ادوارد زالتا استاد فلسفه ریاضیات دانشگاه استنفورد

پاورقی و پی‌نوشت:

[1] datafication

[2] Kitchin 2014, Kitchin & McArdle 2016

[3] Volume

[4] Velocity

[5] genomic sequencing

[6] gene expression

[7] queries

[8] Boyd and Crawford (2012: 663)

[9] O’Malley and Soyer (2012)

[10] big data research

[11] Variety

[12] Floridi & Illari 2014; Cai & Zhu 2015; Leonelli 2017

[13] Veracity

[14] e.g., Loettgers 2009, Bogen 2010

[15] Validity

[16] e.g., Loettgers 2009, Bogen 2010

[17] Volatility

[18] Bowker 2006; Edwards 2010; Lagoze 2014; Borgman 2015

[19] Value

[20] Leonelli 2016, D’Ignazio and Klein 2020

[21] Tempini 2017

[22] Leonelli 2019a

[23] taxonomy

[24] برای اطلاعات بیشتر نگاه کنید به

Daston 2017; Anorova et al. 2017; Porter & Chaderavian 2018

Anorova et al. 2010, Sepkoski 2013, Stevens 2016, Strasser 2019

[25] Bauer 2008

[26] Daston 2017

[27] Porter 1995; Humphreys 2004; Edwards 2010

[28] supervised learning

[29] model fitting

[30] deep neural networks

[31] search and optimization methods

[32] complex data visualizations

[33] training

[34] learn

[35] Kitchin 2014

[36] Research Data Alliance

[37] General Data Protection Regulation

[38] اینکه جمع‌آوری داده چه زمانی ممکن است یا چه زمانی باید به عنوان «داده بزرگ» قلمداد شود و جایگاه این برچسب در عناوین پژوهشی به تفصیل در تحقیقات زیر بررسی شده است:

Leonelli (2016), Kitchin and McArdle (2016) and Aronova, van Oertzen, and Sepkoski (2017)

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors