ما در روزگار خود شاهد روند فزایندۀ دادهنگاری[1] در زندگی اجتماعیمان هستیم. فعالیتهای انسان و ارتباطش با محیط با دقت و کارآمدی روبهرشدی ثبت میشوند و ردپای دیجیتالی عظیمی از فعالیتهای انسان و محیط به وجود میآید. «داده بزرگ» که معمولاً طیِ چنین فرایندی انباشته میشود را گنجینهای بیبدیل برای تحقیقات علمی در نظر میگیرند چرا که امروز دسترسی به دادههای انبوه با در اختیار داشتنِ ادوات پردازشیِ پیچیده و توانمند همراه شده و استخراج دانش از آن را میسر کرده است.
یک نمونۀ شناختهشده از فرایند یادشده، دادههای گوناگونی است که از بیماران سرطانی جمعآوری میشود مانند توالی ژنوم، مشخصات روانشناختی و پاسخهای بدن بیمار به مداخلات درمانی که همگی با هدف ارتقای فرایند تشخیص و درمان انجام میشوند. نمونه دیگر جمعآوری داده از ترافیک شهری، شرایط جوّی، وضعیت جغرافیایی و رفتار انسانی برای به وجود آوردن شاخصهای رفتار ایمن در وسایل نقلیه بدون راننده است. تعریف و محاسبۀ این شاخصها باعث میشود استراتژی معینی برای پردازش دادهها وجود داشته باشد و دادهها هنگام مواجهه با اتفاقات غیرمنتظره، بیدرنگ تحلیل شوند تا واکنش مناسب بدون فوت وقت در دستور کار قرار گیرد. مثلا اگر یک خودروی در حال حرکت، ناگهان با کودکی در خیابان مواجه شود، باید مسیر حرکت خود را منحرف کند تا به او برخورد نکند. در عین حال، اگر زیاد مسیرش را تغییر دهد ممکن است از کنترل خارج شود و به دیگران برخورد کند. اگر این اتفاق در زمستان بیافتد و جاده یخزده باشد ماشین به راحتی از کنترل خارج میشود که خود ضرورت اجتناب از حرکت اضافه هنگام تغییر مسیر را بیشتر میکند. این دادهها همگی در ماشینهای خودران پردازش میشوند و مورد استفاده قرار میگیرند. نمونۀ دیگر آگاهی پیدا کردن از وضعیت تغذیه و پی بردن به نیازهای یک جمعیت مشخص است که از ترکیب دادههای مصرف مواد غذایی از یک طرف و دادههای سلامت عمومی از طرف دیگر قابل استخراج است. دادههای مصرف مواد غذایی و روند تغییرات آن در تراکنش فروشگاهها، رستورانها، رسانههای اجتماعی و موارد دیگری از این دست تولید میشود و دادههای سلامت عمومی در ارائه خدمات تشخیصطبی مانند نتیجۀ آزمایشهای خون و مراجعات بیمارستانی مرتبط با سوء تغذیه تولید میشوند.
در هر یک از این نمونهها، دسترسی به دادهها و ابزار تحلیلیِ مرتبط، فرصتهای تازهای برای تحقیق ایجاد کرده و امکانهای تازهای برای طرح پرسش به وجود آورده است. از این رو باوری عمومی وجود دارد که این ویژگیها کلیت علم را دگرگون میکند.
برای نشان دادن اهمیت این گونه نمونهها در فهم چهارچوب فلسفی فرایند تحقیقات، یک نقطۀ شروع سودمند توجه به چیزی است که عبارت «دادههای بزرگ» در گفتمان معاصر علم به آن اشاره میکند. روشهای مختلفی برای تعریف داده بزرگ وجود دارد[2]. سرراستترین توصیف از مشخصات داده بزرگ، اشاره به دادهای حجیم است که به صورت دیجیتال تولید میشود و با ابزار پردازشی، تحلیل میشود. به همین خاطر، حجم[3] و سرعتِ انباشت[4]، نخستین ویژگیهایی است که معمولاً به دادههای بزرگ نسبت داده میشود. حجم به اندازه فایلی اشاره دارد که برای ذخیره و انتقال دادهها استفاده میشود، و سرعت به مدتزمانی که داده در آن تولید و پردازش میشود. پیکرۀ دادههای دیجیتالی که به واسطۀ مطالعات گوناگون به وجود آمده با سرعت سرسامآوری در حال رشد است. بررسی و تحلیل این حجم فزاینده از دادهها به کلی از عهده قوای شناختی انسان بیرون است. به همین دلیل، برای انجام این کار نوعی تحلیل خودکارسازیشده مورد نیاز است که کامپیوتر بتواند آن را به جای انسان انجام دهد.
حجم و سرعت اگرچه متداولترین ویژگیها در تعریف داده بزرگ هستند، اما مورد مناقشهترین نیز هستند. آنچه به عنوان «حجم بالا» و «سرعت زیاد» مطرح میشود تا اندازه زیادی به فناوریهای تولید، ذخیرهسازی، پردازش، جابجایی و مصورسازیِ دادهها بستگی دارد که اتفاقاً همگی با سرعت چشمگیری در حال تغییر و توسعه هستند. این مسئله در توالییابیهای ژنتیکی[5] و بیان ژنها[6] به خوبی قابل مشاهده است. دادههای ژنتیکی با توان عملیاتی بالایی تولید، ذخیره و جابجا میشوند. حجم و سرعتِ انباشتِ دادهها در این حوزه در دو دهه اخیر افزایش خیرهکنندهای داشته است.
فهمی رایج از دادههای بزرگ وجود دارد که میگوید «هر دادهای که به راحتی نتوان آن را در جدولهای اِکسِل تحلیل کرد دادۀ بزرگ به حساب میآید». اما افزایش توان پردازش و نگهداری دادهها این فهم را متحول کرده است. پدید آمدن امکانات و نرمافزارهای تحلیلی جدید سبب شده تا ایدۀ تحلیل دادهها در قالب جداول اکسل و دیگر برنامههای مشابه آن به تاریخ بپیوندد. علاوه بر این، حجم و سرعت، چیزی دربارۀ تنوع دادههایی که پژوهشگران پردازش و تحلیل میکنند نمیگوید. این دادهها گاهی ممکن است از ابتدا به صورت دیجیتال تولید نشده باشند یا در اَشکالِ دیجیتالی دسترس باشند که پردازش آنها به سادگی امکانپذیر نباشد. عدم توجه به گوناگونی موجود در ساختار دادههایی که در پژوهشهای کمّی جدید مورد استفاده قرار میگیرد باعث غفلت از اهمیتِ شرایط ابتدایی در تولید و انتشار دادهها و تاثیر آن بر نتیجهگیریها و تفسیرهای نهایی میشود. همچنان که در ادامه بحث خواهد شد، تاکید زیاد بر ویژگیهای فیزیکی داده، وابستگی بالای نتیجهگیریهای نهاییِ تحقیقات به الزامات گوناگون کار با داده مثل شرایط ناشی از دستورات ویژۀ استخراج داده[7]، مقدارهای مرجع، تخصصهای مشارکتکننده در تحقیق و بسیاری موارد دیگر را تحتالشعاع قرار میدهد.
اگر داده بزرگ را با ارجاع به ویژگیهای فیزیکی آن تعریف نکنیم، برای ارائه تعریف جایگزین باید ببینیم با داده بزرگ چه کاری میتوانیم و چه کاری نمیتوانیم انجام دهیم. از این منظر، داده بزرگ مجموعهای ناهمگون از دادههایی است که از منابع متنوع جمعآوری میشود. این دادهها معمولاً – اما نه همیشه – به صورتهای دیجیتالی وجود دارند که برای طراحی و پیادهسازی الگوریتمهایی با هدف تولید دانشهای جدید مناسب است. به عنوان نمونه بوید و کرافورد[8] داده بزرگ را با توجه به «ظرفیت جستجو، تجمیع و قابلیت برقراری ارتباطهای متقابل در چند مجموعه دادۀ پرشمار و عظیم» مشخص میکنند، در حالیکه اومالی و سویر[9] تمرکز خود را بر قابلیت جستجو و برقراری ارتباطهای درونی دادههایی با انواع گوناگون قرار میدهند با این هدف که تمامی آنها برای رسیدن به یک مجموعه مرتبط از شواهد به کار گرفته شود.
نمونههایی که از «بزرگدادهپژوهشی[10]» مطرح شد در این نگاه قابل جمع هستند: در دسترس بودن مجموعه عظیمی از دادهها به تنهایی نمیتواند دادههای بزرگ را متمایز کند، مهمتر از آن امکان جابجا کردن داده بین منابع مختلف مانند سوابق درمانی، تحقیقات محیطی، اندازهگیریهای آب و هوایی و رفتار مصرفکنندگان و قابلیت برقراری ارتباط بین آنهاست. این روایت، مجال طرح مجموعه کاملتری از ویژگیهای داده بزرگ که از قضا همه آنها در زبان انگلیسی با حرف V شروع میشوند را فراهم میکند. این ویژگیها عبارتند از:
- گوناگونی[11]: داده بزرگ از نظر نوع و اهداف استفاده از ویژگیِ گوناگونی برخوردار است. این گوناگونی میتواند مقولاتی به غایت متنوع مانند نمونههایی از بافت بدن حیوانات، مشاهدات بصری، اندازهگیری حسگرهای رطوبتی، موقعیت جغرافیایی (GPS) و نتایج آزمایشهای خون را در بر بگیرد[12].
- صحت[13]: داده بزرگ تنها زمانی قابل استفاده است که کیفیت و قابل اتکا بودن مقدارهای آن در فرایند تولید داده دچار اشکال نشده باشد. زیرساختهای سختافزاری و نرمافزاری به دلایل مختلف ممکن است در ثبت و نگهداری دادهها درست عمل نکنند. دادهای که با سرعت زیاد و با اتصال به منابع متعدد به روز میشود در خطر بروز خطا، ثبت مقادیر ناصحیح و سوگیریهای بیحساب و کتاب است. در غیاب مکانیزمهای کیفیتسنجی و تایید اعتبار، داده بزرگ ممکن است به پایهای مخدوش و گمراهکننده برای استخراج دانش بدل شود[14]. صحت داده بزرگ نشاندهنده میزان کیفیت و قابل اتکا بودن مقادیر درون آن است.
- روایی[15]: داده بزرگ زمانی به کار میآید به اهداف مورد نظر مربوط باشد. انتخاب مجموعهای از دادهها به عنوان مشاهدات پایه نیازمند دلایل کافی و تصریحشده است. این دلایل باید از پشتوانه دانشهای تخصصی آن حوزه برخوردار باشد تا بتواند تعیین کند چه چیزی در زمینه مورد مطالعه به عنوان داده قلمداد شود[16].
- ناپایداری[17]: داده بزرگ تنها زمانی میتواند به عنوان موجودیتی پایدار و قابل اتکا در تحقیقات نقشآفرینی کند که علی رغم تغییر در فناوریهای بایگانی، همچنان موجود، در دسترس و قابل فهم باقی بماند. این مسئله از آن رو حائز اهمیت است که اَشکال و ابزارِ ذخیرهسازی و تحلیل دادهها مطابق گرایش غالب در فناوری اطلاعات ممکن است دستخوش تغییرات گسترده شود یا حتی به کلی منسوخ گردد. با توجه به اینکه بسیاری از پژوهشها نیازمند جمعآوری داده در دورههای زمانی طولانی هستند، داده بزرگ نیازمند برنامهریزیهایی است که زیرساختهایش را به روز کند تا دسترسی بلندمدت به دادهها ضمانت شود[18].
- ارزش[19]: داده بزرگ از وجوه گوناگون اهمیت و ارزشمندی برای بخشهای مختلف اجتماع برخوردار است. اهمیت پروژههای مبتنی بر دادههای بزرگ، برای بخشهای مختلف جامعه، به انگیزههای بهرهبرداری از دادهها و شرایط تاریخی، اجتماعی و جغرافیایی آنان بستگی دارد[20]. در کنار ارزش علمی، پژوهشگران ممکن است بسته به انگیزههایشان برای استفاده از داده و همچنین پیامدهای تاریخی، اجتماعی و جغرافیایی بهکارگیری دادهها، ارزشهای مالی و اخلاقی، و همینطور شهرت و محبوبیت و حتی احساسات خود را با پژوهش ممزوج کنند. موسساتی که در مدیریت دادهها مسئولیت دارند و پژوهشها را تامین مالی میکنند نیز در ارزشگذاری دادهها رویکرد خود را دارند که همیشه نیز با ارزشهای پژوهشگران همراستا نیست[21].
این ویژگیها شاید جامع و کامل نباشند اما به خوبی توضیح میدهند که داده بزرگ تنها «حجم زیادی از دادهها» نیست. مزیت معرفتشناسانه داده بزرگ به ظرفیت آن در پل زدن بین گروههای تحقیقاتی گوناگون، رویکردهای روششناسی و چهارچوبهای نظری مختلفی باز میگردد که شکافهای مفهومی، موانع اجتماعی و دشواریهای فنی معمولاً برقراری ارتباط بین آنها را مشکل میکند[22]. در حقیقت، داده بزرگ اغلب در شرایطی پدید میآید که جستجو و تحقیق از هر سه منظر فنی، مفهومی و اجتماعی چالشبرانگیز است و ناکافی بودن روشها و منابع موجود در آن اثبات شده است.
چنین فهمی از دادههای بزرگ در تاریخ طولانی رویارویی پژوهشگران با دادههای پرشمار و پیچیده در حوزههای گوناگونی مانند ستارهشناسی، هواشناسی، ردهبندی[23] و جمعیتشناسی ریشه دارد[24]. به صورت مشابه، پژوهشهای زیستپزشکی و به طور خاص زیرمجموعههایی از آن مانند همهگیرشناسی، داروشناسی و سلامت عمومی پیشینه گستردهای در به کار بستن دادههای حجیم، بهروزشونده، گوناگون و ناپایدار را دارند و از قضا صحت، روایی و ارزشمندی داده نیز معمولا در این حوزهها مورد بحث و جدل بیماران، حکومتها، سرمایهگذاران، شرکتهای دارویی، بیمهها و موسسات عمومی بوده است[25]. تلاشهایی از این دست، در تمامی سالهای قرن بیستم در جریان بود و موسسهها، روشها و ابزارهای گردآوری، مرتبسازی و بصریسازی و تحلیل دادهها را سامان داد. پیکربندیهای استاندارد، شیوهنامهها، ابزارها، تدوین اصول مدیریت و راهکارهای برقراری امنیت دادههای حساس و زیرساختهای یکپارچهسازی و نگهداری داده برای مدت طولانی همگی محصول این دوره زمانیاند[26].
این فعالیتها با به کار بستنِ فناوریهای محاسباتی، ابزارهای مدلسازی و روشهای آماری روی دادههای بزرگ اوج گرفتند[27] و بدین ترتیب با رواجِ ایدهها و تکنیکهایی مانند یادگیری وابسته ناظر[28]، برازش مدل[29]، شبکههای عصبی عمیق[30]، روشهای جستجو و بهینهسازی[31]، مصورسازی پیچیدۀ داده[32] و بسیاری دیگر که امروزه بیشتر در ارتباط با هوش مصنوعی شناخته میشوند مرزهای تحلیلگری داده گسترش یافت. بسیاری از این فناوریها بر پایه الگوریتمهایی بنا شدهاند که عملکرد و نتیجه آن با استفاده از بخشی از دادهها سنجیده میشود (به این فرایند آموزش[33] میگویند). این الگوریتمها به گونهای طراحی شدهاند که از هر گونه تعامل با دادههای جدید چیزهایی را یاد[34] بگیرند. به بیان دیگر، آنها این قابلیت را دارند که خود را متناسب با ورودیهای جدید تغییر دهند. به همین دلیل، این روشها میتوانند با پدیدهای که تحلیلش میکنند هماهنگ شوند و رفتار آتی آن را پیشبینی کنند و به مرور زمان توان پیشبینی خود را با دریافت دادههای بیشتر بهبود ببخشند. حدود و ثغور این تحولات از فرضیههایی که در طراحی و ساختِ الگوریتمها به کار گرفته میشوند و همینطور از قابلیتهای نرمافزاری و سختافزاریِ شناسایی، ارزیابی و پردازش اطلاعاتِ مرتبط هنگام مدلسازی و یادگیری تاثیر میپذیرند و تعیین میشوند. با این حال، درجهای از پیشبینیناپذیری و ابهام در چنین سیستمهایی وجود دارد که ممکن است تا مرحله رویارویی با فهم انسانی پیش برود (توضیحات بیشتر در ادامه آمده است).
موسسات جدید، بسترهای نقل و انتقال و چهارچوبهای تنظیمگر با هدف جمعآوری، آمادهسازی و نگهداری پدید آمدند[35] که از آن جمله میتوان به چند مورد اشاره کرد: زیرساختهای گوناگونِ مدیریت دادههای دیجیتال، نهادهای هماهنگکنندهای که چشمانداز جهانی بهرهبرداری از دادهها را بهبود میبخشند مثل نهاد اتحاد دادههای تحقیقاتی[36] و اقدامات جدیدی که برای حراست از دادههادر دستور کار قرار میگیرند مثل مقررات عمومی حفاظت از داده در اتحادیه اروپا[37] که از سال 2017 شروع به کار کرد. این روشها و موسسات در کنار یکدیگر موقعیتی را به وجود آوردهاند تا دادهها در ابعادی غیرقابل مقایسه با گذشته گردآوری و تحلیل شوند و امکانپذیر شدن سطوح مناسبتری از ریزدانگی در تحلیل دادهها را نوید دهند[38]. آنها افق دید هر تحقیقی را گسترش میدهند چراکه این امکان را برای محققین فراهم میکند تا یافتههایشان را با پژوهشگران بیشماری در سراسر جهان – درون و بیرون فضای آکادمیک – به اشتراک بگذارند. فناوریهای جدیدتر قابلیت جابجایی داده را ارتقا میبخشند و به همین سبب تعریف پژوهشهایی که هنگام تولید داده به آنها فکر نشده نیز را امکانپذیر میشود. آنها در حقیقت با تغییر نقش داده در تحقیقات و خلق ارزش در دستاوردهای پژوهشی جایگاه خود را بالا میبرند. توسعه این طیف از روش و فناوری پیامدهای فلسفیِ در خور تأملی در انتزاع و مفهومسازیِ داده، فرایند استنتاج و دانش تجربی دارد؛ همچنان که بر نحوه راهبری، سازماندهی، حکمرانی و ارزیابی تحقیقات نیز اثر میگذارد. در ادامه به بررسی در همین دغدغههای فلسفی میپردازم.
ترجمه از مدخل «تحقیقات علمی و دادههای بزرگ» در دانشنامه فلسفی استنفورد؛ نوشته سابینا لیونلی استاد فلسفه و تاریخ علم دانشگاه اگزتر انگلستان، ویراسته ادوارد زالتا استاد فلسفه ریاضیات دانشگاه استنفورد
پاورقی و پینوشت:
[1] datafication
[2] Kitchin 2014, Kitchin & McArdle 2016
[3] Volume
[4] Velocity
[5] genomic sequencing
[6] gene expression
[7] queries
[8] Boyd and Crawford (2012: 663)
[9] O’Malley and Soyer (2012)
[10] big data research
[11] Variety
[12] Floridi & Illari 2014; Cai & Zhu 2015; Leonelli 2017
[13] Veracity
[14] e.g., Loettgers 2009, Bogen 2010
[15] Validity
[16] e.g., Loettgers 2009, Bogen 2010
[17] Volatility
[18] Bowker 2006; Edwards 2010; Lagoze 2014; Borgman 2015
[19] Value
[20] Leonelli 2016, D’Ignazio and Klein 2020
[21] Tempini 2017
[22] Leonelli 2019a
[23] taxonomy
[24] برای اطلاعات بیشتر نگاه کنید به
Daston 2017; Anorova et al. 2017; Porter & Chaderavian 2018
Anorova et al. 2010, Sepkoski 2013, Stevens 2016, Strasser 2019
[25] Bauer 2008
[26] Daston 2017
[27] Porter 1995; Humphreys 2004; Edwards 2010
[28] supervised learning
[29] model fitting
[30] deep neural networks
[31] search and optimization methods
[32] complex data visualizations
[33] training
[34] learn
[35] Kitchin 2014
[36] Research Data Alliance
[37] General Data Protection Regulation
[38] اینکه جمعآوری داده چه زمانی ممکن است یا چه زمانی باید به عنوان «داده بزرگ» قلمداد شود و جایگاه این برچسب در عناوین پژوهشی به تفصیل در تحقیقات زیر بررسی شده است:
Leonelli (2016), Kitchin and McArdle (2016) and Aronova, van Oertzen, and Sepkoski (2017)