فهرست
شاید شما هم این عبارتها را تاکنون شنیده باشید که «داده خودش سخن میگوید» یا مثلا با توضیحات بیشتر «بگذارید ما سکوت کنیم و سلیقه خودمان را وارد موضوع نکنیم، تا دادهها خودشان داستان را روایت کنند!». اما واقعیت این است که داده اصولاً خودش چیزی نمیگوید و این ما هستیم که به حرفش میآوریم.
چه چیزی تحلیل داده را پیش میبرد؟
ما زبان سخن گفتن با داده – یعنی آمار، تحلیل داده و الگوریتم – را یاد میگیریم و با استفاده از دانش و اطلاعاتی که درباره یک موضوع خاص داریم، از داده سوال میپرسیم و با آن گفتگو میکنیم. رابطه تحلیلگر با داده شبیه رابطه روزنامهنگار با کسی است که برای مصاحبه سراغش میرود و باید برای به حرف آوردنش، ایده و برنامه داشته باشد و کموبیش بداند از کجا شروع میکند و چگونه مصاحبه را پیش ببرد. در واقع مصاحبهگر باید بتواند با هر پاسخی که دریافت میکند، ابتکار عمل را بیشتر به دست بگیرد و سوالات بهتری طرح کند و مصاحبه را به همین ترتیب پیش ببرد.
اگرچه ما در مصاحبه با دادهها به پاسخ بسیاری از پرسشهایمان میرسیم، اما داده هیچگاه شروعکننده صحبت نیست و آن را پیش نمیبرد. به بیان دیگر در روزنامهنگاری داده یا حتی به صورت کلیتر در تحلیل داده، این روایت است که تحلیل را پیش میبرد و داده در حقیقت از آن پشتیبانی میکند. تحلیل داده را معمولاً چیزی شبیه یک روایت داستانی پیش میبرد.
به همین خاطر، همیشه مهم است که ماجرا یا ماجراهایی حول موضوع داشته باشیم. این ماجراها نه تنها ما را در عرضه نهایی محتوا و جذب مخاطب یاری میکند، بلکه به ما کمک میکند تا سررشته تحلیل در دست بگیریم و در دادهها غرق نشویم. پرسشها و فرضیههایی که تحلیل را پیش میبرند معمولاً از دل همین روایتهای داستانی زاده میشوند.
انواع روایتگری با دادهها
برای اینکه ذهن تحلیلگر در مواجهه با دادهها، به اندازه کافی ایده و آمادگی داشته باشد، باید انواع متداول روایتگری با دادهها را بشناسد. این آشنایی به وی کمک میکند تا بتواند با طرح چند سوال و آزمون و خطا با دادهها تحلیل را شروع و خط سیر مورد نظر خود را پیدا کند.
برخی از انواع رایج روایتگری با دادهها مانند داده جدید، تلفیق و ایجاد ارتباط، مشاهدات غیرمتعارف، رفتار رایج، روند تغییرات، راستیآزمایی، برونیابی و مقایسه، پیشبینی آینده در ادامه معرفی شدهاند. این طبقهبندی با تکیه بر چگونگی نقشآفرینی داده در خلق ارزش در یک محتوای ژورنالیستی انجام شده است. به عبارت دیگر، اینها مولفههایی هستند که تولیدات دیتاژورنالیسم به واسطه داشتن هر یک از آنها میتواند ارزش انتشار و عرضه پیدا کند.
داده جدید
در روایتهایی که تاکید اصلی آنها نورافشاندن بر یک داده جدید است، آنچه موجب جذب مخاطب میشود در اصل مشاهده و دسترسی به دادهها است. در این نوع روایت اصل داستان خود دادهها هستند. به عنوان مثال، تلاش برای رتبهبندی دانشگاههای کشور با استفاده از کارنامههای کنکور، دادههای حملات تروریستی در کشورها، شاخص ساقهطلایی و آمار کتابهای موفقیت در چهل سال اخیر نمونههایی از ارائه محتوای روزنامهنگاری داده هستند که جاذبه اصلی در آنها جدید بودنِ داده است.
در تمامی موارد یادشده، علاوه بر انتشار دادهها، تحلیل و مصورسازی برای تشویق مخاطب به ارتباط برقرار کردن با دادهها آورده شده اما جذابیت اصلی همچنان خود دادههاست. کارنامههای کنکور سازمان سنجش دادههای انتخاب رشته و کارنامه کنکور را هیچگاه به صورت جداولی که قابلیت پردازش داشته باشند منتشر نکرده به همین دلیل جمعآوری و انتشار چنین دادهای به نیاز تعداد زیادی از علاقهمندان پاسخ میدهد. داده حملات تروریستی تا کنون به صورت یکجا عرضه و نشده به همین سبب، دسترسی به آن جذابیت زیادی برای تحلیلگران و پژوهشگران دارد. در پروژه شاخص ساقهطلایی نیز قیمت یک بسته ساقهطلایی سال ۱۳۸۰ در زمانهای مختلف جمعآوری و منتشر شده و در هر زمان گفته شده قدرت خرید ساقه طلایی با حداقل حقوق مصوب چقدر است. در این پروژه نیز آنچه مخاطب را جذب میکند اطلاع از وجود چنین دادههایی است. مشابه همین موارد را میتوان درباره کتابهای موفقیت نیز گفت.
در بسیاری موارد بخش مهمی از کار روزنامهنگار داده شناسایی داده مورد نیاز جهت جمعآوری، تحلیل و انتشار است. بسیاری پروژههای نظرسنجی را میتوان زیرمجموعه نوع روایتگری متکی بر داده جدید قلمداد کرد.
تلفیق و ایجاد ارتباط
ایجاد ارتباط بین دادههای مختلف یکی از جاذبههای اصلی کار با دادههاست و به همین سبب ظرفیت آن را دارد که بعنوان عنصر کلیدی در روایتگری مورد استفاده قرار بگیرد. بخش قابل توجهی از آنچه تحت عنوان داده بزرگ (Big Data) در سالهای اخیر مورد توجه واقع شده در واقع ناظر بر همین امکان جدید ایجاد ارتباط بین دادههای مختلف است.
به عنوان چند نمونه از این نوع روایتگری همبستگی غلظت کربن موجود در هوا و دمای زمین و تحلیل آرای مردم انگلستان به خروج از اتخادیه اروپا و نسبت آن با متغیرهای مختلف مانند میزان تحصیلات در شهرهای مختلف و همینطور مقایسه نسبت تعداد شهدای جنگ هشت ساله به جمعیت استانها را نگاه کنید.
در تمامی نمونههای یادشده کشش اصلی مطلب، از تلفیق داده از چند منبع مختلف حاصل شده است. از نمونههای متداول دیگر پیدا کردن رابطه بین شرکتها و سهامداران آنان به منظور پیدا کردن ذینفعان واحد و ترسیم در قالب شبکه و گراف است.
یکی دیگر از مزایای تلفیق دادهها پیدا کردن مقادیر غایب، فراموششده و بیصداست. به عنوان نمونه در تحلیل دادههای دوازدهمین جشنواره ملی موسیقی جوان، تلفیق محل سکونت داوطلبان با دادههای جمعیتی و تقسیمات کشوری نشان داد برخی مناطق مانند سیستان و بلوچستان در هر سه بخش جشنواره غایب بودهاند. به عبارت دیگر یکی از مزایای مهم تلفیق نو رافشاندن است بر آنچه که نیست!
مشاهده غیرمتعارف
یکی از پرجاذبهترین خطوطی که روایتگری با دادهها را پیش میبرد تمرکز روی یک مشاهده غیر متعارف یا اصطلاحاً داده پرت (Outlier) است. داده پرت معمولاً نشاندهنده اشکال در ثبت داده، موفقیت یا ضعف چشمگیر، عوامل موثر متمایز، تغییر رفتار، تخلف و تقلب است. تمامی این موارد موضوعاتی پرکشش هستند که میتوانند دستمایه پیش بردن روایت شوند.
برای پیدا کردن مشاهده یا رفتار غیرمتعارف باید با جمعآوری داده و ترسیم توزیع و انواع روابط نشان دهیم متعارف چیست. این ترسیمها به ما کمک میکنند تا ببینیم چه چیزی از محدوده کلی مشاهدات (محدوده رفتار متعارف) بیرون میافتد.
گزارش «لینول مسیِ غیرممکن» نمونه خوبی برای مشاهده یک نمونه از عملکرد غیرمتعارف به عنوان یک نمونه بسیار موفق است. در این گزارش با ترسیم نمودارهای پراکندگی مختلف نشان داده شده لیونل مسی واقعا عملکردی متفاوت با عملکرد متعارف در فوتبال دارد.
دز هر یک از نمونههای نمودارهای بالا میتوان دید عملکرد لیونل مسی از عملکرد متعارفِ دیگر بازیکنان آنچنان که در بخشهای متراکمتر نمودار مشخص شده بیرون افتاده و متمایز شده است.
به عنوان نمونه دیگر میتوان به کودکان بازمانده از تحصیل ایران در سال اشاره کرد. درصد بازماندن از تحصیل در این سال در استان سیستان و بلوچستان کاملا متمایز با دیگر استانهاست و همین تمایز سیستماتیک نیازمند پرداختن به موضوع و علتیابی است و میتواند به نقطه کانونی یک روایت بدل شود.
این تفاوت نشان از آن دارد که عواملی متفاوت با دیگر استانها در استان سیستان و بلوچستان دست اندر کار بوده و به بروز چنین نتیجهای منجر شده است. پیدا کردن عواملی که باعث بروز یک مشاهده متمایز شده، سرنخ بسیاری از روایتگریهای متکی بر داده است.
هیچ وقت از دادههای پرت و مشاهدات غیرمتعارف غافل نشوید. داستان پدیدههای متمایز همیشه جذاب و در خور توجه است. تمایز موجود در داده پرت امکانات زیادی برای شخصیتپردزای و نزدیکتر کردن روایت به چهارچوب یک روایت داستانی فراهم میکند.
الگوی رایج
یکی از انواع متداول روایتگری با دادهها تمرکز روی رفتار متعارف است. در این نوع روایتگری با داده معمولا ما به سوالاتی از این دست پاسخ میدهیم: پرتکرارترین مشاهده چیست؟ بیشترین فراوانی مربوط به کدام مقادیر است؟ عملکرد متعارف چیست؟ متداولترین رفتار چیست؟
این نوع از روایتگری نقطه مقابل رفتار غیرمتعارف و داده پرت است. اینجا معمولترین پدیدهها نقطه تمرکز روایتاند. مثلا متداولترین نامهایی که ایرانیان روی فرزندان خود میگذارند چیست؟
سازمان ثبت احوال این داده را منتشر میکند. صفحه دربردارنده فراوانترین نامهای ثبت احوال، جرو صفحات محبوب وبسایت این سازمان است و تاکنون بیش از ۳ میلیون بار دیده شده است. معمولیترین به هیچ وجه به معنی کماهمیتترین و غیرجذابترین نیست. در بسیاری موارد تمرکز روی معمولترین پدیده و پربسامدترین مشاهده، ستون اصلی روایت را تشکیل میدهد.
به عنوان نمونه در مثال کودکان بازمانده از تحصیل وقتی سیستان و بلوچستان به عنوان استانی که دارای وضعیتی متمایز معرفی شد ممکن است این سوال مطرح شود که پرتکرارترین الگو در میان کودکان بازمانده از تحصیل این استان چیست؟
فرض کنید پاسخ این سوال دختران نوجوان روستایی باشد. اطلاع از این الگو نگاه مخاطب شما به موضوع را یکمرتبه عوض میکند و به همین دلیل میتواند نقطه شروع یک روایت تازه باشد.
نمونه دیگر از تمرکز روی فراوانترینها زمانی اتفاق میافتد که دادهای که قرار است تحلیل شود از جنس متن است و تحلیلگر برای به دست دادن یک درک اولیه از ترکیبات پرتکرار تصویری موسوم به ابر کلمات ترسیم میکند. به عنوان نمونه، این ابر کلمات مربوط به تحلیل توییتهایی فارسی در روزهای نخست شهریور ۱۴۰۱ است که که نشان دهنده تکرار زیاد واژگان مربوط به فساد فولاد مبارکه در میان کاربران توییتر است.
در بسیاری از روایتگریهای داده که بر تحلیل الگوهای متداول تکیه میکنند، یکی از تمهای پرتکرار مقاسیه الگوهای رایج در دو دسته مختلف و نشان دادن تمایز یا عدم تمایز معنادار بین آنهاست.
مثال
در سال 98 شهرداری تهران در یک نظرسنجی از 8 هزار شهروند تهران پرسید «مهمترین نگرانی شما از زندگی در تهران چیست؟» شهرداری در ضمن این نظرسنجی میخواست به پرسش زیر پاسخ دهد:
در آمار محاسباتی روشی به نام bootstrap وجود دارد که با تکرار نمونهگیری (resampling) از نمونۀ در دست، به دفعات دوباره نمونهگیری میکند و حدود تغییرات شاخصهای مورد ارزیابی قرار میدهد.
تکرار چندبارۀ نمونهگیری تنها با اتکا به قدرت پردازش کامپیوتری امکانپذیر است.
این روش میتواند تمایز شاخصهای مورد نظر بین پهنه شمالی و جنوبی محاسبه کند و مورد ارزیابی قرار دهد.
روند تغییرات
یکی از انواع معمول روایتگری با داده در رسانهها تمرکز روی روند تغییرات یک شاخص است. وقتی از سری زمانی یک شاخص حرف میزنیم در واقع تاکیدمان بر روند تغییرات است. در ارائه روند تغییرات یک شاخص مقدارهایی که از آن در زمانهای مختلف داریم را با یکدیگر مقایسه و صعودی، نزولی یا کموبیشِ عدم تغییرات آن را گزارش میکنیم.
تعداد مشاغل ایجاد شده در سالهای گذشته چگونه تغییر کرده؟ شاخصهای عدالت اجتماعی در سالهای گذشته چه تغییراتی داشته؟ وضعیت ترافیک تهران در سالهای اخیر بهتره شده یا بدتر؟ گرایش داوطلبان رشتههای مختلف کنکور به رشتههای مختلف در سالهای اخیر با چه تغییراتی همراه بوده؟
اینها همه نمونههایی از روایتگری با تمرکز بر ترسیم و تفسیر سریهای زمانی است.
به عنوان مثال در روند تغییرات داوطلبان کنکور سراسری در شکل فوق مشخص است سهم داوطلبان رشته ریاضی در سالهای اخیر به صورت پیوسته کاهش یافته است. علت بروز این تغییر اولویت در جامعه و تبعات آن برای کشور هر دو میتوانند دستمایه تحلیل قرار بگیرند. از طرف دیگر، تغییر رفتار دو شاخص گرایش به تجربی و انسانی در میانه دهه نود از وضعیت افزایشی به کاهش و برعکس نیز پدیدههایی نیازمند تفسیر و توضیحند.
نمونه متدوال دیگر از تکیه بر روند تغییرات در سریهای زمانی آمارهای مربوط به همهگیری کرونا است. به عنوان مثال سری زمانی تغییرات واکسیناسیون هفتگی در ایران در نمودار زیر ترسیم شده است. این ترسیم نشان میدهد بعد از واکسیناسیون گسترده در سال ۱۴۰۰ این روند برای دریافت دوزهای بعدی در سال بعد چندان ادامه پیدا نکرده است.
برونیابی و مقایسه
یکی از تمهای متدوال در روایتگری دادهها و البته کاملا مرتبط با روند تغییرات، چیزی از جنس ارزیابی عملکرد یا ارزیابی اثربخشی در سریهای زمانی است. در این نوع از روایتگری با داده، آنچه مورد تمرکز قرار میگیرد بررسی وضعیت یک شاخص بعد از یک واقعه در یک زمان مشخص است.
مثلاً فرض کنید میخواهیم ببینیم آمار کلی مرگ و میر پس از همهگیری کرونا چگونه تحت تاثیر قرار گرفته است. برای این مقایسه باید ابتدا به این سوال پاسخ دهیم که در صورت نبودن همهگیری کرونا آمار مرگ و میر به صورت تقریبی باید چه مقادیری اتخاذ میکرد و اصطلاحاً آنها را برونیابی کنیم و سپس مقادیر به دست آمده را با آنچه پس شروع همهگیری در واقعیت اتفاق افتاده مقایسه کنیم.
برونیابی انجام شده در شکل فوق که با خطچین نمایش داده شده و مقایسه آن با آنچه واقعا در آخرین زمان اتفاق افتاده درک مناسبی را از مقداری که تحت تاثیر کرونا بر آمار کلی مرگ و میر در کشور اضافه شده در اختیار ما قرار میدهد.
به عنوان یک نمونه دیگر میتوان تاثیر همهگیری کرونا بر آمار کار در کشور را مورد بررسی مشابه قرار داد و تغییر تعداد مشاغل در بخشهای صنعت، کشاورزی و خدمات را قبل و بعد از شروع همهگیری مقایسه کرد.
در نمونههای فوق، در برخی موارد به دلیل مشاهده تغییرات فصلی مانند تغییرات تعداد مشاغل در بخش کشاورزی، برونیابی به تفکیک فصل انجام شده بود. گاهی برای برونیابی بسنده کردن به مشاهدات قبلی و امتداد آنها کافی نیست، بلکه باید متغیرهای موثر دیگری را نیز وارد مدل کرد و در برونیابی دخالت داد. به عنوان مثال در کاهش مرگ و میر واکسینهها در آمار ثبت احوال میتوان به خوبی دید که سهم مرگ و میر گروههای سنی دریافتکننده واکسن در تابستان ۱۴۰۰ چند هفته پس از شروع واکسیناسیون آنان از آنچه پس از شدت گرفتن موج پنجم کرونا انتظار میرفته به مراتب کمتر بوده است.
سهم مورد انتظار مرگ و میر هر یک از گروههای سنی با توجه به شدت مرگ و میر آنها در موجهای قبلی تعیین شده است.
در برونیابی و مقایسه در حقیقت تمرکز اصلی روی پیدا کردن مقدار مورد انتظار در صورت اتفاق نیفتادن یک واقعه است. به عنوان مثال در همین نمونه واکسیناسیون سوال اصلی این است که سهم مرگ و میر هر یک از گروههای سنی در صورت عدم واکسیناسیون چگونه تغییر میکرد.
پیشبینی آینده
اگر برونیابی نوعی پیشبینی در گذشته است که از آن خبر داریم، پیشبینی آینده نوعی از روایتگری مبتنی بر برونیابی است که در آن امکان اطلاع از مقدار واقعی آنچه پیشبینی شده را نداریم چون هنوز زمانش فرا نرسیده است. به عنوان چند نمونه از این نوع روایتگری میتوان به پیشبینیهای انتخاباتی، پیشبینی وضعیت آتی بازار و پیشبینی شاخصهای اقتصادی مانند نرخ تورم و رشد اقتصادی اشاره کرد.
پیشبینی آینده البته کاری پرمخاطره است اما در صورت ارائه دستیابی به مدلهای قابل دفاع و بررسی سناریوهای مختلف غیرممکن نیست.
راستیآزمایی
در بسیاری از روایتگریهای داده نقطه شروع یک ادعاست که نیاز به راستی آزمایی دارد. گاهی این راستیآزمایی تنها به جمعآوری داده ختم میشود، گاهی نیازمند خلاقیت و تحلیل بیشتر است تا بتوان ادعای مطرح شده مورد واکاوی قرار داد.
به عنوان نمونه به ادعای مندرج در این محتوای تبلیغاتی که نزدیک به هفت ماه پس از شروع به کار شهرداری تهران در بهار ۱۴۰۰ در تابلوهای تبلیغاتی شهر پخش شده و راستیآزمایی آن توجه کنید:
سوالی که در درجه نخست مطرح میشود این است که این سه ایستگاه در چه زمانی افتتاح شدهاند. آیا عمده کارشان توسعه و راهاندازیشان در همین ۲۰۰ روز انجام شده؟ گردآوری داده مربوط به این سه ایستگاه نشان میدهد یکی از آنها تنها ۳۹ روز بعد از شروع به کار شهرداری جدید افتتاح شده است.
اگر بخواهیم درستی این ادعا را به عنوان یک دستاورد متمایز بررسی کنیم، باید دستاورد کنونی یعنی افتتاح ۳ ایستگاه در ۲۰۰ روز با پنجرههای زمانی ۲۰۰ روزه دیگر در گذشته مقایسه کنیم. آیا افتتاح ۳ ایستگاه در ۲۰۰ روز دستاورد متمایزی محسوب میشود؟
این بررسی نشان میدهد در بیش از ۵۲% این زمان تعداد ایستگاههایی که ظرف ۲۰۰ روز بهرهبرداری شده بیشتر از ۳ بوده و به هیچ رو نمیتوان آن دستاوردی متمایز در مقایسه با عملکرد شهرداریهای قبل تلقی کرد (نگاه کنید به بخشی از منحنی که بالای خطچین قرمز قرار گرفته است).
به عنوان یک نمونه پیچیده و مفصلتر، میتوان به آزمون بکدال با موضوعی بررسی نابرابری جنسیتی در سینما اشاره کرد. این آزمون درستی این گزاره را بررسی میکند که آیا سینمای آمریکا به مرور زمان مردانهتر شده است. در آزمون بررسی شده که در آیا در یک فیلم بیش از یک شخصیت زن وجود دارد؟ آیا این شخصیتها دیالوگی با یکدیگر برقرار میکنند؟ آیا موضوع گفتگویشان چیزی غیر شخصیتهای مرد داستان است؟ بعضی فیلمها در این آزمون نمره قبولی دریافت میکنند و برخی نمره قبولی دریافت نمیکنند. روند تغییرات فیلمهایی که در این آزمون نمره قبولی دریافت میکنند نشان میدهد که سهم این فیلمها به مرور زمان بیشتر شده است.