تعریف و طبقه‌بندی

چگونه با داده‌ها مواجه شویم؟

مرور مفاهیم و ایده‌های اصلی در آمار

روایت‌گری با داده‌ها و انواع آن

آشنایی با داده‌های عمومی

تعریف پروژه و گزارش‌نویسی موثر

انواع روایت‌گری با داده‌ها

فهرست

شاید شما هم این عبارت‌ها را تاکنون شنیده باشید که «داده خودش سخن می‌گوید» یا مثلا با توضیحات بیشتر «بگذارید ما سکوت کنیم و سلیقه خودمان را وارد موضوع نکنیم، تا داده‌ها خودشان داستان را روایت کنند!». اما واقعیت این است که داده اصولاً خودش چیزی نمی‌گوید و این ما هستیم که به حرفش ‌می‌آوریم.

چه چیزی تحلیل داده را پیش می‌برد؟

ما زبان سخن گفتن با داده – یعنی آمار، تحلیل داده و الگوریتم – را یاد می‌گیریم و با استفاده از دانش و اطلاعاتی که درباره یک موضوع خاص داریم، از داده‌ سوال می‌پرسیم و با آن گفتگو می‌کنیم. رابطه تحلیلگر با داده شبیه رابطه روزنامه‌نگار با کسی است که برای مصاحبه سراغش می‌رود و باید برای به حرف آوردنش، ایده و برنامه‌ داشته باشد و کم‌وبیش بداند از کجا شروع می‌کند و چگونه مصاحبه را پیش ببرد. در واقع مصاحبه‌گر باید بتواند با هر پاسخی که دریافت می‌کند، ابتکار عمل را بیشتر به دست بگیرد و سوالات بهتری طرح کند و مصاحبه را به همین ترتیب پیش ببرد.

اگرچه ما در مصاحبه با داده‌ها به پاسخ بسیاری از پرسش‌هایمان می‌رسیم، اما داده هیچ‌گاه شروع‌کننده صحبت نیست و آن را پیش نمی‌برد. به بیان دیگر در روزنامه‌نگاری داده یا حتی به صورت کلی‌تر در تحلیل داده، این روایت است که تحلیل را پیش می‌برد و داده در حقیقت از آن پشتیبانی می‌کند. تحلیل داده را معمولاً چیزی شبیه یک روایت داستانی پیش می‌برد.

به همین خاطر، همیشه مهم است که ماجرا یا ماجراهایی حول موضوع داشته باشیم. این ماجراها نه تنها ما را در عرضه نهایی محتوا و جذب مخاطب یاری می‌کند، بلکه به ما کمک می‌کند ‌تا سررشته تحلیل در دست بگیریم و در داده‌ها غرق نشویم. پرسش‌ها و فرضیه‌هایی که تحلیل را پیش می‌برند معمولاً از دل همین روایت‌های داستانی زاده می‌شوند.

انواع روایت‌گری با داده‌ها

برای اینکه ذهن تحلیلگر در مواجهه با داده‌ها، به اندازه کافی ایده و آمادگی داشته باشد، باید انواع متداول روایتگری با داده‌ها را بشناسد. این آشنایی به وی کمک می‌کند تا بتواند با طرح چند سوال و آزمون و خطا با داده‌ها‌ تحلیل را شروع و خط سیر مورد نظر خود را پیدا کند.

برخی از انواع رایج روایتگری با داده‌ها مانند داده جدید، تلفیق و ایجاد ارتباط، مشاهدات غیرمتعارف، رفتار رایج، روند تغییرات، راستی‌آزمایی، برون‌یابی و مقایسه، پیش‌بینی آینده در ادامه معرفی شده‌اند. این طبقه‌بندی با تکیه بر چگونگی نقش‌آفرینی داده در خلق ارزش در یک محتوای ژورنالیستی انجام شده است. به عبارت دیگر، این‌ها مولفه‌هایی هستند که تولیدات دیتاژورنالیسم به واسطه داشتن هر یک از آن‌ها می‌تواند ارزش انتشار و عرضه پیدا کند.  

داده جدید

در روایت‌هایی که تاکید اصلی آن‌ها نورافشاندن بر یک داده‌ جدید است، آنچه موجب جذب مخاطب می‌شود در اصل مشاهده و دسترسی به داده‌ها است. در این نوع روایت اصل داستان خود داده‌ها هستند. به عنوان مثال، تلاش برای رتبه‌بندی دانشگاه‌های کشور با استفاده از کارنامه‌های کنکور، داده‌های حملات تروریستی در کشورها، شاخص ساقه‌طلایی و آمار کتاب‌های موفقیت در چهل سال اخیر نمونه‌هایی از ارائه محتوای روزنامه‌نگاری داده هستند که جاذبه اصلی در آن‌ها جدید بودنِ داده است.

در تمامی موارد یادشده، علاوه بر انتشار داده‌ها، تحلیل و مصورسازی برای تشویق مخاطب به ارتباط برقرار کردن با داده‌ها آورده شده اما جذابیت اصلی همچنان خود داده‌هاست. کارنامه‌های کنکور سازمان سنجش داده‌های انتخاب رشته و کارنامه کنکور را هیچگاه به صورت جداولی که قابلیت پردازش داشته باشند منتشر نکرده به همین دلیل جمع‌آوری و انتشار چنین داده‌ای به نیاز تعداد زیادی از علاقه‌مندان پاسخ می‌دهد. داده حملات تروریستی تا کنون به صورت یک‌جا عرضه و نشده به همین سبب، دسترسی به آن جذابیت زیادی برای تحلیلگران و پژوهشگران دارد. در پروژه شاخص ساقه‌طلایی نیز قیمت یک بسته ساقه‌طلایی سال ۱۳۸۰ در زمان‌های مختلف جمع‌آوری و منتشر شده و در هر زمان گفته شده قدرت خرید ساقه طلایی با حداقل حقوق مصوب چقدر است. در این پروژه نیز آنچه مخاطب را جذب می‌کند اطلاع از وجود چنین داده‌هایی است. مشابه همین موارد را می‌توان درباره کتاب‌های موفقیت نیز گفت.

در بسیاری موارد بخش مهمی از کار روزنامه‌نگار داده شناسایی داده مورد نیاز جهت جمع‌آوری، تحلیل و انتشار است. بسیاری پروژه‌های نظرسنجی را می‌توان زیرمجموعه نوع روایتگری متکی بر داده جدید قلمداد کرد.

تلفیق و ایجاد ارتباط

ایجاد ارتباط بین داده‌های مختلف یکی از جاذبه‌های اصلی کار با داده‌هاست و به همین سبب ظرفیت آن را دارد که بعنوان عنصر کلیدی در روایتگری مورد استفاده قرار بگیرد. بخش قابل توجهی از آنچه تحت عنوان داده بزرگ (Big Data) در سال‌های اخیر مورد توجه واقع شده در واقع ناظر بر همین امکان جدید ایجاد ارتباط بین داده‌های مختلف است.

به عنوان چند نمونه از این نوع روایتگری همبستگی غلظت کربن موجود در هوا و دمای زمین و تحلیل آرای مردم انگلستان به خروج از اتخادیه اروپا و نسبت آن با متغیرهای مختلف مانند میزان تحصیلات در شهرهای مختلف و همینطور مقایسه نسبت تعداد شهدای جنگ هشت ساله به جمعیت استان‌ها را نگاه کنید.

در تمامی نمونه‌های یادشده کشش اصلی مطلب، از تلفیق داده‌ از چند منبع مختلف حاصل شده است. از نمونه‌های متداول دیگر پیدا کردن رابطه بین شرکت‌ها و سهامداران آنان به منظور پیدا کردن ذی‌نفعان واحد و ترسیم در قالب شبکه و گراف است.

یکی دیگر از مزایای تلفیق داده‌ها پیدا کردن مقادیر غایب‌، فراموش‌‌شده‌ و بی‌صداست. به عنوان نمونه در تحلیل داده‌های دوازدهمین جشنواره ملی موسیقی جوان، تلفیق محل سکونت داوطلبان با داده‌های جمعیتی و تقسیمات کشوری نشان داد برخی مناطق مانند سیستان و بلوچستان در هر سه بخش جشنواره غایب بوده‌اند. به عبارت دیگر یکی از مزایای مهم تلفیق نو رافشاندن است بر آنچه که نیست!

مشاهده غیرمتعارف

یکی از پرجاذبه‌ترین خطوطی که روایتگری با داده‌ها را پیش می‌برد تمرکز روی یک مشاهده غیر متعارف یا اصطلاحاً داده پرت (Outlier) است. داده پرت معمولاً نشان‌دهنده اشکال در ثبت داده، موفقیت یا ضعف چشمگیر، عوامل موثر متمایز، تغییر رفتار، تخلف و تقلب است. تمامی این موارد موضوعاتی پرکشش هستند که می‌توانند دست‌مایه پیش بردن روایت شوند. 

برای پیدا کردن مشاهده یا رفتار غیرمتعارف باید با جمع‌آوری داده و ترسیم توزیع و انواع روابط نشان دهیم متعارف چیست. این ترسیم‌ها به ما کمک می‌کنند تا ببینیم چه چیزی از محدوده کلی مشاهدات (محدوده رفتار متعارف) بیرون می‌افتد. 

گزارش «لینول مسیِ غیرممکن» نمونه خوبی برای مشاهده یک نمونه از عملکرد غیرمتعارف به عنوان یک نمونه بسیار موفق است. در این گزارش با ترسیم نمودارهای پراکندگی مختلف نشان داده شده لیونل مسی واقعا عملکردی متفاوت با عملکرد متعارف در فوتبال دارد.

دز هر یک از نمونه‌های نمودار‌های بالا می‌توان دید عملکرد لیونل مسی از عملکرد متعارفِ دیگر بازیکنان آنچنان که در بخش‌های متراکم‌تر نمودار مشخص شده بیرون افتاده و متمایز شده است.

به عنوان نمونه دیگر می‌توان به کودکان بازمانده از تحصیل ایران در سال اشاره کرد. درصد بازماندن از تحصیل در این سال در استان سیستان و بلوچستان کاملا متمایز با دیگر استان‌هاست و همین تمایز سیستماتیک نیازمند پرداختن به موضوع و علت‌یابی است و می‌تواند به نقطه کانونی یک روایت بدل شود.

این تفاوت نشان از آن دارد که عواملی متفاوت با دیگر استان‌ها در استان سیستان و بلوچستان دست‌ اندر کار بوده و به بروز چنین نتیجه‌ای منجر شده است. پیدا کردن عواملی که باعث بروز یک مشاهده متمایز شده، سرنخ بسیاری از روایتگری‌های متکی بر داده است.

هیچ وقت از داده‌های پرت و مشاهدات غیرمتعارف غافل نشوید. داستان‌ پدیده‌های متمایز همیشه جذاب و در خور توجه است. تمایز موجود در داده پرت امکانات زیادی برای شخصیت‌پردزای و نزدیک‌تر کردن روایت به  چهارچوب یک روایت داستانی فراهم می‌کند.

الگوی رایج

یکی از انواع متداول روایتگری با داده‌ها تمرکز روی رفتار متعارف است. در این نوع روایتگری با داده معمولا ما به سوالاتی از این دست پاسخ می‌دهیم: پرتکرارترین مشاهده چیست؟ بیشترین فراوانی مربوط به کدام مقادیر است؟ عملکرد متعارف چیست؟ متداول‌ترین رفتار چیست؟

این نوع از روایتگری نقطه مقابل رفتار غیرمتعارف و داده پرت است. اینجا معمول‌ترین پدیده‌ها نقطه تمرکز روایت‌اند. مثلا متداول‌ترین نام‌هایی که ایرانیان روی فرزندان خود می‌گذارند چیست؟

سازمان ثبت احوال این داده را منتشر می‌کند. صفحه دربردارنده فراوان‌ترین نام‌های ثبت احوال، جرو صفحات محبوب وبسایت این سازمان است و تاکنون بیش از ۳ میلیون بار دیده شده است. معمولی‌ترین به هیچ وجه به معنی کم‌اهمیت‌ترین و غیرجذاب‌ترین نیست. در بسیاری موارد تمرکز روی معمول‌ترین پدیده و پربسامدترین مشاهده، ستون اصلی روایت را تشکیل می‌دهد.

به عنوان نمونه در مثال کودکان بازمانده از تحصیل وقتی سیستان و بلوچستان به عنوان استانی که دارای وضعیتی متمایز معرفی شد ممکن است این سوال مطرح شود که پرتکرارترین الگو در میان کودکان بازمانده از تحصیل این استان چیست؟ 

فرض کنید پاسخ این سوال دختران نوجوان روستایی باشد. اطلاع از این الگو نگاه مخاطب شما به موضوع را یکمرتبه عوض می‌کند و به همین دلیل می‌تواند نقطه شروع یک روایت تازه باشد.

نمونه دیگر از تمرکز روی فراوان‌ترین‌ها زمانی اتفاق می‌افتد که داده‌ای که قرار است تحلیل شود از جنس متن است و تحلیلگر برای به دست دادن یک درک اولیه از ترکیبات پرتکرار تصویری موسوم به ابر کلمات ترسیم می‌کند. به عنوان نمونه، این ابر کلمات مربوط به تحلیل توییت‌هایی فارسی در روزهای نخست شهریور ۱۴۰۱ است که که نشان دهنده تکرار زیاد واژگان مربوط به فساد فولاد مبارکه در میان کاربران توییتر است.

در بسیاری از روایتگری‌های داده که بر تحلیل الگوهای متداول تکیه می‌کنند، یکی از تم‌های پرتکرار مقاسیه الگوهای رایج در دو دسته مختلف و نشان دادن تمایز یا عدم تمایز معنادار بین آن‌هاست.

مثال

در سال 98 شهرداری تهران در یک نظرسنجی از 8 هزار شهروند تهران پرسید «مهم‌ترین نگرانی شما از زندگی در تهران چیست؟» شهرداری در ضمن این نظرسنجی می‌خواست به پرسش زیر پاسخ دهد:

در آمار محاسباتی روشی به نام bootstrap وجود دارد که با تکرار نمونه‌گیری (resampling) از نمونۀ در دست،‌ به دفعات دوباره نمونه‌گیری می‌کند و حدود تغییرات شاخص‌های مورد ارزیابی قرار می‌دهد.

تکرار چندبارۀ نمونه‌گیری تنها با اتکا به قدرت پردازش کامپیوتری امکان‌پذیر است.

این روش می‌تواند تمایز شاخص‌های مورد نظر بین پهنه شمالی و جنوبی محاسبه کند و مورد ارزیابی قرار دهد.

روند تغییرات

یکی از انواع معمول روایتگری با داده‌ در رسانه‌ها تمرکز روی روند تغییرات یک شاخص است. وقتی از سری زمانی یک شاخص حرف می‌زنیم در واقع تاکیدمان بر روند تغییرات است. در ارائه روند تغییرات یک شاخص مقدارهایی که از آن در زمان‌های مختلف داریم را با یکدیگر مقایسه و صعودی، نزولی یا کم‌وبیشِ عدم تغییرات آن را گزارش می‌کنیم.

تعداد مشاغل ایجاد شده در سال‌های گذشته چگونه تغییر کرده؟ شاخص‌های عدالت اجتماعی در سال‌های گذشته چه تغییراتی داشته؟ وضعیت ترافیک تهران در سال‌های اخیر بهتره شده یا بدتر؟ گرایش داوطلبان رشته‌های مختلف کنکور به رشته‌های مختلف در سال‌های اخیر با چه تغییراتی همراه بوده؟

این‌ها همه نمونه‌هایی از روایتگری با تمرکز بر ترسیم و تفسیر سری‌های زمانی است.

به عنوان مثال در روند تغییرات داوطلبان کنکور سراسری در شکل فوق مشخص است سهم داوطلبان رشته ریاضی در سال‌های اخیر به صورت پیوسته کاهش یافته است. علت بروز این تغییر اولویت در جامعه و تبعات آن برای کشور هر دو می‌توانند دست‌مایه تحلیل قرار بگیرند. از طرف دیگر، تغییر رفتار دو شاخص گرایش به تجربی و انسانی در میانه دهه نود از وضعیت افزایشی به کاهش و برعکس نیز پدیده‌هایی نیازمند تفسیر و توضیحند. 

نمونه متدوال دیگر از تکیه بر روند تغییرات در سری‌های زمانی آمار‌های مربوط به همه‌گیری کرونا است. به عنوان مثال سری زمانی تغییرات واکسیناسیون هفتگی در ایران در نمودار زیر ترسیم شده است. این ترسیم نشان می‌دهد بعد از واکسیناسیون گسترده در سال‌ ۱۴۰۰ این روند برای دریافت دوزهای بعدی در سال بعد چندان ادامه پیدا نکرده است. 

برون‌یابی و مقایسه

یکی از تم‌های متدوال در روایتگری داده‌ها و البته کاملا مرتبط با روند تغییرات، چیزی از جنس ارزیابی عملکرد یا ارزیابی اثربخشی در سری‌های زمانی است. در این نوع از روایتگری با داده، آنچه مورد تمرکز قرار می‌گیرد بررسی وضعیت یک شاخص بعد از یک واقعه در یک زمان مشخص است. 

مثلاً فرض کنید می‌خواهیم ببینیم آمار کلی مرگ و میر پس از همه‌گیری کرونا چگونه تحت تاثیر قرار گرفته است. برای این مقایسه باید ابتدا به این سوال پاسخ دهیم که در صورت نبودن همه‌گیری کرونا آمار مرگ و میر به صورت تقریبی باید چه مقادیری اتخاذ می‌کرد و اصطلاحاً آن‌ها را برون‌یابی کنیم و سپس مقادیر به دست آمده را با آنچه پس شروع همه‌گیری در واقعیت اتفاق افتاده مقایسه کنیم.

برون‌یابی انجام شده در شکل فوق که با خط‌چین نمایش داده شده و مقایسه آن با آنچه واقعا در آخرین زمان اتفاق افتاده درک مناسبی را از مقداری که تحت تاثیر کرونا بر آمار کلی مرگ و میر در کشور اضافه شده در اختیار ما قرار می‌دهد. 

به عنوان یک نمونه دیگر می‌توان تاثیر همه‌گیری کرونا بر آمار کار در کشور را مورد بررسی مشابه قرار داد و تغییر تعداد مشاغل در بخش‌های صنعت، کشاورزی و خدمات را قبل و بعد از شروع همه‌گیری مقایسه کرد.

در نمونه‌های فوق، در برخی موارد به دلیل مشاهده تغییرات فصلی مانند تغییرات تعداد مشاغل در بخش کشاورزی، برون‌یابی به تفکیک فصل انجام شده بود. گاهی برای برون‌یابی بسنده کردن به مشاهدات قبلی و امتداد آن‌ها کافی نیست، بلکه باید متغیرهای موثر دیگری را نیز وارد مدل کرد و در برون‌یابی دخالت داد. به عنوان مثال در کاهش مرگ و میر واکسینه‌ها در آمار ثبت احوال می‌توان به خوبی دید که سهم مرگ‌ و میر گروه‌های سنی دریافت‌کننده واکسن در تابستان ۱۴۰۰ چند هفته پس از شروع واکسیناسیون آنان از آنچه پس از شدت گرفتن موج پنجم کرونا انتظار می‌رفته به مراتب کمتر بوده است.

سهم مورد انتظار مرگ و میر هر یک از گروه‌های سنی با توجه به شدت مرگ و میر آن‌ها در موج‌های قبلی تعیین شده است. 

در برون‌یابی و مقایسه در حقیقت تمرکز اصلی روی پیدا کردن مقدار مورد انتظار در صورت اتفاق نیفتادن یک واقعه است. به عنوان مثال در همین نمونه واکسیناسیون سوال اصلی این است که سهم مرگ و میر هر یک از گروه‌های سنی در صورت عدم واکسیناسیون چگونه تغییر می‌کرد.

پیش‌بینی آینده

اگر برون‌یابی نوعی پیش‌بینی در گذشته است که از آن خبر داریم، پیش‌بینی آینده نوعی از روایتگری مبتنی بر برون‌یابی است که در آن امکان اطلاع از مقدار واقعی آنچه پیش‌بینی شده را نداریم چون هنوز زمانش فرا نرسیده است. به عنوان چند نمونه از این نوع روایتگری می‌توان به پیش‌بینی‌های انتخاباتی، پیش‌بینی وضعیت آتی بازار و پیش‌بینی شاخص‌های اقتصادی مانند نرخ تورم و رشد اقتصادی اشاره کرد. 

پیش‌بینی آینده البته کاری پرمخاطره است اما در صورت ارائه دست‌یابی به مدل‌های قابل دفاع و بررسی سناریوهای مختلف غیرممکن نیست.

راستی‌آزمایی

در بسیاری از روایتگری‌های داده نقطه شروع یک ادعاست که نیاز به راستی آزمایی دارد. گاهی این راستی‌آزمایی تنها به جمع‌آوری داده ختم می‌شود، گاهی نیازمند خلاقیت و تحلیل بیشتر است تا بتوان ادعای مطرح شده مورد واکاوی قرار داد.

به عنوان نمونه به ادعای مندرج در این محتوای تبلیغاتی که نزدیک به هفت ماه پس از شروع به کار شهرداری تهران در بهار ۱۴۰۰ در تابلوهای تبلیغاتی شهر پخش شده و راستی‌آزمایی آن توجه کنید:

سوالی که در درجه نخست مطرح  می‌شود این است که این سه ایستگاه در چه زمانی افتتاح شده‌اند. آیا عمده کارشان توسعه و راه‌اندازی‌شان در همین ۲۰۰ روز انجام شده؟ گردآوری داده مربوط به این سه ایستگاه نشان می‌دهد یکی از آن‌ها تنها ۳۹ روز بعد از شروع به کار شهرداری جدید افتتاح شده است.

اگر بخواهیم درستی این ادعا را به عنوان یک دستاورد متمایز بررسی کنیم، باید دستاورد کنونی یعنی افتتاح ۳ ایستگاه در ۲۰۰ روز با پنجره‌های زمانی ۲۰۰ روزه دیگر در گذشته مقایسه کنیم. آیا افتتاح ۳ ایستگاه در ۲۰۰ روز دستاورد متمایزی محسوب می‌شود؟

این بررسی نشان می‌دهد در بیش از ۵۲% این زمان تعداد ایستگاه‌هایی که ظرف ۲۰۰ روز بهره‌برداری شده بیشتر از ۳ بوده و به هیچ رو نمی‌توان آن دستاوردی متمایز در مقایسه با عملکرد شهرداری‌های قبل تلقی کرد (نگاه کنید به بخشی از منحنی که بالای خط‌چین قرمز قرار گرفته است).

به عنوان یک نمونه پیچیده و مفصل‌تر، می‌توان به آزمون بکدال با موضوعی بررسی نابرابری جنسیتی در سینما اشاره کرد. این آزمون درستی این گزاره را بررسی می‌کند که آیا سینمای آمریکا به مرور زمان مردانه‌تر شده است. در آزمون بررسی شده که در آیا در یک فیلم بیش از یک شخصیت زن وجود دارد؟ آیا این شخصیت‌ها دیالوگی با یکدیگر برقرار می‌کنند؟ آیا موضوع گفتگویشان چیزی غیر شخصیت‌های مرد داستان است؟ بعضی فیلم‌ها در این آزمون نمره قبولی دریافت می‌کنند و برخی نمره قبولی دریافت نمی‌کنند. روند تغییرات فیلم‌هایی که در این آزمون نمره قبولی دریافت می‌کنند نشان می‌دهد که سهم این فیلم‌ها به مرور زمان بیشتر شده است.

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors