سوءتعبیر و سوءاستفاده از p-value (در فارسی پی مقدار گفته میشود) دهههاست که رو به افزایش است. در مارس ۲۰۱۶، انجمن آمار آمریکا(ASA) بیانیهای برای هشدار در مورد استفاده و تفسیر p-value منتشر کرد. در این نوشتار، تعریفی از p-value و بحثی پیرامون آن ارائه کرده و بر اهمیت تفسیر دقیق آن تأکید نمودهایم.
در این یادداشت میخوانید
مقدمه
معناداری آماری و p-value از دیرباز در تحقیقات علمی شناخته شده و بسیار محبوب هستند، اما سوءاستفاده و تفسیر نادرست از آنها همچنان امری رایج است۱. ایده آزمون معناداری و مفهوم p-value توسط رونالد فیشر (Ronald Fisher) در دهه ۱۹۲۰ در زمینه تحقیقات بر روی واریانس محصولات کشاورزی توسعه یافت۲. او p-value را به عنوان شاخصی برای اندازهگیری اختلاف بین دادهها و فرضیه صفر (null hypothesis) توصیف کرد. در سالهای اخیر، جایگاه آمار در میان تحقیقات دانشگاهی به طور چشمگیری بهبود یافته است، با این حال، p-value همچنان به طور معمول به اشتباه درک میشود. چندین نظرسنجی اخیر نشان داده است که بسیاری از محققان در پزشکی (در زمینههای مختلف) فاقد دانش کافی در زمینه آمار زیستی و تفسیر مفاهیم آماری هستند ۳-۵.
انجمن آمار آمریکا (ASA) در تاریخ ۸ مارس ۲۰۱۶ در مورد استفاده و تفسیر نادرست از p-value هشدار داد۶؛ بیانیه این انجمن شامل ۶ اصل است:
(۱) p-value میتواند نشان دهد که دادهها تا چه حد با یک مدل آماری مشخص ناسازگار هستند.
(۲) p-value نه احتمال درست بودن فرضیه مورد مطالعه را اندازهگیری میکند و نه احتمال اینکه دادهها صرفاً توسط شانس تصادفی تولید شدهاند.
(۳) نتیجهگیریهای علمی و تصمیمات تجاری یا سیاسی نباید تنها بر اساس اینکه آیا p-value از یک آستانه مشخص عبور میکند یا نه، استوار باشد.
(۴) استنتاج صحیح نیازمند گزارشدهی کامل و شفافیت است.
(۵) p-value یا معناداری آماری، اندازه یک اثر یا اهمیت یک نتیجه را اندازهگیری نمیکند.
(۶) p-value به خودی خود، معیار خوبی برای شواهد مربوط به یک مدل یا فرضیه ارائه نمیدهد.
بنابراین، این مطالعه با هدف تمرکز بر تعریف، تفسیر، سوءاستفاده و چالشها و نکات کلی که باید هنگام استفاده از p-value در نظر گرفته شود، انجام شده است.
p-value چی هست و چی نیست؟
یکی از بهترین تعاریف مفهومی p-value، همانند تعریفی که ASA استفاده میکند و به شرح زیر است: «احتمال، تحت یک مدل آماری مشخص، که یک خلاصه آماری از دادهها (مثلاً، تفاوت میانگین نمونه بین دو گروه مقایسه شده) برابر یا شدیدتر از مقدار مشاهده شده آن باشد.»۶.
p-value نه احتمال درستی فرضیه مورد آزمون است و نه احتمال اینکه انحراف مشاهده شده صرفاً توسط شانس ایجاد شده باشد. اینها رایجترین تفاسیر نادرست از p-value هستند. در محاسبه p-value، فرض بر این است که فرضیه صفر درست است، بنابراین p-value نمیتواند احتمال درستی فرضیه صفر را نشان دهد. فرض دیگری که در محاسبه p-value استفاده شده این است که هرگونه انحراف دادههای مشاهده شده از فرضیه صفر توسط شانس ایجاد شده است، بنابراین واضح است که وقتی در محاسبه p-value، تنها شانس بر انحراف فرضیه صفر تأثیر میگذارد، نمیتواند احتمال عملکرد شانس باشد ۷، ۸.
p-value، احتمالِ دادههای مشاهده شده با فرض درستی فرضیه صفر است، که این احتمال سازگاری بین دادهها و فرضیه مورد آزمون را اندازهگیری میکند، اگر و تنها اگر مدل آماری استفاده شده برای محاسبه p-value صحیح باشد۹. هرچه p-value کوچکتر باشد، اختلاف بیشتر است: «اگر p بین ۰.۱ و ۰.۹ باشد، قطعاً دلیلی برای شک کردن به فرضیه آزمون شده وجود ندارد، اما اگر زیر ۰.۰۲ باشد، قویاً نشان میدهد که فرضیه قادر به توضیح کل واقعیتها نیست. اگر یک خط مرسوم را روی ۰.۰۵ بکشیم، از مسیر خارج نخواهیم شد.»۲.
اغلب ادعا شده یا تصور میشود که p-value دلالت بر وجود یا عدم وجود یک اثر یا اهمیت یک نتیجه دارد، که این قطعاً درست نیست. در یک مطالعه کارآزمایی بالینی که در آن تفاوتهای یک شاخص قبل و بعد از یک مداخله ارزیابی میشود و تفاوت میانگین کوچک است (برای مثال، ۰.۵ واحد و p-value = ۰.۰۳)، p-value فقط دلالت بر معناداری آماری (statistical significance) (از وجود یک اثر یا همبستگی) دارد و اهمیت یک اثر یا نتیجه را توضیح نمیدهد. بنابراین، معناداری آماری معادل اهمیت بالینی (clinical significance) نیست و بالعکس۱۰.
p-value اندازه یک اثر را اندازهگیری نمیکند. فرض کنید در دو مطالعه مورد-شاهدی (case-control studies) ساختگی، رابطه بین بیماری و مواجهه توسط نسبت شانس (odds ratio) بررسی شده است. دادههای جدول ۱ نسبت مواجهه یافته یا نیافته را نشان میدهد؛ و در نتیجه، نسبت شانس (OR = 1.71) در هر دو مطالعه یکسان است و تنها تفاوت بین آنها حجم نمونه است. با این حال، p-value برای آزمون فرضیه اینکه نسبت شانس واقعی برابر با ۱ است، برای مطالعه A برابر با ۰.۶۰۵ و برای مطالعه B کمتر از ۰.۰۰۰۱ است. ظاهراً، یک اثر یکسان میتواند p-valueهای بسیار متفاوتی ایجاد کند. همانطور که به وضوح در بیانیه ASA ذکر شده است، هر اثری (بزرگ یا کوچک) بسته به حجم نمونه یا دقت اندازهگیری میتواند p-value کوچک یا بزرگی تولید کند، بنابراین نتیجهگیری در مورد یک فرضیه نباید فقط بر اساس p-value باشد، بلکه جنبههای دیگری مانند دقت اندازهگیری، حجم نمونه، طرح مطالعه و مفروضات نیز باید در نظر گرفته شوند۶. برای مثال، در طرح متقاطع (cross-over design) و طرح موازی (parallel design)، ممکن است اثر یکسانی داشته باشیم اما p-value متفاوت باشد، یا یک اثر یکسان اگر دقت برآوردها متفاوت باشد، p-valueهای متفاوتی خواهد داشت.
جدول ۱. مطالعه مورد-شاهدی ساختگی
مطالعه الف | مطالعه ب | |||
مواجهه یافته | مواجهه نیافته | مواجهه یافته | مواجهه نیافته | |
موارد | ۸ | ۲ | ۸۰۰ | ۲۰۰ |
شاهدها | ۷ | ۳ | ۷۰۰ | ۳۰۰ |
سایر تفاسیر نادرست از p-value به شرح زیر است: (۱۱)
- اگر p-value = ۰.۲، آیا ۲۰٪ احتمال دارد که فرضیه صفر درست باشد؟
- p-value = ۰.۰۲ به این معنی است که احتمال خطای نوع اول ۲٪ است.
p-value یک شاخص آماری است و نقاط قوت و ضعف خود را دارد که باید برای جلوگیری از سوءاستفاده و سوءتعبیر از آن در نظر گرفته شود (۱۲). گزارش آمار توصیفی، استفاده از فواصل اطمینان شاخصهای اندازهگیری در کنار p-value، و تفسیر واقعی آن از اهمیت بالایی برخوردار است۱.
نتیجهگیری
یک گزارش خوب شامل توصیف دادهها با خلاصههای عددی و گرافیکی مناسب، تسلط بر چارچوب مطالعه و تفسیر منطقی و بالینی شاخصهای کمی است. در مجموع، خلاصه کردن مقایسههای آماری به معناداری یا عدم معناداری آماری یکی از رایجترین سوءتعبیرهای آماری از p-value و آزمون فرض است. p-value مانند سایر شاخصها باید به درستی استفاده و تفسیر شود و نباید به خودی خود دلیلی علمی باشد.
این نوشتار ترجمهایست از مقاله P-value: What is and what is not
Tanha, K., Mohammadi, N., & Janani, L. (2017). P-value: What is and what is not. Medical journal of the Islamic Republic of Iran, 31, 65. https://doi.org/10.14196/mjiri.31.65
منابع
- Sterne JAC, Smith GD. Sifting the evidence—what’s wrong with significance tests? BMJ. 2001;322(7280):226–31. doi: 10.1136/bmj.322.7280.226. [DOI] [PMC free article] [PubMed] [Google Scholar]3
- Fisher RA. The Arrangement of Field Experiments. Journal of the Ministry of Agriculture of Great Britain. 1926;33:503–13. [Google Scholar]4
- Best AM, Laskin DM. Oral and maxillofacial surgery residents have poor understanding of biostatistics. J Oral Maxillofac Surg. 2013;71(1):227–34. doi: 10.1016/j.joms.2012.03.010. [DOI] [PubMed] [Google Scholar]5
- Windish DM, Huot SJ, Green ML. Medicine residents’ understanding of the biostatistics and results in the medical literature. Jama. 2007;298(9):1010–22. doi: 10.1001/jama.298.9.1010. [DOI] [PubMed] [Google Scholar]6
- Bookstaver PB, Miller AD, Felder TM, Tice DL, Norris LB, Sutton SS. Assessing pharmacy residents’ knowledge of biostatistics and research study design Ann. Pharmacother. 2012;46(7-8):991–9. doi: 10.1345/aph.1Q772. [DOI] [PubMed] [Google Scholar]7
- Wasserstein RL, Lazar NA. The ASA’s Statement on p-Values: Context, Process, and Purpose. Am Stat. 2016;70(2):129–33. [Google Scholar]8
- Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN. et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016;31:337–50. doi: 10.1007/s10654-016-0149-3. [DOI] [PMC free article] [PubMed] [Google Scholar]9
- Sterne JA. Teaching hypothesis tests-time for significant change? SIM. 2002;21(7):985–94. doi: 10.1002/sim.1129. discussion 95-99, 1001. [DOI] [PubMed] [Google Scholar]10
- Gigerenzer G. Mindless statistics. J Socec. 2004;33(5):587–606. [Google Scholar]11
- Charles GSP. Problems in common interpretations of statistics in scientific articles, expert reports, and testimony. Jurimetrics: Jurimetrics. 2011;51(2):113. [Google Scholar]12
- Goodman S. A dirty dozen: twelve p-value misconceptions. Seminhematol. 2008;45(3):135–40. doi: 10.1053/j.seminhematol.2008.04.003. [DOI] [PubMed] [Google Scholar]13
- Baker M. Statisticians issue warning over misuse of P values. Nature. 2016;531(7593):151. doi: 10.1038/nature.2016.19503. [DOI] [PubMed] [Googl14e Scholar]