P-value: چی هست و چی نیست

p-value (1)

سوءتعبیر و سوءاستفاده از p-value (در فارسی پی مقدار گفته می‌شود) دهه‌هاست که رو به افزایش است. در مارس ۲۰۱۶، انجمن آمار آمریکا(ASA) بیانیه‌ای برای هشدار در مورد استفاده و تفسیر p-value منتشر کرد. در این نوشتار، تعریفی از p-value و بحثی پیرامون آن ارائه کرده و بر اهمیت تفسیر دقیق آن تأکید نموده‌ایم.

مقدمه

معناداری آماری و p-value از دیرباز در تحقیقات علمی شناخته شده و بسیار محبوب هستند، اما سوءاستفاده و تفسیر نادرست از آنها همچنان امری رایج است۱. ایده آزمون معناداری و مفهوم p-value توسط رونالد فیشر (Ronald Fisher) در دهه ۱۹۲۰ در زمینه تحقیقات بر روی واریانس محصولات کشاورزی توسعه یافت۲. او p-value را به عنوان شاخصی برای اندازه‌گیری اختلاف بین داده‌ها و فرضیه صفر (null hypothesis) توصیف کرد. در سال‌های اخیر، جایگاه آمار در میان تحقیقات دانشگاهی به طور چشمگیری بهبود یافته است، با این حال، p-value همچنان به طور معمول به اشتباه درک می‌شود. چندین نظرسنجی اخیر نشان داده است که بسیاری از محققان در پزشکی (در زمینه‌های مختلف) فاقد دانش کافی در زمینه آمار زیستی و تفسیر مفاهیم آماری هستند ۳-۵.

انجمن آمار آمریکا (ASA) در تاریخ ۸ مارس ۲۰۱۶ در مورد استفاده و تفسیر نادرست از p-value هشدار داد۶؛ بیانیه این انجمن شامل ۶ اصل است:

(۱) p-value می‌تواند نشان دهد که داده‌ها تا چه حد با یک مدل آماری مشخص ناسازگار هستند.

(۲) p-value نه احتمال درست بودن فرضیه مورد مطالعه را اندازه‌گیری می‌کند و نه احتمال اینکه داده‌ها صرفاً توسط شانس تصادفی تولید شده‌اند.

(۳) نتیجه‌گیری‌های علمی و تصمیمات تجاری یا سیاسی نباید تنها بر اساس اینکه آیا p-value از یک آستانه مشخص عبور می‌کند یا نه، استوار باشد.

(۴) استنتاج صحیح نیازمند گزارش‌دهی کامل و شفافیت است.

(۵) p-value یا معناداری آماری، اندازه یک اثر یا اهمیت یک نتیجه را اندازه‌گیری نمی‌کند.

(۶) p-value به خودی خود، معیار خوبی برای شواهد مربوط به یک مدل یا فرضیه ارائه نمی‌دهد.

بنابراین، این مطالعه با هدف تمرکز بر تعریف، تفسیر، سوءاستفاده و چالش‌ها و نکات کلی که باید هنگام استفاده از p-value در نظر گرفته شود، انجام شده است.

p-value چی هست و چی نیست؟

یکی از بهترین تعاریف مفهومی p-value، همانند تعریفی که ASA استفاده می‌کند و به شرح زیر است: «احتمال، تحت یک مدل آماری مشخص، که یک خلاصه آماری از داده‌ها (مثلاً، تفاوت میانگین نمونه بین دو گروه مقایسه شده) برابر یا شدیدتر از مقدار مشاهده شده آن باشد۶.

p-value نه احتمال درستی فرضیه مورد آزمون است و نه احتمال اینکه انحراف مشاهده شده صرفاً توسط شانس ایجاد شده باشد. این‌ها رایج‌ترین تفاسیر نادرست از p-value هستند. در محاسبه p-value، فرض بر این است که فرضیه صفر درست است، بنابراین p-value نمی‌تواند احتمال درستی فرضیه صفر را نشان دهد. فرض دیگری که در محاسبه p-value استفاده شده این است که هرگونه انحراف داده‌های مشاهده شده از فرضیه صفر توسط شانس ایجاد شده است، بنابراین واضح است که وقتی در محاسبه p-value، تنها شانس بر انحراف فرضیه صفر تأثیر می‌گذارد، نمی‌تواند احتمال عملکرد شانس باشد ۷، ۸.

p-value، احتمالِ داده‌های مشاهده شده با فرض درستی فرضیه صفر است، که این احتمال سازگاری بین داده‌ها و فرضیه مورد آزمون را اندازه‌گیری می‌کند، اگر و تنها اگر مدل آماری استفاده شده برای محاسبه p-value صحیح باشد۹. هرچه p-value کوچکتر باشد، اختلاف بیشتر است: «اگر p بین ۰.۱ و ۰.۹ باشد، قطعاً دلیلی برای شک کردن به فرضیه آزمون شده وجود ندارد، اما اگر زیر ۰.۰۲ باشد، قویاً نشان می‌دهد که فرضیه قادر به توضیح کل واقعیت‌ها نیست. اگر یک خط مرسوم را روی ۰.۰۵ بکشیم، از مسیر خارج نخواهیم شد.»۲.

اغلب ادعا شده یا تصور می‌شود که p-value دلالت بر وجود یا عدم وجود یک اثر یا اهمیت یک نتیجه دارد، که این قطعاً درست نیست. در یک مطالعه کارآزمایی بالینی که در آن تفاوت‌های یک شاخص قبل و بعد از یک مداخله ارزیابی می‌شود و تفاوت میانگین کوچک است (برای مثال، ۰.۵ واحد و p-value = ۰.۰۳)، p-value فقط دلالت بر معناداری آماری (statistical significance) (از وجود یک اثر یا همبستگی) دارد و اهمیت یک اثر یا نتیجه را توضیح نمی‌دهد. بنابراین، معناداری آماری معادل اهمیت بالینی (clinical significance) نیست و بالعکس۱۰.

p-value اندازه یک اثر را اندازه‌گیری نمی‌کند. فرض کنید در دو مطالعه مورد-شاهدی (case-control studies) ساختگی، رابطه بین بیماری و مواجهه توسط نسبت شانس (odds ratio) بررسی شده است. داده‌های جدول ۱ نسبت مواجهه یافته یا نیافته را نشان می‌دهد؛ و در نتیجه، نسبت شانس (OR = 1.71) در هر دو مطالعه یکسان است و تنها تفاوت بین آنها حجم نمونه است. با این حال، p-value برای آزمون فرضیه اینکه نسبت شانس واقعی برابر با ۱ است، برای مطالعه A برابر با ۰.۶۰۵ و برای مطالعه B کمتر از ۰.۰۰۰۱ است. ظاهراً، یک اثر یکسان می‌تواند p-valueهای بسیار متفاوتی ایجاد کند. همانطور که به وضوح در بیانیه ASA ذکر شده است، هر اثری (بزرگ یا کوچک) بسته به حجم نمونه یا دقت اندازه‌گیری می‌تواند p-value کوچک یا بزرگی تولید کند، بنابراین نتیجه‌گیری در مورد یک فرضیه نباید فقط بر اساس p-value باشد، بلکه جنبه‌های دیگری مانند دقت اندازه‌گیری، حجم نمونه، طرح مطالعه و مفروضات نیز باید در نظر گرفته شوند۶. برای مثال، در طرح متقاطع (cross-over design) و طرح موازی (parallel design)، ممکن است اثر یکسانی داشته باشیم اما p-value متفاوت باشد، یا یک اثر یکسان اگر دقت برآوردها متفاوت باشد، p-valueهای متفاوتی خواهد داشت.

جدول ۱. مطالعه مورد-شاهدی ساختگی

مطالعه الفمطالعه ب
مواجهه یافتهمواجهه نیافتهمواجهه یافتهمواجهه نیافته
موارد۸۲۸۰۰۲۰۰
شاهدها۷۳۷۰۰۳۰۰

سایر تفاسیر نادرست از p-value به شرح زیر است: (۱۱)

  • اگر p-value = ۰.۲، آیا ۲۰٪ احتمال دارد که فرضیه صفر درست باشد؟
  • p-value = ۰.۰۲ به این معنی است که احتمال خطای نوع اول ۲٪ است.

p-value یک شاخص آماری است و نقاط قوت و ضعف خود را دارد که باید برای جلوگیری از سوءاستفاده و سوءتعبیر از آن در نظر گرفته شود (۱۲). گزارش آمار توصیفی، استفاده از فواصل اطمینان شاخص‌های اندازه‌گیری در کنار p-value، و تفسیر واقعی آن از اهمیت بالایی برخوردار است۱.

نتیجه‌گیری

یک گزارش خوب شامل توصیف داده‌ها با خلاصه‌های عددی و گرافیکی مناسب، تسلط بر چارچوب مطالعه و تفسیر منطقی و بالینی شاخص‌های کمی است. در مجموع، خلاصه کردن مقایسه‌های آماری به معناداری یا عدم معناداری آماری یکی از رایج‌ترین سوءتعبیرهای آماری از p-value و آزمون فرض است. p-value مانند سایر شاخص‌ها باید به درستی استفاده و تفسیر شود و نباید به خودی خود دلیلی علمی باشد.


این نوشتار ترجمه‌ایست از مقاله P-value: What is and what is not

Tanha, K., Mohammadi, N., & Janani, L. (2017). P-value: What is and what is not. Medical journal of the Islamic Republic of Iran31, 65. https://doi.org/10.14196/mjiri.31.65


منابع

  1. Sterne JAC, Smith GD. Sifting the evidence—what’s wrong with significance tests? BMJ. 2001;322(7280):226–31. doi: 10.1136/bmj.322.7280.226. [DOI] [PMC free article] [PubMed] [Google Scholar]3
  2. Fisher RA. The Arrangement of Field Experiments. Journal of the Ministry of Agriculture of Great Britain. 1926;33:503–13. [Google Scholar]4
  3. Best AM, Laskin DM. Oral and maxillofacial surgery residents have poor understanding of biostatistics. J Oral Maxillofac Surg. 2013;71(1):227–34. doi: 10.1016/j.joms.2012.03.010. [DOI] [PubMed] [Google Scholar]5
  4. Windish DM, Huot SJ, Green ML. Medicine residents’ understanding of the biostatistics and results in the medical literature. Jama. 2007;298(9):1010–22. doi: 10.1001/jama.298.9.1010. [DOI] [PubMed] [Google Scholar]6
  5. Bookstaver PB, Miller AD, Felder TM, Tice DL, Norris LB, Sutton SS. Assessing pharmacy residents’ knowledge of biostatistics and research study design Ann. Pharmacother. 2012;46(7-8):991–9. doi: 10.1345/aph.1Q772. [DOI] [PubMed] [Google Scholar]7
  6. Wasserstein RL, Lazar NA. The ASA’s Statement on p-Values: Context, Process, and Purpose. Am Stat. 2016;70(2):129–33. [Google Scholar]8
  7. Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN. et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016;31:337–50. doi: 10.1007/s10654-016-0149-3. [DOI] [PMC free article] [PubMed] [Google Scholar]9
  8. Sterne JA. Teaching hypothesis tests-time for significant change? SIM. 2002;21(7):985–94. doi: 10.1002/sim.1129. discussion 95-99, 1001. [DOI] [PubMed] [Google Scholar]10
  9. Gigerenzer G. Mindless statistics. J Socec. 2004;33(5):587–606. [Google Scholar]11
  10. Charles GSP. Problems in common interpretations of statistics in scientific articles, expert reports, and testimony. Jurimetrics: Jurimetrics. 2011;51(2):113. [Google Scholar]12
  11. Goodman S. A dirty dozen: twelve p-value misconceptions. Seminhematol. 2008;45(3):135–40. doi: 10.1053/j.seminhematol.2008.04.003. [DOI] [PubMed] [Google Scholar]13
  12. Baker M. Statisticians issue warning over misuse of P values. Nature. 2016;531(7593):151. doi: 10.1038/nature.2016.19503. [DOI] [PubMed] [Googl14e Scholar]

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دوره‌های آموزشی پاییز
Previous
Next
آخرین مطالب
Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors