ผู้เขียน หัวข้อ: เรื่องวุ่น ๆ ของ 0.01, 0.05 และ p-value  (อ่าน 30714 ครั้ง)

0 สมาชิก และ 1 บุคคลทั่วไป กำลังดูหัวข้อนี้

ออฟไลน์ samart

  • Moderator
  • Hero Member
  • *****
  • กระทู้: 680
  • การ์ม่า: 3
เรื่องวุ่น ๆ ของ 0.01, 0.05 และ p-value
« เมื่อ: เมษายน 09, 2008, 11:41:04 am »

เห็นพี่ดุลย์เริ่มหัวข้อ แตกต่าง-ไม่แตกต่าง ก็เลยต้องกลับไปอ่านหนังสือสถิติอีกหลาย ๆ เล่ม ที่เขียนโดยผู้รู้หลาย ๆ ท่าน แต่บังเอิญไปสกิดต่อมแอลฟาเข้าให้
ไม่อยากยืดยาว แต่ลองอ่านบทความนี้ดู แล้วจะรู้เองว่า ปัญหาคืออะไร


อ้างถึง
แอลฟ่า ไม่ใช้ 0.05 ได้หรือไม่

โดย ชาญชัยณรงค์ ทรงคาศรี

Last Update: 15/03/2550 03:02   
     

 
ในการทดสอบสมมุติฐานทางสถิติความคิดของนักวิจัยส่วนใหญ่จะมีอยู่ 2 ค่าย คือ ค่ายแรกเป็นกลุ่มที่กำหนด a  (significant level) ไว้ล่วงหน้า  ค่ายที่สองได้กำหนด ไว้ล่วงหน้า แต่จะรายงานค่า p -value หรือค่าสถิติ (statistic value) ที่คำนวณได้แทน…
ตัวอย่าง เช่น 


ถ้า  p-value ที่คำนวณได้มีค่าเป็น 0.006   จะสรุปว่าปฎิเสธสมมุติฐาน  Ho ที่ p-value<0.01     ถ้า p-value ที่คำนวณได้มีค่าเป็น 0.015   จะสรุปว่าปฎิเสธสมมุติฐาน  Ho ที่ p-value<0.02


 ถ้า p-value ที่คำนวณได้มีค่าเป็น 0.045   จะสรุปว่าปฎิเสธสมมุติฐาน  Ho ที่ p-value<0.05   เป็นต้น….


ทำไม  a ที่ระดับ 5% จึงเป็นที่นิยมกันทั่วโลก???… a  ควรมีขนาดเท่าไร???…     
ทำไม a ( Alpha หรือแอลฟ่า) 

          ต้อง  0.05 ???...โดย ชาญชัยณรงค์ ทรงคาศรี


 




                ก่อนอื่นขอเปรียบเทียบแนวคิดการประมาณค่าและการทดสอบสมมุติฐาน คือ ในการประมาณค่าผู้วิจัยกำหนด แอลฟ่า (a) ซึ่งเป็นโอกาสผิดพลาดในการประมาณค่า แล้วหาค่าพารามิเตอร์(ค่าจริงในประชากร) เช่น ในการศึกษาเชิงพรรณนา(descriptive study) เพื่อหาความชุกของโรคพยาธิ ได้ค่าความชุกร้อยละ 16.1 (การประมาณค่าได้ช่วงเชื่อมั่นหรือ95% CI : 15.5 ถึง 17.3) นั่นคือกำหนดค่า  a เท่ากับ 0.05 หรือร้อยละ 5 เป็นต้น  แต่ในการทดสอบสมมุติฐานนั้นผู้วิจัยกำหนด a ซึ่งเป็นโอกาสในการตัดสินใจปฏิเสธสมมุติฐานที่เป็นจริง เพื่อเป็นเกณฑ์ในการตัดสินใจ  โดยต้องมีการกำหนดหรือสมมุติค่าพารามิเตอร์ขึ้นเพื่อเป็นตัวตั้งสำหรับการทดสอบ แล้วใช้ข้อมูลจากการวิจัยไปทดสอบ  ทำให้ได้คำตอบว่า "โอกาสที่จะได้ข้อมูลตามที่ผู้วิจัยได้มาเป็นเท่าใด (โอกาส คือ ความน่าจะเป็น คือ ค่า p-value นั่นเอง)"   จากนั้นนำค่า p-value นี้ไปเปรียบเทียบกับเกณฑ์ แล้วตัดสินใจปฏิเสธ หรือไม่ปฏิเสธสมมุติฐาน เช่น การศึกษาเชิงวิเคราะห์(analytical study) เพื่อศึกษาปัจจัยที่มีความสัมพันธ์กับการเกิดโรคเลปโตสไปโรซีส โดยสถิติที่ใช้คือ Chi-square test พบว่า เพศ มีความสัมพันธ์กับการเกิดโรคเลปโตสไปโรซีส อย่างมีนัยสำคัญทางสถิติ (การทดสอบสมมุติฐาน หรือ p-value =0.02) เป็นต้น


               


ดังนั้น การประมาณค่า(Estimation) มีทิศทางจากความน่าจะเป็นไปหาค่าพารามิเตอร์   ส่วน การทดสอบสมมุติฐาน(Hypothesis testing)  มีทิศทางจากค่าพารามิเตอร์ไปหาค่าความน่าจะเป็น



(ดังแผนภาพ)


 

ตัวอย่าง : การแปลผลการคาดประมาณ (estimate) ……….   95% CI…………..


 


การศึกษาความสัมพันธ์ระหว่างการสูบบุหรี่กับโรคมะเร็งปอด ได้ค่า : risk ratio = 9 , 95% CI = 5.2, 15.4


- ผู้ที่สูบบุหรี่เสี่ยงต่อการป่วยเป็นโรคมะเร็งปอด 9 เท่าเทียบกับผู้ที่ไม่สูบบุหรี่


- มีความเชื่อมั่นว่าหากทำการศึกษาแบบนี้ซ้ำๆกันร้อยครั้งจะมี 5 ครั้งที่ช่วงเชื่อมั่นจะไม่ครอบคลุมค่าเสี่ยงจริง โดยช่วงเชื่อมั่นหนึ่งในร้อยครั้งนั้นมีค่าอยู่ระหว่าง 5.2 ถึง 15.4 เท่า


- มีข้อสังเกตอยู่ว่า…Relative risk (ความเสี่ยงสัมพัทธ์)  ประกอบด้วย 1. Risk ratio หรือ Rate ratio (อัตราเสี่ยง)…นี่เรียกย่อว่า ค่า RR.    2. Odds ratio (อัตราเสี่ยงหรือ แต้มต่อ)… นี่เรียกย่อว่า ค่า OR.  มีหลายท่านพูดตามเขามา/ไม่รู้สูตรที่มา…แล้วเรียกชื่อเต็ม RR. /  OR.  ผิดเสมอ…ลองถามคนข้างๆดูนะครับ…RR.  คืออะไร???…


                ในการศึกษาทางระบาดวิทยาการเลือกใช้ RR. เมื่อการศึกษานั้นหา incidence ได้ ( cohort study/ศึกษาไปข้างหน้า)   เลือกใช้ OR. เมื่อเป็นการศึกษาแบบ  cross-sectional study    case-control study       ***



 


ตังอย่าง : การแปลผล p – value………………………………………………………………………….

•      การทดสอบสมมุติฐาน (a = 0.05) : สมมุติฐาน(Ho)  คือ อัตราป่วยโรคมะเร็งปอดในกลุ่มผู้สูบบุหรี่ไม่แตกต่างกับผู้ไม่สูบบุหรี่………   ได้ p - value เท่ากับ 0.02       ……..ท่านอาจเคยเห็นการนำเสนอหลากหลาย เช่น

–   อัตราป่วยแตกต่างกันอย่างมีนัยสำคัญทางสถิติ ???

(ท่านอาจ …งง…ขาดรายงานผลทางสถิติ)


–   อัตราป่วยแตกต่างกันอย่างมีนัยสำคัญทางสถิติ ที่ระดับ a = 0.05 ??

(ท่านอาจ…งง…น้อยลง   มีค่าสถิติเข้ามาบ้าง…แอลฟ่าคืออะไร)


–   อัตราป่วยแตกต่างกันอย่างมีนัยสำคัญทางสถิติ ที่ระดับ a= 0.05  (p – value = 0.02) ?          a

a
 
(ท่านอาจพอเข้าใจ…เพราะเห็นงานวิจัยก็เขียนตามกันมาอย่างนี้…แต่ยังเป็นภาษาสถิติอยู่)


–   ถ้าความจริงอัตราป่วยไม่แตกต่างกัน การใช้ข้อมูลชุดนี้สรุปว่าแตกต่างกันมีโอกาสผิดพลาด 2%

(พูดให้ชาวบ้านเขาเข้าใจหน่อยสิ…นี่คือการถ่ายทอดที่ไม่…งง…มากนัก)



 


###……นักวิจัยหลายท่านคงสงสัยหลังจากที่มีการใช้สถิติต่างๆในการทดสอบสมมุติฐานมามากมาย     ในฐานะที่มีประการณ์การวิจัยและการสอนสถิติ  มีคำถามหนึ่งที่น่าสนใจมาก "ทำไมต้อง a = 0.05  จึงมีความสำคัญมากกว่า a ที่ระดับ 0.06  หรือ 0.07   มากมายนักหรือ "…..###




                RA.Fisher เป็นคนแรกที่เขียนบันทึกคำว่าระดับนัยสำคัญ(Significance level) เป็นลายลักษณ์อักษร ในการสรุปผลการทดสอบสมมุติฐานทางสถิติในการวิเคราะห์ความแปรปรวน (Analysis of varaince)  ในหนังสือของเขา(Statistical methods for research workers , 1925) …ตามประสบการณ์แล้วจะเห็นว่านักวิจัยในเมืองไทยส่วนใหญ่จะนำค่า P -value  ที่คำนวณได้ไปเปรียบเทียบกับค่า a  ที่กำหนดไว้แล้ว หรือนำค่าที่คำนวณได้ไปเทียบกับค่าวิกฤตที่เปิดจากตารางสถิติ ตามระดับ a ที่กำหนดไว้  แต่เมื่อ Review นักวิจัยในสหรัฐอเมริกามีแนวโน้ม รายงานค่า P -value ที่คำนวณได้ (Obtained p -value) พร้อมทั้งสรุปว่าจะปฏิเสธ Ho ในช่วงใด (ไม่ได้กำหนด a ไว้ล่วงหน้า) ###



 


สรุป… ในการทดสอบสมมุติฐานทางสถิติความคิดของนักวิจัยส่วนใหญ่จะมีอยู่ 2 ค่าย คือ ค่ายแรกเป็นกลุ่มที่กำหนด a  (significant level) ไว้ล่วงหน้า  ค่ายที่สองได้กำหนด ไว้ล่วงหน้า แต่จะรายงานค่า p -value หรือค่าสถิติ (statistic value) ที่คำนวณได้แทน…


ขยายความ…นักวิจัยค่ายที่ หนึ่งจะกำหนด a ไว้ก่อน ค่า a ที่นิยมใช้กันมาก คือ 0.05  0.01 และ0.10 ตามลำดับ  แล้วนำค่า p -value ที่คำนวณได้ไปเปรียบเทียบกับค่า a ที่กำหนด หรือนำค่าสถิติที่คำนวณได้ไปเปรียบเทียบกับค่าวิกฤติที่เปิดจากตาราง ที่ระดับ a ที่กำหนดไว้  ถ้าค่า p-value มีค่าน้อยกว่า a หรือค่าสถิติที่คำนวณได้มีค่าตกอยู่บริเวณวิกฤติ ผลการทดสอบจะปฏิเสธสมมุติฐาน Ho ที่ตั้งไว้ มิฉะนั้นแล้วจะยอมรับสมมุติฐาน Ho …ตัวอย่างเช่น ในการทดสอบความแปรปรวนครั้งหนึ่ง สมมุติมีค่า p-value ที่คำนวณได้เท่ากับ 0.04 นำไปเปรียบเทียบกับ a ที่ระดับ 0.05 (top hit p-value)  เนื่องจากค่า p-value < a ดังนั้น จึงปฎิเสธ Ho  สรุปว่า ข้อมูลสนับสนุน สมมุติฐานรอง Ha หรือ H1    ในทางกลับกัน ถ้า p-value ที่คำนวณได้มีค่าเป็น 0.06  นำไปเปรียบเทียบกับ a ที่ระดับ 0.05  เนื่องจากค่า p-value > a ก็จะตัดสินใจยอมรับสมมุติฐาน  Ho  สรุปได้ว่า ข้อมูลไม่สนับสนุน สมมุติฐานรอง Ha หรือ H1  ที่ระดับนัยสำคัญ 5 % ….เป็นที่น่าสังเกตว่า นักวิจัยในค่ายนี้ให้ความสำคัญของงานวิจัยที่มีค่า p-value = 0.04 มากกว่างานวิจัยที่มีค่า p-value = 0.06 มาก…(ที่เราเห็นลงวารสารทั่วไป)  เนื่องจากงานวิจัยที่มีค่า p-value = 0.04  ได้คำตอบว่าค่า พารามิเตอร์เหล่านั้นมีความแตกต่างกันอย่างมีนัยสำคัญทางสถิติ (significant result) …แต่งานวิจัยที่มีค่าเป็น 0.06  ได้คำตอบว่าค่าพารามิเตอร์เหล่านั้นมีความแตกต่างกันอย่างไม่มีนัยสำคัญทางสถิติ (non-significant result)  นักวิจัยกลุ่มนี้จะให้ความสำคัญกับ a ในตำแหน่งไม่ต่อเนื่อง (discrete point) คือ 0.05  0.01  หรือ 0.10  มากเกินไป  จึงมีนักสถิติหลายคนตั้งคำถามว่า # ทำไม a ที่ระดับ 0.05  จึงมีความสำคัญมากกว่า a ที่ระดับ 0.06 หรือ 0.07  มากมายนัก??? #


นักวิจัยในค่ายที่สอง ให้ความสำคัญกับ a ทุกค่าเท่ากันหมด  คือมองค่า a เป็นค่าต่อเนื่อง  นักวิจัยกลุ่มนี้จะรายงานค่า p-value ที่คำนวณได้เพื่อให้ผู้อ่านตัดสินใจเองว่า  ที่ a ระดับใดจะปฏิเสธ Ho  …แต่โดยส่วนใหญ่ผู้วิจัยจะสรุปว่าปฎิเสธสมมุติฐาน Ho  ในช่วงใด


 ตัวอย่าง เช่น 


ถ้า  p-value ที่คำนวณได้มีค่าเป็น 0.006   จะสรุปว่าปฎิเสธสมมุติฐาน  Ho ที่ p-value<0.01     ถ้า p-value ที่คำนวณได้มีค่าเป็น 0.015   จะสรุปว่าปฎิเสธสมมุติฐาน  Ho ที่ p-value<0.02


 ถ้า p-value ที่คำนวณได้มีค่าเป็น 0.045   จะสรุปว่าปฎิเสธสมมุติฐาน  Ho ที่ p-value<0.05   เป็นต้น….


ทำไม  a ที่ระดับ 5% จึงเป็นที่นิยมกันทั่วโลก???… a  ควรมีขนาดเท่าไร???…

                ในความเป็นจริงแล้วค่าที่สำคัญในการเขียนสรุปผลการทดสอบสมมุติฐานทางสถิติไม่ได้มีเฉพาะค่า a หรือค่า p-value  เท่านั้น    ยังมีคำถามต่างๆอีกมากมายที่ถูกมองข้าม เช่น  งานวิจัยลักษณะใดควรกำหนด a ขนาดใหญ่   ลักษณะใดควรกำหนด a ขนาดเล็ก    ปัจจัยใดบ้างที่มีผลต่ออำนาจการทดสอบ(power of test)   จะออกแบบงานวิจัยอย่างไรให้มีอำนาจการทดสอบสูง และมีค่าความคลาดเคลื่อนชนิดที่ 1 ต่ำ   การทดสอบสมมุติฐานทางสถิติใดควรเน้นความคลาดเคลื่อนชนิดที่ 1 (ปฏิเสธสมมุติฐานที่เป็นจริง) ในลักษณะใดควรเน้นความคลาดเคลื่อนชนิดที่ 2 (ยอมรับสมมุติฐานที่เป็นเท็จ) เป็นต้น    ผลงานวิจัยที่รายงานเฉพาะยอมรับหรือปฏิเสธสมมุติฐาน Ho เท่านั้น  จะให้คุณค่าแก่การทบทวนวรรณกรรม(review literature) น้อยมาก    ในทางปฏิบัตินิยมกำหนดสัญลักษณ์ a  แทนโอกาสที่จะเกิดความคลาดเคลื่อนชนิดที่ 1 กำหนด b แทนโอกาสที่จะเกิดความคลาดเคลื่อนชนิดที่ 2 และกำหนด 1-b แทนอำนาจการทดสอบ   โดยทฤษฎีอำนาจการทดสอบจะแปรผกผันกัน(a มีค่าเล็ก b จะมีค่าใหญ่) ดังนั้นผู้วิจัยต้องการควบคุมให้ทั้งa และ b มีค่าเล็ก  จะทำได้โดยการเพิ่มขนาดตัวอย่าง 


            เป็นที่น่าประหลาดใจว่า ในการทดสอบสมมุติฐานทางสถิติแต่ละครั้ง ผู้วิจัยมักจะคำนึงถึงแต่ a  และระดับของ a ที่นิยมกันเป็นแบบอัตโนมัติคือ 0.05  or 0.01 ....อยากฝากว่าไม่ใช่ทุกงานวิจัยที่ a  = 5% หรือ 0.05 จะใช้ได้ดีเสมอไป  ต้องพิจารณาว่าเกณฑ์เหล่านี้มีความเหมาะสมกับงานวิจัยของตนแค่ไหน และที่สำคัญการรายงานผลการวิจัยควรรายงานทั้งค่า p-value ที่เกิดขึ้นจริง และ ค่า a ที่ควรใช้ในงานวิจัยนั้น  อันจะทำให้ภาพของงานวิจัยนั้นสมบูรณ์ยิ่งขึ้น ชัดแจนมากขึ้น     สำหรับ a ควรมีขนาดเท่าไร???…ขอเสนอแนวทางกว้างๆในการกำหนดขนาดของ   a   ดังนี้ 


            1 การนำผลการทดสอบไปใช้หลังการทดลอง หรือผลสืบเนื่องในทางปฏิบัติที่ตามมา (ไม่ควรยึดติดที่ a=0.05 เป็นค่าอัตโนมัติ บางงานวิจัยอาจมีค่าa มากถึง 0.2  บางงานวิจัยอาจมีค่าa น้อยถึง 0.001)


            2 วัตถุประสงค์ของงานวิจัย  (งานวิจัยเพื่อสนับสนุนทฤษฎี อาจใช้aขนาดใหญ่ได้  แต่ถ้าต้องการสร้างทฤษฎีใหม่ ควรกำหนดaขนาดเล็ก)


            3 อำนาจการทดสอบ  (a ขนาดเล็ก 0.01   0.001 ควรใช้คู่กับขนาดตัวอย่างใหญ่  ส่วนa ขนาดใหญ่ 0.10   0.15 ควรใช้คู่กับขนาดตัวอย่างเล็ก)


            4 ระดับการควบคุมตัวแปรต่างในการออกแบบการวิจัย (design ที่ไม่สามารถควบคุมปัจจัยที่ศึกษาได้เต็มที่เหมือนการทดลองในห้อง lab. ควรใช้ a ขนาดเล็ก)


            5 ความถูกต้องของผลการทดสอบ (ถ้าลักษณะข้อมูลมีความสอดคล้องกับ ข้อตกลงเบื้องต้นของตัวสถิติทดสอบ a ขนาดใหญ่ก็น่าจะยอมรับได้)


            6 การทดสอบแบบ one-tail or two tail (แบบทางเดียวมีโอกาสที่จะปฏิเสธ Ho ได้ง่ายกว่าการทดสอบแบบสองทาง)


            นักวิจัยบางท่าน มีความเข้าใจผิดๆว่า  ถ้าผลงานวิจัยออกมาว่าปฏิเสธ Ho หรือ Significant (มีนัยสำคัญทางสถิติ)งานวิจัยนั้นจะมีประโยชน์ต่อliterature มากกว่างานวิจัยที่ไม่มีนัยสำคัญทางสถิติ และมีโอกาสได้รับตีพิมพ์มากกว่า   ปัจจุบันตัวผู้เขียนมีความเห็นว่างานวิจัยที่ให้ผลทั้ง Sig และไม่ Sig จะส่งผลหรือเป็นประโยชน์ต่อการทบทวนวรรณกรรม(review literature) หรือผู้สนใจในศาสตร์นั้นๆไม่ต่างกัน อย่าลืมว่า งานวิจัยนั้นมีค่า p-value ต่างจากค่าa ที่กำหนดมากน้อยเท่าไหร่   โดยส่วนตัวชอบอ่านงานวิจัยที่รายงานค่า p-value จริง และงานวิจัยที่ขัดแย้งคนอื่น(ส่วนใหญ่ข้อมูลจริงแต่อาจมีข้อจำกัดบางอย่าง) เพราะมีหลายงานวิจัยที่ปรับแต่งข้อมูลจน Sig ผู้อ่านต้องใช้วิจารณญาณให้ดี   แต่สิ่งหนึ่งที่ผู้วิจัยต้องคิดให้มากขึ้น คือ จะทำอย่างไรให้ได้ผลงานวิจัยที่สะท้อนความเป็นจริงมากที่สุด  …สุดท้ายนี้ขอเสนอแนะการเขียนสรุปผลงานวิจัยว่าควรจะรายงานสถิติเชิงพรรณนา ได้แก่ ค่าเฉลี่ย  ส่วนเบี่ยงเบนมาตรฐาน  ขนาดตัวอย่าง  องศาแห่งความอิสระ(df)  ค่าสหสัมพันธ์ ค่าสถิติทดสอบที่ใช้  ค่าp-value ที่คำนวณได้จริง  ค่าช่วงเชื่อมั่นของค่า p  ขนาดของ a ที่เหมาะสมในงานวิจัยนั้นๆ  ค่าขนาดอิทธิพล(effect size)   พร้อมทั้งความคิดเห็นและข้อเสนอแนะของผู้วิจัย เพื่อประโยชน์ต่อผู้สนใจ และผู้ที่จะนำผลการวิจัยไปใช้ต่อไป…


 

ตัดตอนมาจากนี่เลย ตามไปดูได้ ถูกใจมั๊กมั๊ก

http://www.dmbn.net/mdbtemplate/mytemplate/template.php?component=view_article&read=1&qid=27&n_answer=6