การประเมินแบบจำลองจากการแบ่งหมวดหมู่
(Evaluation
Model by Classification)
สุวิทย์ กิระวิทยา
4 กรกฎาคม 2565
วิธีการมาตรฐานที่ใช้ในการประเมินหรือวัดประสิทธิภาพของแบบจำลอง
(model)
นั้นมีหลากหลายวิธี
วิธีการหนึ่งที่เป็นพื้นฐาน
คือการแบ่งหมวดหมู่ของผลลัพธ์
โดยเราจะต้องมีข้อมูลผลลัพธ์จริงและผลลัพธ์ที่ได้จากแบบจำลองแล้วนำมาเทียบกันดู
โดยในเรื่องการประเมินนี้
มีคำสำคัญที่จะต้องทราบความหมายอยู่หลายคำ
หลัก ๆ คือ
ผลบวกจริง
(true
positive), ผลบวกปลอม
(true negative), ผลลบจริง
(false positive), ผลลบปลอม
(false negative),
ความถูกต้อง
(accuracy)
ความเที่ยง
(precision) หรือ ค่าทำนายผลบวก
(positive predictive value)
ความไว
(sensitivity) หรือ อัตราผลบวกจริง
(true positive rate) = hit rate = recall
ความจำเพาะ
(specificity) หรือ อัตราผลลบจริง
(true negative rate)
ซึ่งเราสามารถเข้าใจความหมายของคำต่าง
ๆ เหล่านี้ ได้ผ่านตัวอย่างง่าย
ๆ ต่อไปนี้
หากสมมติว่า
เราต้องการประเมิน
แบบจำลองที่ได้จาก
การประมวลผลภาพถ่ายขยะที่ลอยอยู่ในลำคลอง
โดยเรามีข้อมูลภาพถ่ายขยะที่จะนำมาใช้ประเมินอยู่
400 ภาพ ซึ่งเราได้จำแนกด้วยตาแล้วว่า
เป็นภาพขยะจริงอยู่
306 ภาพ และ
ไม่ใช่ขยะอยู่
94 ภาพ
เมื่อนำภาพไปทดสอบกับแบบจำลองจะพบว่า
บางครั้งผลการทำนายโดยแบบจำลองที่ได้รับก็ผิดพลาดได้
ซึ่งความผิดพลาดมีได้
2 แบบ คือ
ภาพขยะแต่ผลลัพธ์บอกว่า
ไม่เป็นขยะ เรียกว่า
ผลลบเท็จ และ
ไม่ใช่ภาพขยะแต่ผลลัพธ์บอกว่าเป็นขยะ
เรียกว่า
ผลบวกเท็จ จากข้อมูลที่ได้ตรงนี้
เราสามารถแสดงเป็นตารางหรือเมทริกซ์
ที่เรียกว่า contingency
table หรือ confusion matrix คือ
ผลการทำนายจากแบบจำลอง |
เป็นบวก
(positive) |
เป็นลบ
(negative) |
|
|
|
ผลลัพธ์จริง
คือ |
ผลบวกจริง |
ผลลบเท็จ |
ผลลัพธ์จริง
คือ |
ผลบวกเท็จ |
ผลลบจริง |
วิธีจำคำเหล่านี้ง่าย
ๆ คือ ระลึกว่า
‘จริง’
คือ แบบจำลองให้ผลตรงกับผลลัพธ์
ส่วนบวกลบ
คือ ผลการทำนายจากแบบจำลอง
จากตารางข้างบน
เราได้สมมติชื่อตัวแปรและค่าผลลัพธ์ที่ได้ไว้ด้วย
โดย ตัวแปรทั้ง
4 ตัวนี้ (TP, FP, TN, และ
FN) เป็นตัวที่ใช้บ่งบอกประสิทธิภาพของแบบจำลอง
ผ่านคำสำคัญที่มีนิยามดังนี้
ความถูกต้อง
(accuracy) = (TP + TN)/(TP+ TN + FP + FN)
ความเที่ยง
(precision) = TP/(TP + FP)
ความไว
(sensitivity) = TP/(TP + FN)
ความจำเพาะ
(specificity) = TN/(TN + FP)
จากตัวอย่างค่า
เราจะบอกได้ว่า
แบบจำลองที่ทดสอบนี้
มีค่า
ความถูกต้อง = 92.5%, ความเที่ยง =
96%, ความไว = 94.12% และ
ความจำเพาะ =
87.23% โดยค่าเหล่านี้
จะมีความหมายสำคัญในการนำไปใช้เปรียบเทียบแบบจำลอง
หากคิดเล่น
ๆ ว่า เราเปลี่ยนการตีความผลลัพธ์ของแบบจำลองที่นำมาประเมิน
คือ กำหนดใหม่ว่า
ผลเป็นบวก
คือ ภาพที่นำมาทดสอบไม่ใช่ขยะ
เราจะสามารถเขียนเมทริกซ์ที่ต่างออกไปได้
แต่ยังคงได้
ค่าความถูกต้องเท่าเดิมในขณะที่
ค่าความเที่ยง
ความไว และ
ความจำเพาะ
เปลี่ยนไป!
แต่โดยทั่วไป
เราจะไม่ทำเช่นนี้
เพราะในการสร้างแบบจำลองหนึ่ง
ๆ เราจะต้องกำหนดเป้าหมายการทดสอบ
และปริมาณข้อมูลที่นำมาทดสอบจะต้องกำหนดให้เหมาะสมกับปัญหาที่สนใจ
นอกจาก
การเปรียบเทียบโดยใช้ค่าตัวเลขนี้แล้ว
เรายังสามารถใช้การนำเสนอรูปแบบรูปภาพ
และรูปแบบกราฟ
และยังสามารถใช้สถิติอื่น
ๆ เพิ่มเติมในการประเมินแบบจำลองด้วย
เอกสารอ้างอิง
[1] https://en.wikipedia.org/wiki/https://en.wikipedia.org/wiki/Precision_and_recall
[2] https://th.wikipedia.org/wiki/ความไวและความจำเพาะ
End