การประเมินแบบจำลองจากการแบ่งหมวดหมู่
(Evaluation Model by Classification)

สุวิทย์ กิระวิทยา

4 กรกฎาคม 2565

 

วิธีการมาตรฐานที่ใช้ในการประเมินหรือวัดประสิทธิภาพของแบบจำลอง (model) นั้นมีหลากหลายวิธี วิธีการหนึ่งที่เป็นพื้นฐาน คือการแบ่งหมวดหมู่ของผลลัพธ์ โดยเราจะต้องมีข้อมูลผลลัพธ์จริงและผลลัพธ์ที่ได้จากแบบจำลองแล้วนำมาเทียบกันดู โดยในเรื่องการประเมินนี้ มีคำสำคัญที่จะต้องทราบความหมายอยู่หลายคำ หลัก ๆ คือ

ผลบวกจริง (true positive), ผลบวกปลอม (true negative), ผลลบจริง (false positive), ผลลบปลอม (false negative),

ความถูกต้อง (accuracy)

ความเที่ยง (precision) หรือ ค่าทำนายผลบวก (positive predictive value)

ความไว (sensitivity) หรือ อัตราผลบวกจริง (true positive rate) = hit rate = recall

ความจำเพาะ (specificity) หรือ อัตราผลลบจริง (true negative rate)

ซึ่งเราสามารถเข้าใจความหมายของคำต่าง ๆ เหล่านี้ ได้ผ่านตัวอย่างง่าย ๆ ต่อไปนี้

 

หากสมมติว่า เราต้องการประเมิน แบบจำลองที่ได้จาก การประมวลผลภาพถ่ายขยะที่ลอยอยู่ในลำคลอง โดยเรามีข้อมูลภาพถ่ายขยะที่จะนำมาใช้ประเมินอยู่ 400 ภาพ ซึ่งเราได้จำแนกด้วยตาแล้วว่า เป็นภาพขยะจริงอยู่ 306 ภาพ และ ไม่ใช่ขยะอยู่ 94 ภาพ เมื่อนำภาพไปทดสอบกับแบบจำลองจะพบว่า บางครั้งผลการทำนายโดยแบบจำลองที่ได้รับก็ผิดพลาดได้ ซึ่งความผิดพลาดมีได้ 2 แบบ คือ ภาพขยะแต่ผลลัพธ์บอกว่า ไม่เป็นขยะ เรียกว่า ผลลบเท็จ และ ไม่ใช่ภาพขยะแต่ผลลัพธ์บอกว่าเป็นขยะ เรียกว่า ผลบวกเท็จ จากข้อมูลที่ได้ตรงนี้ เราสามารถแสดงเป็นตารางหรือเมทริกซ์ ที่เรียกว่า contingency table หรือ confusion matrix คือ

 

ผลการทำนายจากแบบจำลอง

เป็นบวก (positive)
คือ คิดว่า เป็นขยะ

เป็นลบ (negative)
คือ คิดว่า ไม่เป็นขยะ

 

 

 

ผลลัพธ์จริง คือ
เป็นขยะ

306

ผลบวกจริง
(
True Positive)
TP = 288

ผลลบเท็จ
(
False Negative)
FN = 18

ผลลัพธ์จริง คือ
ไม่เป็นขยะ

94

ผลบวกเท็จ
(
False Positive)
FP = 12

ผลลบจริง
(
True Negative)
TN = 82

 

วิธีจำคำเหล่านี้ง่าย ๆ คือ ระลึกว่า จริง คือ แบบจำลองให้ผลตรงกับผลลัพธ์ ส่วนบวกลบ คือ ผลการทำนายจากแบบจำลอง

จากตารางข้างบน เราได้สมมติชื่อตัวแปรและค่าผลลัพธ์ที่ได้ไว้ด้วย โดย ตัวแปรทั้ง 4 ตัวนี้ (TP, FP, TN, และ FN) เป็นตัวที่ใช้บ่งบอกประสิทธิภาพของแบบจำลอง ผ่านคำสำคัญที่มีนิยามดังนี้

 

ความถูกต้อง (accuracy) = (TP + TN)/(TP+ TN + FP + FN)

 

ความเที่ยง (precision) = TP/(TP + FP)

 

ความไว (sensitivity) = TP/(TP + FN)

 

ความจำเพาะ (specificity) = TN/(TN + FP)

 

จากตัวอย่างค่า เราจะบอกได้ว่า แบบจำลองที่ทดสอบนี้ มีค่า ความถูกต้อง = 92.5%, ความเที่ยง = 96%, ความไว = 94.12% และ ความจำเพาะ = 87.23% โดยค่าเหล่านี้ จะมีความหมายสำคัญในการนำไปใช้เปรียบเทียบแบบจำลอง

หากคิดเล่น ๆ ว่า เราเปลี่ยนการตีความผลลัพธ์ของแบบจำลองที่นำมาประเมิน คือ กำหนดใหม่ว่า ผลเป็นบวก คือ ภาพที่นำมาทดสอบไม่ใช่ขยะ เราจะสามารถเขียนเมทริกซ์ที่ต่างออกไปได้ แต่ยังคงได้ ค่าความถูกต้องเท่าเดิมในขณะที่ ค่าความเที่ยง ความไว และ ความจำเพาะ เปลี่ยนไป! แต่โดยทั่วไป เราจะไม่ทำเช่นนี้ เพราะในการสร้างแบบจำลองหนึ่ง ๆ เราจะต้องกำหนดเป้าหมายการทดสอบ และปริมาณข้อมูลที่นำมาทดสอบจะต้องกำหนดให้เหมาะสมกับปัญหาที่สนใจ

 

นอกจาก การเปรียบเทียบโดยใช้ค่าตัวเลขนี้แล้ว เรายังสามารถใช้การนำเสนอรูปแบบรูปภาพ และรูปแบบกราฟ และยังสามารถใช้สถิติอื่น ๆ เพิ่มเติมในการประเมินแบบจำลองด้วย

 

เอกสารอ้างอิง

[1] https://en.wikipedia.org/wiki/https://en.wikipedia.org/wiki/Precision_and_recall

[2] https://th.wikipedia.org/wiki/ความไวและความจำเพาะ

 

End