บทที่ 2 การแปลความได้

เราไม่มีนิยามทางคณิตศาสตร์ที่ชัดเจนว่า "การแปลความได้" คืออะไร แต่นิยามที่ผมชอบ (ซึ่งไม่ใช่นิยามทางคณิตศาสตร์) เป็นของ Miller (2017)³ ที่กล่าวไว้ว่า การแปลความได้คือการที่มนุษย์สามารถเข้าใจสาเหตุเบื้องหลังของผลการตัดสินใจได้ในระดับหนึ่ง (Interpretability is the degree to which a human can understand the cause of a decision.) หรืออีกนิยามที่กล่าวว่า การแปลความได้คือการที่มนุษย์สามารถคาดเดาผลการตัดสินใจของแบบจำลองได้ในระดับหนึ่ง (Interpretability is the degree to which a human can consistently predict the model's result) ⁴ เนื่องจากว่ายิ่งแบบจำลองจักรกลเรียนรู้สามารถแปลความได้มากเท่าใด มนุษย์ก็ยิ่งสามารถที่จะเข้าใจว่าเพราะเหตุใดแบบจำลองถึงให้คำตอบในการตัดสินใจครั้งใดครี่งหนึ่งได้ง่ายขึ้นเท่านั้น และจะกล่าวว่าแบบจำลองตัวใดตัวหนึ่งสามารถแปลความได้มากกว่าแบบจำลองอีกตัว ถ้ามนุษย์สามารถเข้าใจผลการคัดสินใจของแบบจำลองตัวแรกได้ง่ายกว่าแบบจำลองตัวที่สอง ในหนังสือเล่มนี้ วลี "แปลความได้ (interpretable)" และ "อธิบายได้ (explainable)" มีความหมายเหมือนกันในแง่ของความสามารถในการเข้าใจแบบจำลอง อย่างไรก็ตาม Miller (2017) เสนอว่าคำสองคำนี้ควรมีความหมายแตกต่างกัน ผมเห็นด้วยว่าควรจะมีความแตกต่างระหว่างคำสองคำนี้ และผมจะใช้คำว่า "คำอธิบาย (explaination)" ในการเรียกคำอธิบายของจุดข้อมูลจุดใดจุดหนึ่งในแบบจำลอง [ในขณะที่คำว่า "แปลความได้" หรือ "interpretable" จะมุ่งเน้นการอธิบายพฤติกรรมของแบบจำลองโดยภาพรวมมากกว่า: ผู้แปล] ในหัวข้อว่าด้วยคำอธิบาย เราจะมาพูดถึงกันว่าอะไรนับเป็นคำอธิบายที่ดีของแบบจำลอง

Miller, Tim. "Explanation in artificial intelligence: Insights from the social sciences." arXiv Preprint arXiv:1706.07269. (2017).↩
Kim, Been, Rajiv Khanna, and Oluwasanmi O. Koyejo. "Examples are not enough, learn to criticize! Criticism for interpretability." Advances in Neural Information Processing Systems (2016).↩