บทที่ 1 บทนำ

หนังสือเล่มนี้อธิบายวิธีการแปลความ (interpret) แบบจำลองจักรกลเรียนรู้ (ชนิดถูกกำกับ) ((supervised) machine learning model) โดยในบทนี้จะมีเนื้อหาและสมการทางคณิตศาสตร์ แต่คุณจะยังสามารถเข้าใจแนวคิดและหลักการที่อยู่เบื้องหลังวิธีการเหล่านี้ โดยไม่ต้องพึ่งสมการใดๆ อย่างไรก็ตาม หนังสือเล่มนี้ไม่เหมาะสำหรับผู้ที่ต้องการเรียนรู้เรื่องจักรกลเรียนรู้ตั้งแต่ต้น โดยถ้าคุณยังมีประสบการณ์หรือความรู้เกี่ยวกับจักรกลเรียนรู้ในระดับจำกัด มีแหล่งข้อมูลและเนื้อหาอื่นๆ มากมายที่จะช่วยให้คุณได้เรียนรู้พื้นฐานของจักรกลเรียนรู้ ผมขอแนะนำหนังสือ "The Elements of Statistical Learning" โดย Hastie, Tibshirani, และ Friedman (ตีพิมพ์ในปี 2009) 1 และ คอร์สเรียนจักรกลเรียนรู้ของ Andrew Ng บนเว็บไซต์ coursera.com ในการเริ่มต้นเรียนรู้เรื่องนี้ ข่าวดีคือทั้งหนังสือและคอร์สเรียนข้างต้นนั้นฟรี!

งานวิจัยเกี่ยวกับขั้นตอนวิธีการแปลความแบบจำลองจักรกลเรียนรู้แบบใหม่ๆ ถูกตีพิมพ์ด้วยความเร็วสายฟ้าแลบ แทบจะเป็นไปไม่ได้เลยที่จะเขียนเนื้อหาในหนังสือเล่มนี้เพิ่มให้ทันกับงานตีพิมพ์เหล่านั้น นั่นคือเหตุผลว่าทำไมหนังสือเล่มนี้จะไม่พูดถึงวิธีการใหม่ๆ แต่จะพูดถึงพื้นฐานและแนวคิดของการแปลความ รวมถึงวิธีการแปลความที่ได้รับการยอมรับเป็นอย่างกว้าง ความรู้เหล่านี้มากพอที่คุณจะนำไปต่อยอดและสร้างแบบจำลองจักรกลเรียนรู้ที่แปลความได้ และการที่คุณเข้าใจพื้นฐานที่มากพอก็ย่อมช่วยให้คุณสามารถศึกษาขั้นตอนวิธีใหม่ๆ ผ่านงานตีพิมพ์ทางวิชาการว่าด้วยการแปลความแบบจำลองจักรกลเรียนรู้ ซึ่งเผยแพร่บน arxiv.org และไม่แน่ว่าบทความใหม่สุดบนเว็บไซต์ดังกล่าวอาจจะเพิ่งเผยแพร่เมื่อห้านาทีก่อนคุณเริ่มแตะหนังสือเล่มนี้ก็เป็นได้ (ผมอาจจะพูดให้เว่อร์เกินไปนิดนึง)

หนังสือเล่มนี้จะเริ่มด้วยเรื่องสั้น (แนวหม่นหมอง (dystopia)) ที่ไม่ได้จำเป็นต่อการเข้าใจเนื้อหาในหนังสือเล่มนี้ แต่จะช่วยให้คุณได้สนุกกับหนังสือ และได้ใช้โอกาสในการฉุกคิด ต่อมาหนังสือจะพาทำความรู้จักกับแนวคิดเบื้องต้นเกี่ยวกับการแปลความได้ของจักรกลเรียนรู้ และจะพูดคุยว่าเพราะเหตุใดการแปลความได้จึงเป็นเรื่องสำคัญ และคำอธิบายที่ได้จากการแปลความนั้นมีแบบใดบ้าน ทั้งนี้คำศัพท์ต่างๆ ที่ใช้ในหนังสือเล่มนี้สามารถอ่านได้จากบทคำศัพท์

เราจะใช้ตัวอย่างข้อมูลจริงๆ มาประกอบการอธิบายแบบจำลองและขั้นตอนวิธีในการแปลความ โดยคำอธิบายเกี่ยวกับข้อมูลที่เราใช้อยู่ในบทข้อมูล. หนึ่งในวิธีการแปลความแบบจำลอง คือการเลือกใช้แบบจำลองชนิดแปลความได้ อาทิแบบจำลองเชิงเส้น (linear model) หรือต้นไม้ตัดสินใจ (decision tree) ในขณะที่อีกวิธีหนึ่งคือการเลือกใช้ขั้นตอนวิธีแปลความที่ไม่ขึ้นกับแบบจำลอง (model-agnostic methods) กล่าวคือขั้นตอนวิธีในกลุ่มนี้สามารถนำไปใช้กับแบบจำลองชนิดถูกกำกับใดๆ ก็ได้ ในบทว่าด้วยขั้นตอนวิธีแปลความที่ไม่ขึ้นกับแบบจำลอง เราจะพูดถึงขั้นตอนวิธีอย่างเช่น partial dependence plot และ permutation feature importance ซึ่งโดยหลักแล้วขั้นตอนวิธีในกลุ่มนี้ทำงานด้วยการทดลองเปลี่ยนข้อมูลนำเข้า (input) สู่แบบจำลอง แล้วสังเกตความเปลี่ยนแปลงในผลการคาดเดาที่แบบจำลองส่งออกมา ขั้นตอนวิธีบางชนิดในกลุ่มนี้สร้างข้อมูลนำเข้าอีกชุดหนึ่งซึ่งสามารถใช้เป็นคำอธิบายได้ ซึ่งเราจะพูดถึงในบทคำอธิบายในลักษณะตัวอย่าง. เราอาจจำแนกขั้นตอนวิธีแปลความที่ไม่ขึ้นกับแบบจำลองเป็นสองกลุ่ม ได้แก่กลุ่มที่เลือกอธิบายพฤติกรรมโดยภาพรวมของแบบจำลองโดยไม่ขึ้นกับข้อมูลที่ป้อนเข้าไป หรืออธิบายเหตุผลของการตัดสินใจเพียงครั้งใดรั้งหนึ่งของแบบจำลอง

ขั้นตอนวิธีที่อธิบายแบบจำลองในเชิงภาพรวมได้แก่ Partial Dependence Plots, Accumulated Local Effects, Feature Interaction, Feature Importance, Global Surrogate Models และ Prototypes and Criticisms ในชณะที่ขั้นตอนวิธีที่อธิบายแบบจำลองบนการตัดสินใจครั้งใดคั้งหนึ่งได้แก่ ตัวแทนสัมพัทธ์ของแบบจำลอง, คำอธิบาย Shapley Value, คำอธิบายโต้ข้อเท็จจริง (และศาสตร์ในตระกูลใกล้ๆ กัน คือการโจมตีแบบจำลองประสงค์ร้าย) ทั้งนี้ขั้นตอนวิธีบางอย่างสามารถใช้อธิบายแบบจำลองได้ทั้งในเชิงภาพรวมและอธิบายการตัดสินใจครั้งใดครั้งหนึ่ง ขั้นตอนวิธีเหล่านี้อาทิ Individual Conditional Expectation และ Influential Instances.

เราจะปิดท้ายหนังสือเล่มนี้ด้วยการมองโลกในแง่ดีว่าอนาคตของแบบจำลองชนิดแปลคตวามได้จะเป็นอย่างไร

คุณสามารถอ่านหนังสือเล่มนี้จากต้นจนจบ หรือจะกระโดดข้ามไปมาระหว่างบทก็ได้

ขอให้สนุกกับการอ่านครับ!


  1. Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "The elements of statistical learning". www.web.stanford.edu/~hastie/ElemStatLearn/ (2009).