1.3 รายการคำศัพท์

เราจะลดความกำกวมจากศัพท์ในหนังสือเล่มนี้ด้วยการสร้างคำนิยามและความเข้าใจที่ตรงกันก่อน

ขั้นตอนวิธี (algorithm) คือชุดของกฎและคำสั่งที่จักรกลทำตามเพื่อให้บรรลุเป้าหมายหรือผลสำเร็จอย่างใดอย่างหนึ่ง ²
เราอาจมองขั้นตอนวิธีเป็นคู่มือที่ระบุข้อมูลรับเข้าที่ต้องใส่ ข้อมูลส่งออกที่จะได้เป็นผลลัพธ์จากขั้นตอนวิธี และขั้นตอนที่จะต้องทำเพื่อให้ได้ผลลัพธ์นั้นออกมา ยกตัวอย่างเช่นเราอาจมองคู่มือหรือตำราสูตรอาหารเป็นขั้นตอนวิธีที่มีข้อมูลรับเข้าเป็นส่วนผสมต่างๆ มีข้อมูลส่งออกเป็นอาหารจานที่เราต้องการ โดยต้องทำตามขั้นตอนต่างๆ เพื่อปรุงอาหารออกมา

จักรกลเรียนรู้ (machine learning) เป็นชุดวิธีการที่ทำให้คอมพิวเตอร์สามารถสังเคราะห์ความรู้จากข้อมูลเพื่อนำมาใช้และปรับปรุงการตัดสินใจ (เช่นการตรวจโรคมะเร็ง การทำนายยอดขาย การทำนายการผิดชำระหนี้) การสร้างระบบจักรกลเรียนรู้เปรียบเสมือนการเขียนโปรแกรมทางอ้อม ซึ่งต่างจากแนวคิด (paradigm) ของการเขียนโปรแกรมโดยทั่วไป กล่าวคือการเขียนโปรแกรมทั่วไปใช้มนุษย์ในการสร้างกฎและขั้นตอนชัดเจน แต่การสร้างระบบจักรกลเรียนรู้เป็นการสอนให้ระบบทำตามคำสั่งผ่านข้อมูล

ผู้เรียน (learner) หรือ ขั้นตอนวิธีจักรกลเรียนรู้ (machine learning algorithm) คือโปรแกรมที่ใช้เรียนรู้ในระบบจักรกลเรียนรู้ผ่านข้อมูล โดยมีชื่อเรียกอีกชื่อหนึ่งว่า "inducer"

แบบจำลองจักรกลเรียนรู้ (machine learning model)คือโปรแกรมที่เป็นผลจากจักรกลเรียนรู้ มีหน้าที่คาดเดาคำตอบที่ต้องการจากข้อมูลนำเข้า
ซึ่งอาจจะอยู่ในรูปของชุดน้ำหนัก (weights) ของแบบจำลองเชิงเส้นหรือโครงข่าวประสาทเทียม เราอาจเรียกแบบจำลองว่า "ตัวคาดเดา (predictor)" ซึ่งสามารถจำแนกย่อยได้เป็น "แบบจำลองชนิดจำแนก/ตัวจำแนก (classifier)" หรือ "แบบจำลองชนิดถดถอย/ตัวถดถอย (regresssor)" ตามชนิดของคำตอบที่แบบจำลองให้ออกมา
ในทางคณิตศาสตร์ เราเขียนแทนแบบจำลองที่ฝึกสอนแล้วด้วย \(\hat{f}\) หรือ \(\hat{f}(x)\).

ภาพประกอบ 1.1: ผู้เรียนที่เรียนรู้แบบจำลองจากชุดข้อมูลฝึกสอนแบบกำกับป้าย ได้แบบจำลองที่สามารถใช้ในการคาดเดาคำตอบต่อไป

แบบจำลองชนิดกล่องดำ (black-box models) คือระบบที่กลไกการทำงานภายในนั้นถูกปิดซ่อนหรือไม่สามารถเข้าใจได้
ในจักรกลเรียนรู้ แบบจำลองชนิดกล่องดำหมายถึงแบบจำลองที่เราไม่สามารถเข้าใจกลไกการทำงานของมันได้ด้วยการดูค่าพารามิเตอร์ของแบบจำลอง (เช่นโครงข่าวประสาทเทียม) แบบจำลองลักษณะนี้เป็นขั้วตรงข้ามของแบบจำลองชนิดกล่องขาว (white-box models) [ที่เราสามารถอธิบายและเข้าใจกลไกการทำงานของมันได้: ผู้แปล] โดยในหนังสือเล่มนี้เราจะเรียกแบบจำลองชนิดกล่องขาวว่าแบบจำลองชนิดแปลความได้ ทั้งนี้ หนึ่งในหัวข้อที่เราจะกล่าวถึงภายหลัง คือขั้นตอนวิธีแปลความที่ไม่ขึ้นกับแบบจำลอง เป็นขั้นตอนวิธีแปลความแบบจำลองที่จะมองแบบจำลองทุกชนิดเป็นแบบจำลองชนิดกล่องดำ (แม้ว่าความเป็นจริงแบบจำลองนั้นจะไม่ใช่แบบกล่องดำก็ตาม)

จักรกลเรียนรู้แบบแปลความได้ (interpretable machine learning) เป็นวลีที่ใช้กล่าวรวมถึงขั้นตอนวิธีและชนิดของแบบจำลองที่ช่วยให้มนุษย์สามารถเข้าใจพฤติกรรมและผลการทำนายที่ได้จากระบบจักรกลเรียนรู้

ชุดข้อมูล (dataset) คือข้อมูลรูปแบบตารางที่ใช้ในการเรียนรู้ของระบบจักรกลเรียรรู้ ข้อมูลประกอบด้วยคุณลักษณะ (feature) และเป้าหมาย (target) ที่จะกลายเป็นคำตอบที่แบบจำลองคาดเดาออกมา เมื่อชุดข้อมูลถูกนำไปสอนแบบจำลอง เราเรียกข้อมูลชุดนั้นว่าชุดข้อมูลฝึกสอน (training data)

จุดข้อมูล (instance) คือแถวแถวใดแถวหนึ่งในชุดข้อมูล ชื่ออื่นที่พบได้บ่อยของ "จุดข้อมูล" คือตัวอย่าง (example) และผลการสังเกต (observation) จุดข้อมูลจุดหนึ่งประกอบด้วยคุณลักษณะ \(x^{(i)}\) และผลลัพธ์เป้าหมาย \(y_i\)

คุณลักษณะ (feature) ตือข้อมูลนำเข้าที่ใช้ในการส่งออกผลลัพธ์การคาดเดา ในข้อมูลรูปแบบตาราง คุณลักษณะอยู่ในรูปแบบของคอลัมน์หนึ่งของตาราง ตลอดทั้งหนังสือเล่มนี้ เราจะอนุมานว่าชุดคุณลักษณะแต่ละชุดสามารถแปลความได้ กล่าวคือเราสามารถเข้าใจความหมายของมันได้โดยง่าย เช่นค่าอุณหภูมิของอากาศในช่วงเวลาของวัน หรือความสูงของคน ยื่งเราสามารถเข้าใจชุดคุณลักษณะได้ เราก็จะยิ่งสามารถเข้าใจผลการแปลความของแบบจำลองได้ และในทางกลับกัน ถ้าเราไม่สามารถเข้าใจคุณลักษณะ เราก็จะไม่สามารถเข้าใจผลการแปลความของแบบจำลองได้เช่นกัน เราเรียกเมทริกซ์ที่เขียนแทนคุณลักษณะทั้งหมดบนทุกจุดข้อมูลด้วย \(X\) และเราเขียนแทนคุณลักษระทั้งหมดของจุดข้อมูลใดๆ จุดหนึ่งด้วย \(x^{(i)}\) ทั้งนี้เราอาจเขียนแทนเวกเตอร์ของชุดคุณลักษณะตัวใดตัวหนึ่งบนทุกจุดข้อมูลด้วด้วย \(x_j\) เมื่อ \(j\) คือชื่อของคุณลักษณะนั้น และเขียนแทนค่าของคุณลักษณะตัวใดตัวหนึ่งบนจุดข้อมูลจุดใดจุดหนึ่งด้วย \(x^{(i)}_j\)

เป้าหมาย (target) คือข้อมูลที่เราต้องการให้แบบจำลองจักรกลเรียนรู้ส่งออกมาเป็นผลการคาดเดา เราเขียนแทนเป้าหมายในทางคณิตศาสตร์ด้วย \(y\) สำหรับเป้าหมายของทุกจุดข้อมูล และ \(y_i\) สำหรับเป้าหมายในจุดข้อมูลจุดใดจุดหนึ่ง

งานจักรกลเรียนรู้ (machine learning task) คือประเภทของงานที่สนใจเมื่อพูดถึงชุดข้อมูชลชุดหนึ่ง งานของจักรกลเรียนรู้อาจมีได้หลายประเภท เช่นการจำแนก (classification) การถดถอย (regression) การคำนวณโอกาสอยู่รอด (survival analysis) การคลัสเตอร์ (clustering) หรือการตรวจจับความผิดปกติ (outlier detection) Depending on the type of the target, the task can be for example classification, regression, survival analysis, clustering, or outlier detection.

ผลการคาดเดา (prediction) คือผลลัพธ์ที่ได้ออกมาจากแบบจำลองจักรกลเรียนรู้ว่าเป้าหมาย (ที่เป็นคำตอบ) เมื่อกำหนดค่าคุณลักษณะชุดหนึ่ง น่าจะมีค่าเป็นแบบใด โดยในหนังสือเล่มนี้ เราจะเขียนแทนผลการคาดเดาของแบบจำลองด้วย \(\hat{f}(x^{(i)})\) หรือ \(\hat{y}\)

"Definition of Algorithm." https://www.merriam-webster.com/dictionary/algorithm. (2017).↩