ขั้นตอนการสร้างโมเดล Decision Tree

เทคนิค Decision Tree เป็นเทคนิคหนึ่งที่ได้รับความนิยมในการนำมาประยุกต์ใชัในงานด้าน data mining วันนี้ผมจะแนะนำการสร้างโมเดล decision tree แบบง่ายๆ ก่อนอื่นเราจะใช้ข้อมูลในตารางที่ 1 ซึ่งเป็นข้อมูลที่เก็บสภาพภูมิอากาศ 14 วันย้อนหลังเพื่อดูว่าจะมีการจัดแข่งขันกีฬาหรือไม่ ตารางที่ 1 แสดงข้อมูล weather จากข้อมูลในตารางที่ 1 ประกอบด้วย 5 แอตทริบิวต์ คือ outlook แสดงสภาพภูมิอากาศ ประกอบด้วย 3 ค่า คือ sunny, overcast, rainny temperature แสดงอุณหภูมิ ประกอบด้วย 3 ค่า คือ hot, mild,

ดาวน์โหลดสไลด์ของหนังสือ Introduction to Data Mining ได้ฟรี

ดาวน์โหลดสไลด์ของหนังสือ Introduction to Data Mining ได้จาก https://www-users.cs.umn.edu/~kumar001/dmbook/index.php ครับ มีหัวข้อดังนี้ครับ1. Introduction.2. Data3. Classification: Basic Concepts and Techniques– Basic Concepts and Decision Trees– Model Overfitting4. Classification: Alternative Techniques– Rule-based Classifier– Nearest Neighbor Classifiers – Naïve Bayes Classifier– Artificial Neural Networks– Support Vector Machine– Ensemble Methods– Class

เว็บไซต์ที่รวบรวมงานวิจัยทางด้าน Machine Learning และมี Code ที่ใช้ในการทำวิจัยด้วย

เว็บไซต์ paperswithcode.com เป็นเว็บไซต์ที่รวบรวมงานวิจัยทางด้าน Machine Learning และมี Code ที่ใช้ในการทำวิจัยให้ดาวน์โหลดด้วยครับ เช่น Deep Learning แบบต่างๆ และมีหัวข้อวิจัยแยกเป็นเรื่องต่างๆ ดังนี้ครับ– Computer Vision– Natural Language Processing– Medical– Graph– Speech– Time Series– Robot

เปรียบเทียบความถูกต้อง (Accuracy) กับการแปลความ (Explainability) ของโมเดลต่างๆ

ในการสร้างโมเดล Classification นั้นมีหลายเทคนิคครับ บางเทคนิคก็แปลความ (Explainability) ได้ง่าย บางเทคนิคก็แปลความยากแต่ความถูกต้อง (Accuracy) สูงครับ ภาพด้านล่างเป็นการแสดงให้เห็นว่าเทคนิคต่างๆ นั้นสามารถอธิบายได้ง่ายหรือยากและมีความถูกต้องมากน้อยแค่ไหนครับ  โดยเทคนิคต่างๆ มีดังนี้ครับ 1. Linear Regressionเป็นการสร้างสมการเส้นตรง (เช่น y = mx+c) มาสร้างโมเดลเพื่อพยากรณ์ค่าตัวเลขต่างๆ ข้อดีของการเทคนิคนี้คือโมเดลที่ได้แปลความได้ง่ายเพราะแสดงในรูปของสมการทางคณิตศาสตร์ที่เราสามารถแทนค่าเข้าไปได้เลย 2. Logistic Regression เป็นการสร้างสมการคณิตศาสตร์เพื่อแบ่งแยก (classify) ข้อมูลออกเป็น 2 กลุ่มคำตอบครับ เทคนิคนี้เป็นอีกเทคนิคที่นิยมให้เนื่องจากแปลความโมเดลได้ง่ายครับ และแสดงให้เห็นถึงความสำคัญของตัวแปร (หรือ Feature) ได้ด้วยครับ 3. k-Nearest Neighbours (k-NN) เป็นการสร้างโมเดลโดยมีแนวคิดว่าข้อมูลที่มีลักษณะคล้ายกันน่าจะอยู่ในกลุ่ม