Summary Note บทที่ 1 จากหลักสูตร Practical Data Mining with RapidMiner Studio 9

หลักสูตร Practical Data Mining with RapidMiner Studio 9 นี้เป็นหลักสูตรที่เน้นอธิบาย 2 ส่วนคือ concept ของการวิเคราะห์ข้อมูลและการใช้งานซอฟต์แวร์ RapidMiner Studio 9 ครับ ในโพสต์นี้จะเป็นสรุปในบทที่ 1 ของหลักสูตรนี้ซึ่งเนื้อหาจะเกี่ยวกับ Introduction to Data Mining ครับ ดาวน์โหลดไฟล์ PDF ได้ที่นี่

ขั้นตอนการสร้างโมเดล Decision Tree

เทคนิค Decision Tree เป็นเทคนิคหนึ่งที่ได้รับความนิยมในการนำมาประยุกต์ใชัในงานด้าน data mining วันนี้ผมจะแนะนำการสร้างโมเดล decision tree แบบง่ายๆ ก่อนอื่นเราจะใช้ข้อมูลในตารางที่ 1 ซึ่งเป็นข้อมูลที่เก็บสภาพภูมิอากาศ 14 วันย้อนหลังเพื่อดูว่าจะมีการจัดแข่งขันกีฬาหรือไม่ ตารางที่ 1 แสดงข้อมูล weather จากข้อมูลในตารางที่ 1 ประกอบด้วย 5 แอตทริบิวต์ คือ outlook แสดงสภาพภูมิอากาศ ประกอบด้วย 3 ค่า คือ sunny, overcast, rainny temperature แสดงอุณหภูมิ ประกอบด้วย 3 ค่า คือ hot, mild,

เปรียบเทียบความถูกต้อง (Accuracy) กับการแปลความ (Explainability) ของโมเดลต่างๆ

ในการสร้างโมเดล Classification นั้นมีหลายเทคนิคครับ บางเทคนิคก็แปลความ (Explainability) ได้ง่าย บางเทคนิคก็แปลความยากแต่ความถูกต้อง (Accuracy) สูงครับ ภาพด้านล่างเป็นการแสดงให้เห็นว่าเทคนิคต่างๆ นั้นสามารถอธิบายได้ง่ายหรือยากและมีความถูกต้องมากน้อยแค่ไหนครับ  โดยเทคนิคต่างๆ มีดังนี้ครับ 1. Linear Regressionเป็นการสร้างสมการเส้นตรง (เช่น y = mx+c) มาสร้างโมเดลเพื่อพยากรณ์ค่าตัวเลขต่างๆ ข้อดีของการเทคนิคนี้คือโมเดลที่ได้แปลความได้ง่ายเพราะแสดงในรูปของสมการทางคณิตศาสตร์ที่เราสามารถแทนค่าเข้าไปได้เลย 2. Logistic Regression เป็นการสร้างสมการคณิตศาสตร์เพื่อแบ่งแยก (classify) ข้อมูลออกเป็น 2 กลุ่มคำตอบครับ เทคนิคนี้เป็นอีกเทคนิคที่นิยมให้เนื่องจากแปลความโมเดลได้ง่ายครับ และแสดงให้เห็นถึงความสำคัญของตัวแปร (หรือ Feature) ได้ด้วยครับ 3. k-Nearest Neighbours (k-NN) เป็นการสร้างโมเดลโดยมีแนวคิดว่าข้อมูลที่มีลักษณะคล้ายกันน่าจะอยู่ในกลุ่ม