ดาวน์โหลดฟรีเอกสารพื้นฐานสถิติสำหรับวิเคราะห์ข้อมูลทาง Machine Learning

เอกสารด้านล่างเป็นส่วนหนึ่งเอกสารที่ใช้ในการอบรมหลักสูตร Practical Data Science and Machine Learning with RapidMiner TurboPrep and AutoModel ซึ่งมีระยะเวลาการอบรม 3 วัน โดยในเอกสารนี้จะประกอบด้วยหัวข้อต่างๆ ได้แก่ พื้นฐานทางสถิติ Descriptive Statistics ค่าเฉลี่ย (Mean) ค่ามัธยฐาน (Median) ค่าฐานนิยม (Mode) ค่าเบี่ยงเบนมาตรฐาน (Standard Deviation) Rank-ordered Statistics การหา Outlier ด้วยวิธี IQR (Inter Quartile Range) การหาค่า Correlation

ดาวน์โหลดฟรีเอกสารการใช้งาน RapidMiner TurboPrep เบื้องต้น

เอกสารด้านล่างเป็นส่วนหนึ่งเอกสารที่ใช้ในการอบรมหลักสูตร Practical Data Science and Machine Learning with RapidMiner TurboPrep and AutoModel ซึ่งมีระยะเวลาการอบรม 3 วันตั้งแต่วันที่ 18 – 20 สิงหาคม 2564 ครับ โดยในเอกสารนี้จะประกอบด้วยหัวข้อต่างๆ ได้แก่ การดูรายละเอียดของข้อมูล (show detail) การเรียงลำดับข้อมูล (sort) การแทนค่าข้อมูล (replace) การแทนค่าว่าง (replace missing value) การเลือกข้อมูลบางตัวอย่าง (filter examples) การ join ข้อมูล

Summary Note บทที่ 1 จากหลักสูตร Practical Data Mining with RapidMiner Studio 9

หลักสูตร Practical Data Mining with RapidMiner Studio 9 นี้เป็นหลักสูตรที่เน้นอธิบาย 2 ส่วนคือ concept ของการวิเคราะห์ข้อมูลและการใช้งานซอฟต์แวร์ RapidMiner Studio 9 ครับ ในโพสต์นี้จะเป็นสรุปในบทที่ 1 ของหลักสูตรนี้ซึ่งเนื้อหาจะเกี่ยวกับ Introduction to Data Mining ครับ ดาวน์โหลดไฟล์ PDF ได้ที่นี่

ขั้นตอนการสร้างโมเดล Decision Tree

เทคนิค Decision Tree เป็นเทคนิคหนึ่งที่ได้รับความนิยมในการนำมาประยุกต์ใชัในงานด้าน data mining วันนี้ผมจะแนะนำการสร้างโมเดล decision tree แบบง่ายๆ ก่อนอื่นเราจะใช้ข้อมูลในตารางที่ 1 ซึ่งเป็นข้อมูลที่เก็บสภาพภูมิอากาศ 14 วันย้อนหลังเพื่อดูว่าจะมีการจัดแข่งขันกีฬาหรือไม่ ตารางที่ 1 แสดงข้อมูล weather จากข้อมูลในตารางที่ 1 ประกอบด้วย 5 แอตทริบิวต์ คือ outlook แสดงสภาพภูมิอากาศ ประกอบด้วย 3 ค่า คือ sunny, overcast, rainny temperature แสดงอุณหภูมิ ประกอบด้วย 3 ค่า คือ hot, mild,

เปรียบเทียบความถูกต้อง (Accuracy) กับการแปลความ (Explainability) ของโมเดลต่างๆ

ในการสร้างโมเดล Classification นั้นมีหลายเทคนิคครับ บางเทคนิคก็แปลความ (Explainability) ได้ง่าย บางเทคนิคก็แปลความยากแต่ความถูกต้อง (Accuracy) สูงครับ ภาพด้านล่างเป็นการแสดงให้เห็นว่าเทคนิคต่างๆ นั้นสามารถอธิบายได้ง่ายหรือยากและมีความถูกต้องมากน้อยแค่ไหนครับ  โดยเทคนิคต่างๆ มีดังนี้ครับ 1. Linear Regressionเป็นการสร้างสมการเส้นตรง (เช่น y = mx+c) มาสร้างโมเดลเพื่อพยากรณ์ค่าตัวเลขต่างๆ ข้อดีของการเทคนิคนี้คือโมเดลที่ได้แปลความได้ง่ายเพราะแสดงในรูปของสมการทางคณิตศาสตร์ที่เราสามารถแทนค่าเข้าไปได้เลย 2. Logistic Regression เป็นการสร้างสมการคณิตศาสตร์เพื่อแบ่งแยก (classify) ข้อมูลออกเป็น 2 กลุ่มคำตอบครับ เทคนิคนี้เป็นอีกเทคนิคที่นิยมให้เนื่องจากแปลความโมเดลได้ง่ายครับ และแสดงให้เห็นถึงความสำคัญของตัวแปร (หรือ Feature) ได้ด้วยครับ 3. k-Nearest Neighbours (k-NN) เป็นการสร้างโมเดลโดยมีแนวคิดว่าข้อมูลที่มีลักษณะคล้ายกันน่าจะอยู่ในกลุ่ม