ดาวน์โหลดฟรี!! เอกสารการทำ Data Preparation & Feature Engineering ด้วย RapidMiner Studio
หลังจากทำการวิเคราะห์ข้อมูลด้วยเทคนิค Machine Learning มาสักพักก็พบว่าข้อมูลส่วนใหญ่นั้นไม่สามารถนำไปสร้างโมเดลได้ทันทีแต่จำเป็นต้องมีการสร้างตัวแปรใหม่ (derived variable) หรือทำการเตรียมข้อมูลให้อยู่ในรูปแบบตารางที่เรียกว่า Analytical Base Table (ABT) ซึ่งประกอบด้วย
- แถวที่แสดงตัวอย่างของข้อมูล (unit of analysis)
- คอลัมน์ซึ่งแสดงตัวแปร(feature/attribute)
ในเอกสารนี้ได้สรุปแนวทางทางในการทำ Data Preparation และ Feature Engineering ที่ใช้งานบ่อยไว้ให้ครับ โดยมีหัวข้อต่างๆ ได้แก่
- Select Attributes ใช้สำหรับเลือกคอลัมน์หรือแอตทริบิวต์ที่ต้องการใช้งาน
- Filter Examples ใช้สำหรับเลือกแถว (example) ที่ต้องการใช้งาน
- Replace / Map ใช้สำหรับการแทนที่ค่าในชุดข้อมูล
- Set Role ใช้สำหรับกำหนดหน้าที่ (role) ให้แต่ละตัวแปร
- Trim ใช้สำหรับลบช่องว่างที่อยู่ด้านหน้าและด้านหลังของข้อมูล
- Convert Data Type ใช้สำหรับแปลงประเภทของข้อมูลต่างๆ
- Replace Missing Value ใช้สำหรับแทนที่ค่าว่างในชุดข้อมูล
- Generate Attributes ใช้สำหรับสร้างคอลัมน์หรือแอตทริบิวต์ใหม่
- Aggregate ใช้สำหรับ group ค่าให้อยู่ในรูปแบบที่ต้องการ
- Pivot ใช้สำหรับสร้างตาราง Pivot
- Join ใช้สำหรับสร้างเชื่อมโยงข้อมูล 2 ตาราง
- Append ใช้สำหรับเพิ่มข้อมูลเข้าไปในตารางเดิม
- Set Minus ใช้สำหรับลบข้อมูลที่ไม่ต้องการออก
ท่านใดสนใจดาวน์โหลดเอกสารได้จาก link นี้หรือคลิกที่รูปภาพได้เลยครับ ^^
ทางเราได้มีการจัดอบรมเชิงปฏิบัติการในการนำเทคนิคเหล่านี้มาทำการวิเคราะห์ข้อมูลต่างๆ เช่น
- การแบ่งกลุ่มลูกค้าตามการชำระเงิน
- การสร้างแบบจำลองเพื่อคาดการณ์โอกาสซื้อสินค้า (propensity to buy)
- การวิเคราะห์ข้อความ (text mining)
- การวิเคราะห์ข้อมูล log (log analysis)
รายละเอียดเพิ่มเติมดูได้จาก https://datacubeth.ai/data-science-training/data-preparation-and-feature-engineering-for-data-analytics-and-machine-learning-workshop-with-rapidminer-studio-ai-hub/