หลักสูตร Practical Data Science and Machine Learning with RapidMiner TurboPrep and AutoModel รุ่นที่ 5
ภาพรวมของหลักสูตร
ในปัจจุบันเราได้เข้าสู่ยุคของบิ๊ก ดาต้า (Big Data) ซึ่งมีข้อมูลมากมายและหลากหลายที่เกิดจากการดำเนินชีวิตของพวกเราเอง เช่น การซื้อสินค้า การใช้งานโทรศัพท์มือถือ หรือจากอุปกรณ์เซนเซอร์ (Sensor) หรืออุปกรณ์ Internet of Things (IoT) ต่างๆ เช่น การวัดความชื้นหรืออุณหภูมิครับ นอกจากนี้การพัฒนาไปอย่างรวดเร็วของเทคโนโลยีทางสารสนเทศและคอมพิวเตอร์ทำให้เราสามารถเก็บข้อมูลได้มากขึ้นด้วยค่าใช้จ่ายที่ถูกลง ดังนั้นในหลายๆ องค์กรจึงอยากนำข้อมูลเหล่านี้มาวิเคราะห์เพื่อก่อให้เกิดประโยชน์ขึ้นมา ซึ่งการวิเคราะห์ข้อมูลนี้อาจจะเป็นแบบง่ายๆ เช่น การหาค่าทางสถิติ เช่น ยอดขายรวมในเดือนนี้เป็นเท่าไร หรือ จำนวนผู้เข้ามาชมเว็บไซต์เฉลี่ยแต่ละเดือนในช่วงไตรมาสที่หนึ่งของปี 2021 เป็นจำนวนที่ราย หรือการวิเคราะห์ในแนวของการคาดการณ์ล่วงหน้า เช่น ในอีก 3 เดือนข้างหน้ายอดขายเครื่องฟอกอากาศจะเป็นจำนวนกี่เครื่อง
การวิเคราะห์ในส่วนที่ซับซ้อนขึ้น เช่น การคาดการณ์อนาคตแบบนี้จะเป็นส่วนหนึ่งของแนวทางของ วิทยาศาสตร์ข้อมูลหรือ Data Science ซึ่งเป็นศาสตร์ที่ได้รับความนิยมมากในปัจจุบันและหลายบริษัทต้องการ นักวิทยาศาสตร์ข้อมูล หรือ Data Scientist มาช่วยงานเป็นจำนวนมาก แต่การเป็น Data Scientist ก็ไม่ได้ง่ายเพราะต้องสามารถเขียนโปรแกรมได้และรู้เรื่องของการวิเคราะห์ข้อมูลด้านต่างๆ ตั้งแต่ สถิติ ไปจนถึงเทคนิคการเรียนรู้ของเครื่อง (Machine Learning) และอาจจะต้องเข้าใจเชิงธุรกิจอีกด้วยทำให้บริษัทหาคนที่เหมาะสมได้ยากมากทีเดียวครับ ดังนั้นอีกแนวทางหนึ่ง คือ เลือกคนที่ทำงานในด้านธุรกิจมานานจนมีความเชี่ยวชาญในด้านนั้นให้มาเรียนรู้เรื่องการวิเคราะห์ข้อมูลเพิ่มเติมซึ่งจะเน้นผลลัพธ์ของธุรกิจเป็นหลักจึงไม่จำเป็นต้องเขียนโปรแกรมได้แต่สามารถใช้ซอฟต์แวร์สำเร็จรูปแทนได้ครับ คนเหล่านี้จะเรียกว่าเป็น Citizen Data Scientist จากแนวคิดนี้ผมจึงตั้งใจสร้างหลักสูตรนี้ขึ้นมาเพื่อให้โอกาสทุกคนที่อยากทำงานด้าน Data Science ให้เข้าใจแนวคิดการทำงานของเทคนิคการวิเคราะห์ข้อมูลต่างๆ ทาง Machine Learning และลงมือปฏิบัติจริงได้ด้วยซอฟต์แวร์ที่ชื่อว่า RapidMiner ครับ
หลักสูตรนี้ได้ทำการปรับปรุงเพิ่มเติมมาจากหลักสูตร Practical Data Mining with RapidMiner Studio 9 ที่ได้มีการอบรมมาเป็นระยะเวลากว่า 6 ปี ในช่วงที่ผ่านมาซอฟต์แวร์ RapidMiner Studio ได้มีการ update หลายๆ อย่างทำให้การทำการวิเคราะห์ข้อมูลทำได้ง่ายขึ้น โดยมีการเพิ่มส่วนของ TurboPrep ที่ช่วยในการเตรียมข้อมูลได้แบบง่ายๆ โดยการใช้ GUI แบบใหม่หรือ AutoModel ที่ทำให้การสร้างโมเดลทาง Machine Learning ง่ายขึ้นครับ ซึ่งในหลักสูตรนี้จะแบ่งเป็น 2 ส่วน คือ ส่วนของการอธิบาย concept พื้นฐานของการวิเคราะห์ข้อมูลด้วยเทคนิคต่างๆ ทางด้าน Data Science และ Machine Learning เช่น การแบ่งกลุ่มลูกค้าด้วยวิธีการ RFM Segmentation หรือ การสร้างโมเดลด้วยเทคนิค Decision Tree หรือ Naive Bayes เป็นต้น
ถ้าท่านเคยอบรมหลักสูตร Practical Data Mining with RapidMiner Studio 9 มาก่อน หรือท่านที่สนใจอยากเร่ิมทำทางด้านการวิเคราะห์ข้อมูล ผมหวังเป็นอย่างยิ่งว่าท่านจะสนใจมาเข้าร่วมเรียนรู้และ update ความรู้ทางด้านการวิเคราะห์ข้อมูลและการใช้งาน RapidMiner แบบใหม่กับเราในหลักสูตรนี้ครับ ^^
หลักสูตรนี้เหมาะสำหรับ
นิสิต/นักศึกษาที่สนใจการวิเคราะห์ข้อมูลด้วยเทคนิค Data Science และ Machine Learning
อาจารย์มหาวิทยาลัยที่ต้องการ update ความรู้ทางด้าน Data Science และ Machine Learning และเรียนรู้การใช้งานซอฟต์แวร์ใหม่ๆ ที่ดีขึ้น
บุคลากรทางด้าน IT ที่ต้องการเพิ่มทักษะทาง Data Science และ Machine Learning
หน่วยงานหรือองค์กรที่ต้องการวิเคราะห์ข้อมูลด้วยวิธีการทาง Data Science และ Machine Learning
ผู้ประกอบการวิสาหกิจขนาดกลางและย่อม (SME) ที่ต้องการวิเคราะห์ข้อมูลลูกค้าหรือการซื้อขายสินค้า
เนื้อหาการอบรม (Course Outline)
วันที่ 1
แนะนำการวิเคราะห์ข้อมูลด้วยเทคนิค Data Science และ Machine Learning และการใช้ประโยชน์ในด้านต่างๆ
อธิบายแแนวคิดพื้นฐานในการเก็บข้อมูลในลักษณะต่างๆ ได้แก่
พื้นฐานการเก็บข้อมูลในรูปแบบฐานข้อมูล (Database)
พื้นฐานการเก็บข้อมูลในรูปแบบคลังข้อมูล (Data Warehouse)
แนะนำกระบวนการ CRISP-DM เบื้องต้นสำหรับการวิเคราะห์ข้อมูล
แนะนำส่วนต่างๆ ของซอฟต์แวร์ RapidMiner Studio 9
การนำข้อมูลไฟล์ Excel, CSV เข้ามาใช้ใน RapidMiner Studio 9
ลักษณะของแอตทริบิวต์ (attribute) ต่างๆ ในชุดข้อมูล
การจัดการข้อมูลด้วย RapidMiner Turbo Prep
การเลือกแอตทริบิวต์ (attribute) ที่ต้องการ
การเลือกข้อมูลตัวอย่างตามเงื่อนไขที่กำหนด
การ replace ค่าที่ผิดพลาด
การแก้ไขค่าว่าง (Replace Missing Value) แบบต่างๆ
การสร้างแอตทริบิวต์หรือตัวแปรใหม่ (Generate Attributes)
การแบ่งช่วงข้อมูล (Discretization) แบบต่างๆ
การ join ข้อมูล 2 ชุดเข้าด้วยกัน
การสร้างตาราง Pivot Table
Workshop การจัดการข้อมูล transaction การซื้อสินค้า online ด้วย RapidMiner TurboPrep
อธิบายแนวคิดของการวิเคราะห์ข้อมูลเพื่อสนับสนุนการตัดสินใจแบบต่างๆ ได้แก่
การวิเคราะห์เชิงพรรณนา (Descriptive Analytics)
การวิเคราะห์เชิงวินิจฉัย (Diagnostic Analytics)
การวิเคราะห์เชิงพยากรณ์ (Predictive Analytics)
การวิเคราะห์เชิงแนะนำ (Prescriptive Analytics)
วันที่ 2
พื้นฐานทางสถิติ (Statistics) และความน่าจะเป็น (Probability)
การวัดค่าสถิติต่างๆ เช่น การหาค่าเฉลี่ย (Mean) การหาค่ากลาง (Median) การหาค่าฐานนิยม (Mode)
การคำนวณค่าเบี่ยงเบนมาตรฐาน (Standard Deviation)
Rank Order Statistics
การหา Outlier ด้วยวิธีการ IQR (Inter Quartile Range)
พื้นฐานความน่าจะเป็น (Probability)
การแสดงกราฟ (Chart) ในรูปแบบต่างๆ ได้แก่
กราฟแท่ง (Bar Chart)
กราฟวงกลม (Pie Chart)
กราฟเส้น (Line Chart)
การการกระจายตัว (Scatter Plot)
การแบ่งกลุ่มข้อมูลด้วยวิธีการ RFM Segmentation
ตัวอย่างการแบ่งกลุ่ม RFM Segmentation ด้วย RapidMiner TurboPrep
Workshop การแบ่งกลุ่ม RFM Segmentation กับข้อมูล online transactions ด้วย RapidMiner TurboPrep
แนวคิดพื้นฐานของเทคนิค Machine Learning
เทคนิค Machine Learning ประเภทต่างๆ ได้แก่
Unsupervised Learning หรือการเรียนรู้แบบไม่มีผู้สอน
Supervised Learning หรือการเรียนรู้แบบมีผู้สอน
Semi-supervised Learning หรือการเรียนรู้แบบกึ่งมีผู้สอน
อธิบายแนวคิดขอองการแบ่งกลุ่มข้อมูลด้วยเทคนิค K-Means Clustering
การแบ่งกลุ่มข้อมูลด้วย RapidMiner AutoModel
วันที่ 3
อธิบายแนวคิดพื้นฐานของการทำ Classification และ Regression
การแบ่งข้อมูลเพื่อทำการทดสอบประสิทธิภาพของโมเดล Classification และ Regression
ตัววัดประสิทธิภาพของโมเดล Classification และ Regression ต่างๆ ได้แก่
Confusion Matrix
Precision
Recall
F-Measure
Accuracy
ROC Curve และ AUC (Area Under Curve)
Mean Absolute Error (MAE)
Root Mean Square Error (RMSE)
อธิบายแนวคิดของเทคนิค Decision Tree
ตัวอย่างการประยุกต์ใช้งานด้วย RapidMiner Auto Model
อธิบายแนวคิดของเทคนิค Naive Bayes
ตัวอย่างการประยุกต์ใช้งานด้วย RapidMiner Auto Model
อธิบายแนวคิดของเทคนิค Linear Regression
ตัวอย่างการประยุกต์ใช้งานด้วย RapidMiner Auto Model
อธิบายแนวคิดของเทคนิค Logistic Regression
ตัวอย่างการประยุกต์ใช้งานด้วย RapidMiner Auto Model
อธิบายแนวคิดของเทคนิค Support Vector Machines (SVM)
ตัวอย่างการประยุกต์ใช้งานด้วย RapidMiner Auto Model
วิทยากร
ดร. เอกสิทธิ์ พัชรวงศ์ศักดา (Certified RapidMiner Ambassador และ Data Science Team Lead)
บริษัท คิวบ์ อนาไลติกส์ คอนซัลติ้ง จำกัด
การศึกษา
ปริญญาเอกวิทยาการคอมพิวเตอร์ สถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์ (ทุนโครงการปริญญาเอกกาญจนาภิเษก)
visiting PhD Student ที่มหาวิทยาลัย York (York University) เมืองโตรอนโต ประเทศแคนาดา
ปริญญาโทวิศวกรรมศาสตร์ สาขาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ (บางเขน)
ปริญญาตรีวิศวกรรมศาสตร์ สาขาวิศวกรรมคอมพิวเตอร์ (เกียรตินิยมอันดับ 2) มหาวิทยาลัยเกษตรศาสตร์ (บางเขน)