ดาวน์โหลดสไลด์ของหนังสือ Introduction to Data Mining ได้ฟรี

ดาวน์โหลดสไลด์ของหนังสือ Introduction to Data Mining ได้จาก https://www-users.cs.umn.edu/~kumar001/dmbook/index.php ครับ มีหัวข้อดังนี้ครับ1. Introduction.2. Data3. Classification: Basic Concepts and Techniques– Basic Concepts and Decision Trees– Model Overfitting4. Classification: Alternative Techniques– Rule-based Classifier– Nearest Neighbor Classifiers – Naïve Bayes Classifier– Artificial Neural Networks– Support Vector Machine– Ensemble Methods– Class

เว็บไซต์ที่รวบรวมงานวิจัยทางด้าน Machine Learning และมี Code ที่ใช้ในการทำวิจัยด้วย

เว็บไซต์ paperswithcode.com เป็นเว็บไซต์ที่รวบรวมงานวิจัยทางด้าน Machine Learning และมี Code ที่ใช้ในการทำวิจัยให้ดาวน์โหลดด้วยครับ เช่น Deep Learning แบบต่างๆ และมีหัวข้อวิจัยแยกเป็นเรื่องต่างๆ ดังนี้ครับ– Computer Vision– Natural Language Processing– Medical– Graph– Speech– Time Series– Robot

การประยุกต์ใช้ Predictive Modeling ในเชิงธุรกิจ (Business)

ในหลายๆ ครั้งเวลาทำงานเรามักจะต้องหาก่อนว่าจะนำข้อมูลที่มีมาใช้ในการวิเคราะห์เรื่องอะไรบ้างครับ รูปด้านล่างแสดงตัวอย่างการนำเทคนิคการวิเคราะห์ข้อมูลแบบ Predictive Modeling ไปใช้ในเชิงธุรกิจ ได้แก่ Customer recruitment from a prospect database คือ การหาว่าลูกค้าเป้าหมาย (prospects) คนใดบ้างที่มีโอกาสจะซื้อสินค้าหรือบริการมากสุด Cross-sell/up-sell campaign เป็นการหาว่าลูกค้าคนใดบ้างที่เคยซื้อสินค้า X ไปแล้วจะมีโอกาสจะซื้อสินค้า Y หรือ ลูกค้าดนใดบ้างที่เคยซื้อสินค้า Z ไปแล้วมีแนวโน้มจะซื้อสินค้า Z มากขึ้น Next-best offer เพื่อหาสินค้าหรือบริการใดบ้างที่ลูกค้ามีแนวโน้มจะซื้อหรือใช้บริการในครั้งถัดไป Customer retention เพื่อหาว่าลูกค้าคนใดบ้างมีโอกาสจะยกเลิกการใช้บริการ Customer lifecycle management เป็นการคำนวณว่าระยะเวลาอีกนานแค่ไหนลูกค้าถึงจะยกเลิกการใช้บริการ Win-back

เปรียบเทียบความถูกต้อง (Accuracy) กับการแปลความ (Explainability) ของโมเดลต่างๆ

ในการสร้างโมเดล Classification นั้นมีหลายเทคนิคครับ บางเทคนิคก็แปลความ (Explainability) ได้ง่าย บางเทคนิคก็แปลความยากแต่ความถูกต้อง (Accuracy) สูงครับ ภาพด้านล่างเป็นการแสดงให้เห็นว่าเทคนิคต่างๆ นั้นสามารถอธิบายได้ง่ายหรือยากและมีความถูกต้องมากน้อยแค่ไหนครับ  โดยเทคนิคต่างๆ มีดังนี้ครับ 1. Linear Regressionเป็นการสร้างสมการเส้นตรง (เช่น y = mx+c) มาสร้างโมเดลเพื่อพยากรณ์ค่าตัวเลขต่างๆ ข้อดีของการเทคนิคนี้คือโมเดลที่ได้แปลความได้ง่ายเพราะแสดงในรูปของสมการทางคณิตศาสตร์ที่เราสามารถแทนค่าเข้าไปได้เลย 2. Logistic Regression เป็นการสร้างสมการคณิตศาสตร์เพื่อแบ่งแยก (classify) ข้อมูลออกเป็น 2 กลุ่มคำตอบครับ เทคนิคนี้เป็นอีกเทคนิคที่นิยมให้เนื่องจากแปลความโมเดลได้ง่ายครับ และแสดงให้เห็นถึงความสำคัญของตัวแปร (หรือ Feature) ได้ด้วยครับ 3. k-Nearest Neighbours (k-NN) เป็นการสร้างโมเดลโดยมีแนวคิดว่าข้อมูลที่มีลักษณะคล้ายกันน่าจะอยู่ในกลุ่ม

ความแตกต่างระหว่าง Business Intelligence และ Data Mining

รูปด้านล่างอธิบายความแตกต่างของ BI (Business Intelligence) และ Data Mining หรือ Machine Learning ครับ ในรูปผมแสดงการเปรียบเทียบใน 2 มุมมองคือ แกนนอน (แกน X) เป็นเรื่องของช่วงเวลาซึ่งตรงกลางคือเวลาปัจจุบัน และทางซ้ายมือคือเวลาในอดีต ส่วนด้านขวามือคือเวลาที่จะเกิดขึ้นในอนาคตครับ อีกแกน (แกน Y) จะเป็นเรื่องของการวิเคราะห์ข้อมูลครับ ถ้าอยู่ด้านล่างก็จะใช้วิธีการที่ไม่ซับซ้อนมาก เช่น แสดงค่าที่น้อยที่สุด (Minimum) หรือค่ามากที่สุด (Maximum) แต่ถ้าอยู่ด้านบนจะเป็นการวิเคราะห์ที่ซับซ้อนมากขึ้นเช่นมีการสร้างสมการทางคณิตศาสตร์ต่างๆ เช่น Linear Regression หรือ Neural Network ครับ จากรูปจะเห็นว่า BI อยู่ภายใต้เส้นขอบสีแดงนั่นคือ

การเก็บข้อมูลสำหรับทำ Data Analytics

ภาพด้านล่างจะแสดงให้เห็นความสัมพันธ์ของการเก็บข้อมูลและการวิเคราะห์ข้อมูลเบื้องต้นครับ  หลายๆ ครั้งที่ข้อมูลจะเก็บแยกส่วนกันอยู่ในฐานข้อมูลของฝ่ายต่างๆ เช่น ฝ่ายขาย ก็จะเก็บข้อมูลการซื้อสินค้าต่างๆ ข้อมูลลูกค้า ฝ่ายการตลาดก็จะเก็บเรื่องโปรโมชันต่างๆ หรือฝ่ายบัญชีก็จะเก็บเรื่องการจ่ายเงินต่างๆ ซึ่งข้อมูลเหล่านี้จริงๆ แล้วมีส่วนที่เชื่อมโยงกันอยู่เช่น รหัสของลูกค้า (CustomerID)  ดังนั้นถ้าผู้บริหารอยากจะดูภาพรวมของทั้งบริษัท ทำให้ต้องดึงข้อมูลเหล่านี้มารวมกันแล้วออกเป็นรายงาน (Report) ต่างๆ ออกมา ซึ่งแต่ละครั้งก็ไม่ง่ายเพราะข้อมูลกระจัดกระจายอยู่หลายที่ และการเชื่อมโยงข้อมูลกันก็อาจจะใช้เวลา ดังนั้นจึงมีแนวคิดของ Data Warehouse ที่เก็บข้อมูลต่างๆ ไว้ตรงกลางเสียก่อน เพื่อทำให้นำไปออกเป็นรายงานได้ง่ายขึ้น แต่ข้อมูลตั้งต้นนั้นกระจัดกระจายอยู่หลายฐานข้อมูลทำให้การนำมาเก็บใน Data Warehouse เลยก็อาจจะไม่ง่าย จึงต้องมีกระบวนการที่เรียกย่อๆ ว่า ETL (Extract, Transform and Load) เพื่อทำการดึงเฉพาะข้อมูลด้าน (Dimensiont) ที่สนใจ

หลักสูตรการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining โดยซอฟต์แวร์ RapidMiner Studio 9 (ขั้นพื้นฐานและปานกลาง) รุ่นที่ 33 (รุ่นปี 2563)

ภาพรวมของหลักสูตร โลกในยุคปัจจุบันได้ก้าวเข้าไปสู่ยุคที่เรียกว่า “Big Data” หรือ “ข้อมูลอภิมหาศาล” เนื่องจากในแต่ละวันมีข้อมูลเกิดขึ้นมากมาย อาทิเช่น ข้อมูลสมาชิกของ Facebook ข้อมูลการซื้อสินค้าจากในซุปเปอร์มาร์เกตต่างๆ และเพื่อให้เกิดประโยชน์มากที่สุดเราจำเป็นต้องนำข้อมูลอภิมหาศาลเหล่านี้มาทำการวิเคราะห์ (analyze) ซึ่งเทคนิคหนึ่งที่ได้รับการนิยมอย่างสูงในปัจจุบัน คือ เทคนิค Data Mining ซึ่งเป็นเทคนิคที่ค้นหาความสัมพันธ์ในข้อมูล เช่น ถ้าลูกค้าซื้อเบียร์แล้วลูกค้าจะซื้อผ้าอ้อมร่วมไปด้วย หรือถ้าเรากด Like หน้า Facebook page เราจะเห็นว่า Facebook มีระบบแนะนำ page อื่นๆ ที่เกี่ยวข้องมาให้ด้วย หรือ การสร้างโมเดลเพื่อทำนายสิ่งที่จะเกิดขึ้นในอนาคต เช่น ทำนายยอดขายในไตรมาสถัดไป หรือ การทำนายว่าพนักงานคนไหนที่จะลาออกจากบริษัทในช่วง 3 เดือนข้างหน้า

กระบวนการวิเคราะห์ข้อมูลด้วย CRISP-DM และตัวอย่างการประยุกต์ใช้ทางด้านการศึกษา

[บทความนี้เป็นเนื้อหาบางส่วนจากหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย)] หลังจากที่ท่านผู้อ่านได้ทำความรู้จักกับเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิงแบบต่างๆ ไปแล้ว ในบทความนี้ผมจะแนะนำกระบวนการวิเคราะห์ข้อมูลมาตรฐานซึ่งเป็นเหมือน blueprint ที่ใช้กันอย่างกว้างขวาง เช่นเดียวกันกับกระบวนการ ISO ในโรงงานอุตสาหกรรม หรือกระบวนการ CMMI ซึ่งเป็นมาตรฐานในการพัฒนาซอฟต์แวร์ กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้านดาต้า ไมน์นิงนี้ พัฒนาขึ้นในปี ค.ศ. 1996 โดยความร่วมมือกันของ 3 บริษัท คือ DaimlerChrysler SPSS และNCR กระบวนการทำงานนี้เรียกว่า “Cross-Industry Standard Process for Data Mining” หรือเรียกย่อ ว่า

สไลด์การบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics

เมื่อวันที่ 8 มีนาคม 2560 ดาต้า คิวบ์ได้รับโอกาสไปบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics ณ คณะวิทยาศาสตร์และวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตเฉลิมพระเกียรติ จังหวัดสกลนคร ท่านใดสนใจสไลด์การบรรยายดูได้จากรูปด้านล่างนี้ได้เลยครับ