การเก็บข้อมูลสำหรับทำ Data Analytics

ภาพด้านล่างจะแสดงให้เห็นความสัมพันธ์ของการเก็บข้อมูลและการวิเคราะห์ข้อมูลเบื้องต้นครับ  หลายๆ ครั้งที่ข้อมูลจะเก็บแยกส่วนกันอยู่ในฐานข้อมูลของฝ่ายต่างๆ เช่น ฝ่ายขาย ก็จะเก็บข้อมูลการซื้อสินค้าต่างๆ ข้อมูลลูกค้า ฝ่ายการตลาดก็จะเก็บเรื่องโปรโมชันต่างๆ หรือฝ่ายบัญชีก็จะเก็บเรื่องการจ่ายเงินต่างๆ ซึ่งข้อมูลเหล่านี้จริงๆ แล้วมีส่วนที่เชื่อมโยงกันอยู่เช่น รหัสของลูกค้า (CustomerID)  ดังนั้นถ้าผู้บริหารอยากจะดูภาพรวมของทั้งบริษัท ทำให้ต้องดึงข้อมูลเหล่านี้มารวมกันแล้วออกเป็นรายงาน (Report) ต่างๆ ออกมา ซึ่งแต่ละครั้งก็ไม่ง่ายเพราะข้อมูลกระจัดกระจายอยู่หลายที่ และการเชื่อมโยงข้อมูลกันก็อาจจะใช้เวลา ดังนั้นจึงมีแนวคิดของ Data Warehouse ที่เก็บข้อมูลต่างๆ ไว้ตรงกลางเสียก่อน เพื่อทำให้นำไปออกเป็นรายงานได้ง่ายขึ้น แต่ข้อมูลตั้งต้นนั้นกระจัดกระจายอยู่หลายฐานข้อมูลทำให้การนำมาเก็บใน Data Warehouse เลยก็อาจจะไม่ง่าย จึงต้องมีกระบวนการที่เรียกย่อๆ ว่า ETL (Extract, Transform and Load) เพื่อทำการดึงเฉพาะข้อมูลด้าน (Dimensiont) ที่สนใจ

แจกฟรีสไลด์ส่วนการจัดการข้อมูลด้วย R

สไลด์เรื่องการจัดการข้อมูลด้วย R จากการอบรม Advanced Predictive Modeling with R & RapidMiner Studio โดยมีหัวข้อดังนี้ แนะนำ R และ RStudio โครงสร้างข้อมูลพื้นฐานใน R การอ่านไฟล์ข้อมูล การเขียนโปรแกรมภาษา R เบื้องต้น การเลือกเงื่อนไข (IF) การวนรอบ (loop) การเขียนฟังก์ชัน การสร้างกราฟด้วย R เบื้องต้น การสร้างโมเดล classification ด้วย R เบื้องต้น การติดตั้ง R Extension ใน RapidMiner

สไลด์การบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics

เมื่อวันที่ 8 มีนาคม 2560 ดาต้า คิวบ์ได้รับโอกาสไปบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics ณ คณะวิทยาศาสตร์และวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตเฉลิมพระเกียรติ จังหวัดสกลนคร ท่านใดสนใจสไลด์การบรรยายดูได้จากรูปด้านล่างนี้ได้เลยครับ Introduction to Data Mining and Big Data Analytics from Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University

หลักสูตรการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining โดยซอฟต์แวร์ RapidMiner Studio 9 (ขั้นพื้นฐานและปานกลาง) รุ่นที่ 33 (รุ่นปี 2563)

ภาพรวมของหลักสูตร โลกในยุคปัจจุบันได้ก้าวเข้าไปสู่ยุคที่เรียกว่า “Big Data” หรือ “ข้อมูลอภิมหาศาล” เนื่องจากในแต่ละวันมีข้อมูลเกิดขึ้นมากมาย อาทิเช่น ข้อมูลสมาชิกของ Facebook ข้อมูลการซื้อสินค้าจากในซุปเปอร์มาร์เกตต่างๆ และเพื่อให้เกิดประโยชน์มากที่สุดเราจำเป็นต้องนำข้อมูลอภิมหาศาลเหล่านี้มาทำการวิเคราะห์ (analyze) ซึ่งเทคนิคหนึ่งที่ได้รับการนิยมอย่างสูงในปัจจุบัน คือ เทคนิค Data Mining ซึ่งเป็นเทคนิคที่ค้นหาความสัมพันธ์ในข้อมูล เช่น ถ้าลูกค้าซื้อเบียร์แล้วลูกค้าจะซื้อผ้าอ้อมร่วมไปด้วย หรือถ้าเรากด Like หน้า Facebook page เราจะเห็นว่า Facebook มีระบบแนะนำ page อื่นๆ ที่เกี่ยวข้องมาให้ด้วย หรือ การสร้างโมเดลเพื่อทำนายสิ่งที่จะเกิดขึ้นในอนาคต เช่น ทำนายยอดขายในไตรมาสถัดไป หรือ การทำนายว่าพนักงานคนไหนที่จะลาออกจากบริษัทในช่วง 3 เดือนข้างหน้า

กระบวนการวิเคราะห์ข้อมูลด้วย CRISP-DM และตัวอย่างการประยุกต์ใช้ทางด้านการศึกษา

[บทความนี้เป็นเนื้อหาบางส่วนจากหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย)] หลังจากที่ท่านผู้อ่านได้ทำความรู้จักกับเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิงแบบต่างๆ ไปแล้ว ในบทความนี้ผมจะแนะนำกระบวนการวิเคราะห์ข้อมูลมาตรฐานซึ่งเป็นเหมือน blueprint ที่ใช้กันอย่างกว้างขวาง เช่นเดียวกันกับกระบวนการ ISO ในโรงงานอุตสาหกรรม หรือกระบวนการ CMMI ซึ่งเป็นมาตรฐานในการพัฒนาซอฟต์แวร์ กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้านดาต้า ไมน์นิงนี้ พัฒนาขึ้นในปี ค.ศ. 1996 โดยความร่วมมือกันของ 3 บริษัท คือ DaimlerChrysler SPSS และNCR กระบวนการทำงานนี้เรียกว่า “Cross-Industry Standard Process for Data Mining” หรือเรียกย่อ ว่า

สไลด์การบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics

เมื่อวันที่ 8 มีนาคม 2560 ดาต้า คิวบ์ได้รับโอกาสไปบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics ณ คณะวิทยาศาสตร์และวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตเฉลิมพระเกียรติ จังหวัดสกลนคร ท่านใดสนใจสไลด์การบรรยายดูได้จากรูปด้านล่างนี้ได้เลยครับ