ภาพด้านล่างจะแสดงให้เห็นความสัมพันธ์ของการเก็บข้อมูลและการวิเคราะห์ข้อมูลเบื้องต้นครับ 

database_datawarehouse_datamining


หลายๆ ครั้งที่ข้อมูลจะเก็บแยกส่วนกันอยู่ในฐานข้อมูลของฝ่ายต่างๆ เช่น ฝ่ายขาย ก็จะเก็บข้อมูลการซื้อสินค้าต่างๆ ข้อมูลลูกค้า ฝ่ายการตลาดก็จะเก็บเรื่องโปรโมชันต่างๆ หรือฝ่ายบัญชีก็จะเก็บเรื่องการจ่ายเงินต่างๆ ซึ่งข้อมูลเหล่านี้จริงๆ แล้วมีส่วนที่เชื่อมโยงกันอยู่เช่น รหัสของลูกค้า (CustomerID) 

ดังนั้นถ้าผู้บริหารอยากจะดูภาพรวมของทั้งบริษัท ทำให้ต้องดึงข้อมูลเหล่านี้มารวมกันแล้วออกเป็นรายงาน (Report) ต่างๆ ออกมา ซึ่งแต่ละครั้งก็ไม่ง่ายเพราะข้อมูลกระจัดกระจายอยู่หลายที่ และการเชื่อมโยงข้อมูลกันก็อาจจะใช้เวลา ดังนั้นจึงมีแนวคิดของ Data Warehouse ที่เก็บข้อมูลต่างๆ ไว้ตรงกลางเสียก่อน เพื่อทำให้นำไปออกเป็นรายงานได้ง่ายขึ้น

แต่ข้อมูลตั้งต้นนั้นกระจัดกระจายอยู่หลายฐานข้อมูลทำให้การนำมาเก็บใน Data Warehouse เลยก็อาจจะไม่ง่าย จึงต้องมีกระบวนการที่เรียกย่อๆ ว่า ETL (Extract, Transform and Load) เพื่อทำการดึงเฉพาะข้อมูลด้าน (Dimensiont) ที่สนใจ (Extract) เช่น ข้อมูลลูกค้า ข้อมูลสินค้า ข้อมูลการซื้อสินค้า และผ่านการแปลงข้อมูล (Transformation) ให้อยู่ในรูปแบบเดียวกันเสียก่อน เช่น บางฐานข้อมูลอาจจะเก็บเพศ เช่น ชายและหญิง แต่บางฐานข้อมูลอาจจะเป็น M และ F หลังจากนั้นจึงใส่เข้าไป (Load) ใน Data Warehouse

หลังจากที่มีข้อมูลใน Data Warehouse ก็สามารถนำมาออกเป็นรายงานหรือ Dashboard ต่างๆ ได้ อีกส่วนหนึ่งก็นำไปวิเคราะห์ในเชิงลึก (Advanced Analytics) ไม่ว่าจะเป็น Data Mining หรือ Machine Learning เพื่อสร้างโมเดลหรือหา insight ของข้อมูลให้ได้

หลายๆ ครั้งเราอาจจะมองการวิเคราะห์ทั้ง 2 ส่วนนี้แยกออกจากกันแต่จริงๆ แล้วเป็นการทำงานที่เสริมกัน หลังจากที่ทำการวิเคราะห์ข้อมูลได้แล้วก็ต้องมาแสดงผลในรายงานหรือเป็น dashboard เพื่อให้ได้ดูข้อมูลได้ในหลายๆ มุมมอง

#ความเห็นส่วนตัว
ผมเชื่อว่าการเริ่มต้นทำ Data Analytics ไม่ได้มีแค่ทางเดียว ไม่จำเป็นต้องเริ่มจาการเรียนรู้ SQL หรือเขียนโปรแกรม Python ได้ แต่เราสามารถเลือกได้ว่าเราจะเริ่มจากส่วนไหนที่เราถนัดได้ครับ ^^

การเก็บข้อมูลสำหรับทำ Data Analytics
Tagged on:             

Leave a Reply

Your email address will not be published. Required fields are marked *