Data Mining Exercise 0

An overview of Data Mining (DM), its techniques, applications, and challenges.

Warning

This article is a work in progress and may contain incomplete information or inaccuracies. Please verify details from reliable sources.

Data Mining Exercise 0

1. 🎯 Data Selection (การคัดเลือกข้อมูล)

คือการเลือก "วัตถุดิบ" ที่เราจะใช้ ไม่ใช่ทุกข้อมูลในฐานข้อมูลจะจำเป็นเสมอไป

สิ่งที่ทำ:

  • ดึงข้อมูลจาก Database, Data Warehouse หรือไฟล์ต่างๆ
  • เลือกเฉพาะส่วนที่เกี่ยวข้องกับโจทย์ที่เราตั้งไว้

💡 ตัวอย่าง

ถ้าจะวิเคราะห์ "ยอดขายกาแฟ" เราก็ดึงข้อมูลบิลขาย แต่ไม่ต้องดึงข้อมูล "ทะเบียนรถพนักงาน" มาใช้

2. 🧹 Data Preprocessing (การเตรียมและทำความสะอาดข้อมูล)

⚡ ข้อสำคัญ

ขั้นตอนนี้สำคัญที่สุด (ใช้เวลา 60-80% ของงาน) คือการล้างและเตรียมวัตถุดิบให้พร้อมปรุง

ขั้นตอนย่อย:

🧽 Data Cleaning

จัดการกับ Noise (ข้อมูลเพี้ยน) และ Missing Values (ข้อมูลแหว่ง)

🔗 Data Integration

รวมข้อมูลจากหลายแหล่ง (เช่น ไฟล์ Excel ยอดขาย + ฐานข้อมูลลูกค้า SQL) ให้เป็นก้อนเดียวกัน

🔄 Data Transformation/Normalization

ปรับรูปแบบข้อมูล เช่น:

  • แปลงข้อมูลให้อยู่ในช่วง 0-1 (Min-Max)
  • แปลงข้อความให้เป็นตัวเลข

🎯 Feature Selection/Reduction

เลือกเฉพาะคอลัมน์ที่สำคัญ ตัดสิ่งที่ไม่จำเป็นออกเพื่อลดขนาดข้อมูล

3. ⛏️ Data Mining (การขุดค้นข้อมูล)

คือขั้นตอน "การปรุงอาหาร" หรือหัวใจหลักที่เราใช้ Algorithm เข้ามาจับ

สิ่งที่ทำ:

เลือกโมเดลทางคณิตศาสตร์ที่เหมาะสมกับโจทย์

เทคนิคที่ใช้:

  • 📊 Classification: ทำนายกลุ่ม

    • ตัวอย่าง: ลูกค้าจะเลิก/ไม่เลิก
  • 🎨 Clustering: จัดกลุ่ม

    • ตัวอย่าง: แบ่งกลุ่มลูกค้าตามพฤติกรรม
  • 🔗 Association: หาความสัมพันธ์

    • ตัวอย่าง: คนซื้อเบียร์มักซื้อผ้าอ้อม

4. 🔍 Pattern Evaluation / Postprocessing (การประเมินและกลั่นกรองผลลัพธ์)

เมื่อปรุงเสร็จ เราต้อง "ชิม" และ "จัดจาน" ไม่ใช่ทุก Pattern ที่ขุดเจอจะมีประโยชน์

ขั้นตอน:

🧪 Filtering

คัดกรองกฎที่ซ้ำซ้อน หรือกฎที่เรารู้อยู่แล้ว (Trivial) ออกไป

📈 Visualization

แปลงตัวเลขผลลัพธ์ให้เป็น:

  • กราฟ
  • แผนภาพ (เช่น Decision Tree Diagram)
  • เพื่อให้ดูง่าย

💬 Interpretation

แปลความหมายทางคณิตศาสตร์ให้เป็นภาษาธุรกิจ

5. 🎁 Knowledge Presentation (การนำเสนอความรู้)

คือ "จานอาหารที่พร้อมเสิร์ฟ"

สิ่งที่ได้:

✨ ความรู้ที่นำไปใช้ได้จริง

ไม่ใช่แค่ข้อมูล (Data) หรือสารสนเทศ (Information) แต่คือ ความรู้ (Knowledge) ที่นำไปตัดสินใจได้จริง (Actionable Insights)

💡 ตัวอย่าง:

"เราควรจัดโปรโมชั่นลดราคาแป้งทำขนม ในช่วงเย็นวันศุกร์ เพราะกลุ่มแม่บ้านมักจะมาซื้อคู่กับนมสด"


📝 สรุปสั้นๆ ให้จำได้ขึ้นใจ

ขั้นตอนคำอธิบายAnalogy
1️⃣ Selectionคัดเลือกข้อมูลเลือกของ
2️⃣ Preprocessingเตรียมและทำความสะอาดล้าง/หั่น
3️⃣ Miningขุดค้น Patternปรุง
4️⃣ Evaluationประเมินและกลั่นกรองชิม/จัดจาน
5️⃣ Knowledgeนำเสนอความรู้อาหารอร่อย 🍽️
📝 Edit this page on GitHub