Data Mining Exercise 2
An overview of Data Mining (DM), its techniques, applications, and challenges.
Warning
This article is a work in progress and may contain incomplete information or inaccuracies. Please verify details from reliable sources.
Data Mining Exercise 2
📥 การจำลองข้อมูล (Simulation Scenario)
สถานการณ์: เรากำลังวัด "อัตราการเต้นของหัวใจ (Heart Rate)" ของคน 5 คน โดยใช้ Smartwatch
💓 ค่าปกติ (Normal Behavior)
คนทั่วไปขณะนั่งพัก หัวใจเต้นประมาณ 60-100 bpm (ครั้งต่อนาที)
📊 ### 📊 ชุดข้อมูล (Dataset):
| ID | ค่าที่วัดได้ (Observed Value) | ความจริง (True Value) | สาเหตุ (Context) | สถานะ (Status) |
|---|---|---|---|---|
| P1 | 72 | 72 | นั่งพักปกติ | ✅ Normal Data |
| P2 | 75 | 70 | นั่งพัก แต่ขยับแขนนิดหน่อย (+5 error) | ⚠️ Normal + Small Noise |
| P3 | 185 | 185 | กำลังวิ่งหนีสุนัข (เหนื่อยจริง) | 🔵 Valid Outlier (ค่าโดดที่จริง) |
| P4 | 350 | 70 | เซนเซอร์ช็อต/รวน (Random Error) | ❌ Noise as Outlier (ค่าโดดจาก Error) |
| P5 | 70 | 180 | วิ่งอยู่ แต่นาฬิกาหลวม (-110 error) | 🔴 Valid Data masked by Noise |
1. 🔍 แยกความแตกต่างระหว่าง Noise และ Outliers
📢 Noise (สัญญาณรบกวน)
คำนิยาม
Noise คือ "ความผิดพลาด" (Error) หรือความแปรปรวนแบบสุ่ม (Random variance) ของข้อมูล มันคือส่วนเกินที่เราไม่ต้องการ มันบิดเบือนค่าความจริง
ในตาราง: คือค่า +5 ของ P2, ค่า 350 ของ P4, และค่า -110 ของ P5
🎯 Outliers (ข้อมูลที่ผิดปกติ/ค่าโดด)
คำนิยาม
Outliers คือ "วัตถุข้อมูล" (Data Object) ที่มีลักษณะแตกต่างไปจากกลุ่มข้อมูลส่วนใหญ่อย่างชัดเจน (โดยดูจากค่าที่วัดออกมา)
ในตาราง: คือ P3 (185) และ P4 (350) เพราะมันโดดออกจากกลุ่มคนนั่งพัก (60-100) ไปไกลมาก
1.1 Noise เป็นสิ่งที่น่าสนใจหรือเป็นประโยชน์ไหม? คำตอบ: โดยทั่วไป "ไม่น่าสนใจและไม่เป็นประโยชน์" ในมุมมองของการวิเคราะห์ข้อมูล (Data Analysis)
อธิบายจากข้อมูล: ดู P2 (75) และ P4 (350) ค่า Error ที่เกิดขึ้น (+5 หรือ +280) ไม่ได้บอกพฤติกรรมลูกค้า หรือสุขภาพจริงๆ มันเป็นแค่อุปสรรคที่ทำให้เราวิเคราะห์ยากขึ้น
ข้อยกเว้น: Noise จะน่าสนใจก็ต่อเมื่อคุณเป็น "วิศวกรผู้ออกแบบ Sensor" ที่ต้องการศึกษา Noise เพื่อปรับปรุงคุณภาพอุปกรณ์ครับ
1.2 ❓ Outliers เป็นสิ่งที่น่าสนใจหรือเป็นประโยชน์ไหม?
คำตอบ: "เป็นไปได้ทั้งสองอย่าง" (ขึ้นอยู่กับบริบท)
🔴 กรณีที่ไม่เป็นประโยชน์:
P4 (350): เป็น Outlier ที่เกิดจาก Noise → ไม่เป็นประโยชน์ (ต้องกำจัดทิ้ง)
✅ กรณีที่เป็นประโยชน์:
P3 (185): เป็น Outlier ที่เป็นค่าจริง (วิ่งหนีสุนัข) → น่าสนใจและเป็นประโยชน์มาก
🎯 นี่คือหัวใจของ Data Mining!
ในงานบางประเภท Outliers คือสิ่งที่เราตามหา:
- 🔐 Fraud Detection: การรูดบัตรเครดิตยอดสูงผิดปกติ (Outlier) คือสิ่งที่เราตามหา
- 🏥 Medical: ค่าเลือดที่สูงผิดปกติ อาจบ่งบอกโรคได้
1.3 ❓ วัตถุที่เป็น Noise สามารถเป็น Outliers ได้หรือไม่?
คำตอบ: "ได้"
อธิบายจากข้อมูล:
- ดู P4 (
350) - ค่าความจริงคือ
70แต่ Noise (ความผิดพลาดของเซนเซอร์) ทำให้ค่าพุ่งไปเป็น350 - ซึ่งค่า
350นี้ถือเป็น Outlier เมื่อเทียบกับเพื่อนๆ
1.4 ❓ วัตถุที่เป็น Noise เป็น Outliers เสมอหรือไม่?
คำตอบ: "ไม่เสมอไป" (Noise เล็กน้อย ไม่ทำให้เป็น Outlier)
อธิบายจากข้อมูล:
- ดู P2 (
75) - ค่าความจริงคือ
70แต่มี Noise+5เข้ามา - ข้อมูลก็ยังเป็น
75ซึ่งยังอยู่ในเกณฑ์ปกติ (60-100) - P2 มี Noise แต่ P2 ไม่ใช่ Outlier
1.5 ❓ Outliers เป็นวัตถุที่เป็น Noise เสมอหรือไม่?
คำตอบ: "ไม่เสมอไป" (Outliers ที่เป็นของจริงมีอยู่)
อธิบายจากข้อมูล:
- ดู P3 (
185) - ค่านี้โดดออกมาจากกลุ่มมาก (เป็น Outlier)
- แต่ไม่ใช่ Noise เพราะเขาหัวใจเต้นแรงจริงๆ (Valid Data)
1.6 ❓ Noise สามารถทำให้ข้อมูลที่ถูกต้องกลายเป็นข้อมูลที่ผิดปกติได้หรือไม่? หรือทำให้ข้อมูลที่ผิดปกติเป็นข้อมูลปกติได้หรือไม่?
คำตอบ: "ได้ทั้งสองอย่าง" นี่คือความน่ากลัวของ Noise!
🔴 กรณี A: ทำให้ข้อมูลที่ถูกต้อง → กลายเป็นข้อมูลที่ผิดปกติ (Normal → Abnormal/Outlier)
ดู P4:
เดิม: ค่านั่งพัก 70 (ปกติ)
+
Noise: เซนเซอร์รวน
=
ผลลัพธ์: 350 (ผิดปกติ/Outlier)⚠️ ผลเสีย
เกิด False Alarm (นาฬิกาเตือนว่าหัวใจวาย ทั้งที่แค่นั่งเฉยๆ)
🔵 กรณี B: ทำให้ข้อมูลที่ผิดปกติ → กลายเป็นข้อมูลปกติ (Abnormal/Outlier → Normal)
ดู P5:
เดิม: วิ่งเหนื่อย 180 (ผิดปกติ/Outlier)
+
Noise: นาฬิกาหลวมจับไม่ติด (-110)
=
ผลลัพธ์: 70 (ปกติ)⚠️ ผลเสีย
เกิด Missed Detection (คนไข้หัวใจเต้นผิดจังหวะรุนแรง แต่นาฬิกาบอกว่าปกติ หมอเลยวินิจฉัยพลาด)
📝 สรุปความแตกต่าง (Key Takeaway)
| แนวคิด | คำนิยาม |
|---|---|
| Noise | "ส่วนประกอบส่วนเกิน" (Error component) ที่แทรกอยู่ในค่าข้อมูล |
| Outlier | "สถานะของข้อมูล" (Data point status) ที่อยู่ห่างไกลจากเพื่อน |
🔄 ในกระบวนการ KDD Process:
-
เราพยายาม กำจัด Noise ออก
- ในขั้น Preprocessing
- เช่นใช้ Smoothing เพื่อให้ข้อมูลสะอาด
-
จากนั้นเราจึงมาตัดสินใจว่า Outlier ที่เหลืออยู่
- เช่น P3 คือขยะที่ต้องทิ้ง?
- หรือคือทองคำ (Knowledge) ที่เราต้องขุด? 💎