Warning

This article is a work in progress and may contain incomplete information or inaccuracies. Please verify details from reliable sources.

Data Mining Exercise 2

📥 การจำลองข้อมูล (Simulation Scenario)

สถานการณ์: เรากำลังวัด "อัตราการเต้นของหัวใจ (Heart Rate)" ของคน 5 คน โดยใช้ Smartwatch

💓 ค่าปกติ (Normal Behavior)

คนทั่วไปขณะนั่งพัก หัวใจเต้นประมาณ 60-100 bpm (ครั้งต่อนาที)

📊 ### 📊 ชุดข้อมูล (Dataset):

ID	ค่าที่วัดได้ (Observed Value)	ความจริง (True Value)	สาเหตุ (Context)	สถานะ (Status)
P1	72	72	นั่งพักปกติ	✅ Normal Data
P2	75	70	นั่งพัก แต่ขยับแขนนิดหน่อย (+5 error)	⚠️ Normal + Small Noise
P3	185	185	กำลังวิ่งหนีสุนัข (เหนื่อยจริง)	🔵 Valid Outlier (ค่าโดดที่จริง)
P4	350	70	เซนเซอร์ช็อต/รวน (Random Error)	❌ Noise as Outlier (ค่าโดดจาก Error)
P5	70	180	วิ่งอยู่ แต่นาฬิกาหลวม (-110 error)	🔴 Valid Data masked by Noise

1. 🔍 แยกความแตกต่างระหว่าง Noise และ Outliers

📢 Noise (สัญญาณรบกวน)

คำนิยาม

Noise คือ "ความผิดพลาด" (Error) หรือความแปรปรวนแบบสุ่ม (Random variance) ของข้อมูล มันคือส่วนเกินที่เราไม่ต้องการ มันบิดเบือนค่าความจริง

ในตาราง: คือค่า +5 ของ P2, ค่า 350 ของ P4, และค่า -110 ของ P5

🎯 Outliers (ข้อมูลที่ผิดปกติ/ค่าโดด)

คำนิยาม

Outliers คือ "วัตถุข้อมูล" (Data Object) ที่มีลักษณะแตกต่างไปจากกลุ่มข้อมูลส่วนใหญ่อย่างชัดเจน (โดยดูจากค่าที่วัดออกมา)

ในตาราง: คือ P3 (185) และ P4 (350) เพราะมันโดดออกจากกลุ่มคนนั่งพัก (60-100) ไปไกลมาก

1.1 Noise เป็นสิ่งที่น่าสนใจหรือเป็นประโยชน์ไหม? คำตอบ: โดยทั่วไป "ไม่น่าสนใจและไม่เป็นประโยชน์" ในมุมมองของการวิเคราะห์ข้อมูล (Data Analysis)

อธิบายจากข้อมูล: ดู P2 (75) และ P4 (350) ค่า Error ที่เกิดขึ้น (+5 หรือ +280) ไม่ได้บอกพฤติกรรมลูกค้า หรือสุขภาพจริงๆ มันเป็นแค่อุปสรรคที่ทำให้เราวิเคราะห์ยากขึ้น

ข้อยกเว้น: Noise จะน่าสนใจก็ต่อเมื่อคุณเป็น "วิศวกรผู้ออกแบบ Sensor" ที่ต้องการศึกษา Noise เพื่อปรับปรุงคุณภาพอุปกรณ์ครับ

ในงานบางประเภท Outliers คือสิ่งที่เราตามหา:

🔐 Fraud Detection: การรูดบัตรเครดิตยอดสูงผิดปกติ (Outlier) คือสิ่งที่เราตามหา
🏥 Medical: ค่าเลือดที่สูงผิดปกติ อาจบ่งบอกโรคได้

1.3 ❓ วัตถุที่เป็น Noise สามารถเป็น Outliers ได้หรือไม่?

คำตอบ: "ได้"

อธิบายจากข้อมูล:

ดู P4 (350)
ค่าความจริงคือ 70 แต่ Noise (ความผิดพลาดของเซนเซอร์) ทำให้ค่าพุ่งไปเป็น 350
ซึ่งค่า 350 นี้ถือเป็น Outlier เมื่อเทียบกับเพื่อนๆ

1.4 ❓ วัตถุที่เป็น Noise เป็น Outliers เสมอหรือไม่?

คำตอบ: "ไม่เสมอไป" (Noise เล็กน้อย ไม่ทำให้เป็น Outlier)

อธิบายจากข้อมูล:

ดู P2 (75)
ค่าความจริงคือ 70 แต่มี Noise +5 เข้ามา
ข้อมูลก็ยังเป็น 75 ซึ่งยังอยู่ในเกณฑ์ปกติ (60-100)
P2 มี Noise แต่ P2 ไม่ใช่ Outlier

1.5 ❓ Outliers เป็นวัตถุที่เป็น Noise เสมอหรือไม่?

คำตอบ: "ไม่เสมอไป" (Outliers ที่เป็นของจริงมีอยู่)

อธิบายจากข้อมูล:

ดู P3 (185)
ค่านี้โดดออกมาจากกลุ่มมาก (เป็น Outlier)
แต่ไม่ใช่ Noise เพราะเขาหัวใจเต้นแรงจริงๆ (Valid Data)

1.6 ❓ Noise สามารถทำให้ข้อมูลที่ถูกต้องกลายเป็นข้อมูลที่ผิดปกติได้หรือไม่? หรือทำให้ข้อมูลที่ผิดปกติเป็นข้อมูลปกติได้หรือไม่?

คำตอบ: "ได้ทั้งสองอย่าง" นี่คือความน่ากลัวของ Noise!

🔴 กรณี A: ทำให้ข้อมูลที่ถูกต้อง → กลายเป็นข้อมูลที่ผิดปกติ (Normal → Abnormal/Outlier)

ดู P4:

เดิม: ค่านั่งพัก 70 (ปกติ)
  +
Noise: เซนเซอร์รวน
  =
ผลลัพธ์: 350 (ผิดปกติ/Outlier)

⚠️ ผลเสีย

เกิด False Alarm (นาฬิกาเตือนว่าหัวใจวาย ทั้งที่แค่นั่งเฉยๆ)

🔵 กรณี B: ทำให้ข้อมูลที่ผิดปกติ → กลายเป็นข้อมูลปกติ (Abnormal/Outlier → Normal)

ดู P5:

เดิม: วิ่งเหนื่อย 180 (ผิดปกติ/Outlier)
  +
Noise: นาฬิกาหลวมจับไม่ติด (-110)
  =
ผลลัพธ์: 70 (ปกติ)

⚠️ ผลเสีย

เกิด Missed Detection (คนไข้หัวใจเต้นผิดจังหวะรุนแรง แต่นาฬิกาบอกว่าปกติ หมอเลยวินิจฉัยพลาด)

📝 สรุปความแตกต่าง (Key Takeaway)

แนวคิด	คำนิยาม
Noise	"ส่วนประกอบส่วนเกิน" (Error component) ที่แทรกอยู่ในค่าข้อมูล
Outlier	"สถานะของข้อมูล" (Data point status) ที่อยู่ห่างไกลจากเพื่อน

🔄 ในกระบวนการ KDD Process:

เราพยายาม กำจัด Noise ออก
- ในขั้น Preprocessing
- เช่นใช้ Smoothing เพื่อให้ข้อมูลสะอาด
จากนั้นเราจึงมาตัดสินใจว่า Outlier ที่เหลืออยู่
- เช่น P3 คือขยะที่ต้องทิ้ง?
- หรือคือทองคำ (Knowledge) ที่เราต้องขุด? 💎

📝 Edit this page on GitHub

Data Mining Exercise 2

Data Mining Exercise 2

📥 การจำลองข้อมูล (Simulation Scenario)

📊 ### 📊 ชุดข้อมูล (Dataset):

1. 🔍 แยกความแตกต่างระหว่าง Noise และ Outliers

📢 Noise (สัญญาณรบกวน)

🎯 Outliers (ข้อมูลที่ผิดปกติ/ค่าโดด)

1.2 ❓ Outliers เป็นสิ่งที่น่าสนใจหรือเป็นประโยชน์ไหม?

🔴 กรณีที่ไม่เป็นประโยชน์:

✅ กรณีที่เป็นประโยชน์:

1.3 ❓ วัตถุที่เป็น Noise สามารถเป็น Outliers ได้หรือไม่?

1.4 ❓ วัตถุที่เป็น Noise เป็น Outliers เสมอหรือไม่?

1.5 ❓ Outliers เป็นวัตถุที่เป็น Noise เสมอหรือไม่?

🔴 กรณี A: ทำให้ข้อมูลที่ถูกต้อง → กลายเป็นข้อมูลที่ผิดปกติ (Normal → Abnormal/Outlier)

🔵 กรณี B: ทำให้ข้อมูลที่ผิดปกติ → กลายเป็นข้อมูลปกติ (Abnormal/Outlier → Normal)

📝 สรุปความแตกต่าง (Key Takeaway)

🔄 ในกระบวนการ KDD Process:

On this page