Data Mining Exercise 2

An overview of Data Mining (DM), its techniques, applications, and challenges.

Warning

This article is a work in progress and may contain incomplete information or inaccuracies. Please verify details from reliable sources.

Data Mining Exercise 2

📥 การจำลองข้อมูล (Simulation Scenario)

สถานการณ์: เรากำลังวัด "อัตราการเต้นของหัวใจ (Heart Rate)" ของคน 5 คน โดยใช้ Smartwatch

💓 ค่าปกติ (Normal Behavior)

คนทั่วไปขณะนั่งพัก หัวใจเต้นประมาณ 60-100 bpm (ครั้งต่อนาที)

📊 ### 📊 ชุดข้อมูล (Dataset):

IDค่าที่วัดได้ (Observed Value)ความจริง (True Value)สาเหตุ (Context)สถานะ (Status)
P17272นั่งพักปกติ✅ Normal Data
P27570นั่งพัก แต่ขยับแขนนิดหน่อย (+5 error)⚠️ Normal + Small Noise
P3185185กำลังวิ่งหนีสุนัข (เหนื่อยจริง)🔵 Valid Outlier (ค่าโดดที่จริง)
P435070เซนเซอร์ช็อต/รวน (Random Error)❌ Noise as Outlier (ค่าโดดจาก Error)
P570180วิ่งอยู่ แต่นาฬิกาหลวม (-110 error)🔴 Valid Data masked by Noise

1. 🔍 แยกความแตกต่างระหว่าง Noise และ Outliers

📢 Noise (สัญญาณรบกวน)

คำนิยาม

Noise คือ "ความผิดพลาด" (Error) หรือความแปรปรวนแบบสุ่ม (Random variance) ของข้อมูล มันคือส่วนเกินที่เราไม่ต้องการ มันบิดเบือนค่าความจริง

ในตาราง: คือค่า +5 ของ P2, ค่า 350 ของ P4, และค่า -110 ของ P5

🎯 Outliers (ข้อมูลที่ผิดปกติ/ค่าโดด)

คำนิยาม

Outliers คือ "วัตถุข้อมูล" (Data Object) ที่มีลักษณะแตกต่างไปจากกลุ่มข้อมูลส่วนใหญ่อย่างชัดเจน (โดยดูจากค่าที่วัดออกมา)

ในตาราง: คือ P3 (185) และ P4 (350) เพราะมันโดดออกจากกลุ่มคนนั่งพัก (60-100) ไปไกลมาก


1.1 Noise เป็นสิ่งที่น่าสนใจหรือเป็นประโยชน์ไหม? คำตอบ: โดยทั่วไป "ไม่น่าสนใจและไม่เป็นประโยชน์" ในมุมมองของการวิเคราะห์ข้อมูล (Data Analysis)

อธิบายจากข้อมูล: ดู P2 (75) และ P4 (350) ค่า Error ที่เกิดขึ้น (+5 หรือ +280) ไม่ได้บอกพฤติกรรมลูกค้า หรือสุขภาพจริงๆ มันเป็นแค่อุปสรรคที่ทำให้เราวิเคราะห์ยากขึ้น

ข้อยกเว้น: Noise จะน่าสนใจก็ต่อเมื่อคุณเป็น "วิศวกรผู้ออกแบบ Sensor" ที่ต้องการศึกษา Noise เพื่อปรับปรุงคุณภาพอุปกรณ์ครับ

1.2 ❓ Outliers เป็นสิ่งที่น่าสนใจหรือเป็นประโยชน์ไหม?

คำตอบ: "เป็นไปได้ทั้งสองอย่าง" (ขึ้นอยู่กับบริบท)

🔴 กรณีที่ไม่เป็นประโยชน์:

P4 (350): เป็น Outlier ที่เกิดจาก Noise → ไม่เป็นประโยชน์ (ต้องกำจัดทิ้ง)

✅ กรณีที่เป็นประโยชน์:

P3 (185): เป็น Outlier ที่เป็นค่าจริง (วิ่งหนีสุนัข) → น่าสนใจและเป็นประโยชน์มาก

🎯 นี่คือหัวใจของ Data Mining!

ในงานบางประเภท Outliers คือสิ่งที่เราตามหา:

  • 🔐 Fraud Detection: การรูดบัตรเครดิตยอดสูงผิดปกติ (Outlier) คือสิ่งที่เราตามหา
  • 🏥 Medical: ค่าเลือดที่สูงผิดปกติ อาจบ่งบอกโรคได้

1.3 ❓ วัตถุที่เป็น Noise สามารถเป็น Outliers ได้หรือไม่?

คำตอบ: "ได้"

อธิบายจากข้อมูล:

  • ดู P4 (350)
  • ค่าความจริงคือ 70 แต่ Noise (ความผิดพลาดของเซนเซอร์) ทำให้ค่าพุ่งไปเป็น 350
  • ซึ่งค่า 350 นี้ถือเป็น Outlier เมื่อเทียบกับเพื่อนๆ

1.4 ❓ วัตถุที่เป็น Noise เป็น Outliers เสมอหรือไม่?

คำตอบ: "ไม่เสมอไป" (Noise เล็กน้อย ไม่ทำให้เป็น Outlier)

อธิบายจากข้อมูล:

  • ดู P2 (75)
  • ค่าความจริงคือ 70 แต่มี Noise +5 เข้ามา
  • ข้อมูลก็ยังเป็น 75 ซึ่งยังอยู่ในเกณฑ์ปกติ (60-100)
  • P2 มี Noise แต่ P2 ไม่ใช่ Outlier

1.5 ❓ Outliers เป็นวัตถุที่เป็น Noise เสมอหรือไม่?

คำตอบ: "ไม่เสมอไป" (Outliers ที่เป็นของจริงมีอยู่)

อธิบายจากข้อมูล:

  • ดู P3 (185)
  • ค่านี้โดดออกมาจากกลุ่มมาก (เป็น Outlier)
  • แต่ไม่ใช่ Noise เพราะเขาหัวใจเต้นแรงจริงๆ (Valid Data)

1.6 ❓ Noise สามารถทำให้ข้อมูลที่ถูกต้องกลายเป็นข้อมูลที่ผิดปกติได้หรือไม่? หรือทำให้ข้อมูลที่ผิดปกติเป็นข้อมูลปกติได้หรือไม่?

คำตอบ: "ได้ทั้งสองอย่าง" นี่คือความน่ากลัวของ Noise!

🔴 กรณี A: ทำให้ข้อมูลที่ถูกต้อง → กลายเป็นข้อมูลที่ผิดปกติ (Normal → Abnormal/Outlier)

ดู P4:

เดิม: ค่านั่งพัก 70 (ปกติ)
  +
Noise: เซนเซอร์รวน
  =
ผลลัพธ์: 350 (ผิดปกติ/Outlier)

⚠️ ผลเสีย

เกิด False Alarm (นาฬิกาเตือนว่าหัวใจวาย ทั้งที่แค่นั่งเฉยๆ)

🔵 กรณี B: ทำให้ข้อมูลที่ผิดปกติ → กลายเป็นข้อมูลปกติ (Abnormal/Outlier → Normal)

ดู P5:

เดิม: วิ่งเหนื่อย 180 (ผิดปกติ/Outlier)
  +
Noise: นาฬิกาหลวมจับไม่ติด (-110)
  =
ผลลัพธ์: 70 (ปกติ)

⚠️ ผลเสีย

เกิด Missed Detection (คนไข้หัวใจเต้นผิดจังหวะรุนแรง แต่นาฬิกาบอกว่าปกติ หมอเลยวินิจฉัยพลาด)


📝 สรุปความแตกต่าง (Key Takeaway)

แนวคิดคำนิยาม
Noise"ส่วนประกอบส่วนเกิน" (Error component) ที่แทรกอยู่ในค่าข้อมูล
Outlier"สถานะของข้อมูล" (Data point status) ที่อยู่ห่างไกลจากเพื่อน

🔄 ในกระบวนการ KDD Process:

  1. เราพยายาม กำจัด Noise ออก

    • ในขั้น Preprocessing
    • เช่นใช้ Smoothing เพื่อให้ข้อมูลสะอาด
  2. จากนั้นเราจึงมาตัดสินใจว่า Outlier ที่เหลืออยู่

    • เช่น P3 คือขยะที่ต้องทิ้ง?
    • หรือคือทองคำ (Knowledge) ที่เราต้องขุด? 💎
📝 Edit this page on GitHub

On this page

Data Mining Exercise 2📥 การจำลองข้อมูล (Simulation Scenario)📊 ### 📊 ชุดข้อมูล (Dataset):1. 🔍 แยกความแตกต่างระหว่าง Noise และ Outliers📢 Noise (สัญญาณรบกวน)🎯 Outliers (ข้อมูลที่ผิดปกติ/ค่าโดด)1.2 ❓ Outliers เป็นสิ่งที่น่าสนใจหรือเป็นประโยชน์ไหม?🔴 กรณีที่ไม่เป็นประโยชน์:✅ กรณีที่เป็นประโยชน์:1.3 ❓ วัตถุที่เป็น Noise สามารถเป็น Outliers ได้หรือไม่?1.4 ❓ วัตถุที่เป็น Noise เป็น Outliers เสมอหรือไม่?1.5 ❓ Outliers เป็นวัตถุที่เป็น Noise เสมอหรือไม่?1.6 ❓ Noise สามารถทำให้ข้อมูลที่ถูกต้องกลายเป็นข้อมูลที่ผิดปกติได้หรือไม่? หรือทำให้ข้อมูลที่ผิดปกติเป็นข้อมูลปกติได้หรือไม่?🔴 กรณี A: ทำให้ข้อมูลที่ถูกต้อง → กลายเป็นข้อมูลที่ผิดปกติ (Normal → Abnormal/Outlier)🔵 กรณี B: ทำให้ข้อมูลที่ผิดปกติ → กลายเป็นข้อมูลปกติ (Abnormal/Outlier → Normal)📝 สรุปความแตกต่าง (Key Takeaway)🔄 ในกระบวนการ KDD Process: