Data Mining Exercise 12

ภาพรวมการใช้ Model จาก Synthetic Data Sets (Decision Tree, Naive Bayes, k-NN)

ภาพรวมการใช้ Model จาก Synthetic Data Sets (Decision Tree, Naive Bayes, k-NN)

อ้างอิงจากลักษณะข้อมูลในภาพ (a)-(f) เป้าหมาย: ต่อ 1 data set อธิบายให้ครบทั้ง 3 อัลกอริทึมว่าเหมาะ/ไม่เหมาะเพราะอะไร


สรุปสั้นมาก (เลือกตัวเด่นต่อชุด)

  • (a) เด่น: Decision Tree
  • (b) เด่น: Naive Bayes
  • (c) เด่น: Naive Bayes
  • (d) เด่น: k-NN
  • (e) เด่น: k-NN
  • (f) เด่น: k-NN

(a) Synthetic data set 1

ลักษณะข้อมูล: มี distinguishing attribute เด่น 1 ตัว และมี noise attributes จำนวนมาก

Decision Tree

  • เหมาะ: เลือก split ที่แยกคลาสได้ดีที่สุดจาก attribute สำคัญตัวเดียวได้เร็ว
  • ไม่เหมาะ: ถ้าต้นไม้ลึกเกินไปอาจไปกิน noise แล้ว overfit

Naive Bayes

  • เหมาะ: เทรนเร็วและทำงานได้กับข้อมูลมิติสูง
  • ไม่เหมาะ: เมื่อ noise attributes เยอะมาก โอกาสคูณความน่าจะเป็นจาก feature ที่ไม่ช่วยอาจทำให้สัญญาณหลักถูกกลบ

k-NN

  • เหมาะ: ถ้าข้อมูลมิติน้อยและ noise ต่ำ
  • ไม่เหมาะ: กรณีนี้ noise เยอะ -> ระยะทางถูกครอบงำโดยมิติที่ไม่สำคัญ (curse of dimensionality)

ข้อสรุปชุด (a): Decision Tree มักเหมาะสุด


(b) Synthetic data set 2

ลักษณะข้อมูล: มี distinguishing attributes หลายตัวช่วยกันบอกคลาส แต่ยังมี noise ปะปน

Decision Tree

  • เหมาะ: ถ้าโครงสร้างแยกคลาสได้ด้วย split เป็นลำดับชัดเจน
  • ไม่เหมาะ: ถ้าแต่ละ feature เดี่ยวๆ อ่อน แต่ต้องใช้หลาย feature ร่วมกัน ต้นไม้อาจเลือก split ไม่เสถียร

Naive Bayes

  • เหมาะ: เด่นมากเมื่อมี weak predictors หลายตัว เพราะรวมหลักฐานจากหลาย attribute พร้อมกันได้ดี
  • ไม่เหมาะ: ถ้า features พึ่งพากันแรงมาก (ละเมิด independence assumption)

k-NN

  • เหมาะ: ถ้าระยะทางสะท้อนความใกล้จริง
  • ไม่เหมาะ: มิติสูง + noise ทำให้เพื่อนบ้านใกล้สุดไม่น่าเชื่อถือ

ข้อสรุปชุด (b): Naive Bayes มักเหมาะสุด


(c) Synthetic data set 3

ลักษณะข้อมูล: มี distinguishing attributes 2 ตัวที่แต่ละตัวแยกได้ไม่เด็ดขาด (เช่น 60/40) แต่เมื่อใช้ร่วมกันดีขึ้น

Decision Tree

  • เหมาะ: พอใช้ได้ถ้าแตกกิ่งหลายชั้น
  • ไม่เหมาะ: split เดี่ยวไม่ pure มาก ทำให้ต้นไม้เสี่ยงซับซ้อน/ไม่เสถียร

Naive Bayes

  • เหมาะ: เหมาะมาก เพราะรวม evidence จากหลาย attribute ได้ตรงโจทย์
  • ไม่เหมาะ: ถ้า 2 feature นี้สัมพันธ์กันแรงมาก ผลอาจเพี้ยน

k-NN

  • เหมาะ: ถ้าจำนวนมิติน้อยและสเกลเหมาะสม
  • ไม่เหมาะ: ถ้ามี noise attributes เพิ่ม ระยะทางจะเสื่อมคุณภาพทันที

ข้อสรุปชุด (c): Naive Bayes มักเหมาะสุด


(d) Synthetic data set 4

ลักษณะข้อมูล: รูปแบบคล้าย checkerboard/สลับคลาสเป็นช่องๆ ตามแกน X-Y

Decision Tree

  • เหมาะ: พอทำได้ด้วย axis-aligned splits
  • ไม่เหมาะ: ต้องใช้ split จำนวนมาก -> ต้นไม้ใหญ่และ overfit ง่าย

Naive Bayes

  • เหมาะ: เมื่อขอบเขตคลาสเรียบง่ายและสมมติฐานไม่ถูกละเมิดมาก
  • ไม่เหมาะ: รูปแบบสลับช่องต้องอาศัย interaction สูง (ลักษณะคล้าย XOR) ซึ่ง Naive Bayes จับยาก

k-NN

  • เหมาะ: เด่นมาก เพราะใช้ local neighborhood จับ boundary ซับซ้อนเป็นหย่อมๆ ได้ดี
  • ไม่เหมาะ: ถ้าเลือก k ใหญ่เกินไปจะ smooth จนเสียลายละเอียด

ข้อสรุปชุด (d): k-NN มักเหมาะสุด


(e) Synthetic data set 5

ลักษณะข้อมูล: คลาสเป็นก้อนรูปร่างไม่เป็นเส้นตรง (non-linear blobs)

Decision Tree

  • เหมาะ: พอทำได้หากแตกกิ่งเยอะ
  • ไม่เหมาะ: ขอบเขตที่ได้เป็นสี่เหลี่ยมขั้นบันได จับเส้นโค้งไม่เนียน

Naive Bayes

  • เหมาะ: เทรนเร็ว/ตีความง่าย
  • ไม่เหมาะ: ขอบเขตคลาสไม่เชิงเส้นและซับซ้อน ทำให้โมเดลเรียบเกินไป

k-NN

  • เหมาะ: เหมาะมากกับ decision boundary ไม่เป็นเชิงเส้นและรูปร่างอิสระ
  • ไม่เหมาะ: sensitive ต่อสเกลข้อมูลและ outliers ถ้าไม่ normalize

ข้อสรุปชุด (e): k-NN มักเหมาะสุด


(f) Synthetic data set 6

ลักษณะข้อมูล: วงซ้อน/วงแหวน (concentric regions) คลาสเปลี่ยนตามรัศมี

Decision Tree

  • เหมาะ: ใช้ได้จำกัด
  • ไม่เหมาะ: ต้องใช้ split แนวแกนจำนวนมากเพื่อเลียนแบบวงกลม

Naive Bayes

  • เหมาะ: เมื่อ distribution ต่อคลาสเรียบง่าย
  • ไม่เหมาะ: boundary แบบวงซ้อนและสลับชั้นเป็นรูปแบบไม่เชิงเส้นที่จับยากมาก

k-NN

  • เหมาะ: เด่นที่สุด เพราะตัดสินจากเพื่อนบ้านเฉพาะที่ จับ boundary วงซ้อนได้ดี
  • ไม่เหมาะ: ต้องเลือก k ให้พอดี (เล็กไปไวต่อ noise, ใหญ่ไป boundary เบลอ)

ข้อสรุปชุด (f): k-NN มักเหมาะสุด


สรุปภาพรวมการเลือกโมเดล

  • ใช้ Decision Tree เมื่อมี feature สำคัญเด่นและต้องการกฎตีความง่าย
  • ใช้ Naive Bayes เมื่อมี feature หลายตัวช่วยกัน (โดยเฉพาะ weak predictors จำนวนมาก)
  • ใช้ k-NN เมื่อ boundary ซับซ้อน ไม่เชิงเส้น หรือเป็น pattern เชิงพื้นที่

หมายเหตุสำหรับตอบในข้อสอบ

  • ไม่มีโมเดลที่ดีที่สุดสำหรับทุกชุดข้อมูล
  • ให้ยึดหลัก 3 อย่างในการให้เหตุผล:
    1. รูปร่าง decision boundary (ง่าย/ซับซ้อน)
    2. จำนวน noise และมิติข้อมูล
    3. สมมติฐานของโมเดล (เช่น independence ของ Naive Bayes)