ภาพรวมการใช้ Model จาก Synthetic Data Sets (Decision Tree, Naive Bayes, k-NN)

อ้างอิงจากลักษณะข้อมูลในภาพ (a)-(f) เป้าหมาย: ต่อ 1 data set อธิบายให้ครบทั้ง 3 อัลกอริทึมว่าเหมาะ/ไม่เหมาะเพราะอะไร

สรุปสั้นมาก (เลือกตัวเด่นต่อชุด)

(a) เด่น: Decision Tree
(b) เด่น: Naive Bayes
(c) เด่น: Naive Bayes
(d) เด่น: k-NN
(e) เด่น: k-NN
(f) เด่น: k-NN

(a) Synthetic data set 1

ลักษณะข้อมูล: มี distinguishing attribute เด่น 1 ตัว และมี noise attributes จำนวนมาก

Decision Tree

เหมาะ: เลือก split ที่แยกคลาสได้ดีที่สุดจาก attribute สำคัญตัวเดียวได้เร็ว
ไม่เหมาะ: ถ้าต้นไม้ลึกเกินไปอาจไปกิน noise แล้ว overfit

Naive Bayes

เหมาะ: เทรนเร็วและทำงานได้กับข้อมูลมิติสูง
ไม่เหมาะ: เมื่อ noise attributes เยอะมาก โอกาสคูณความน่าจะเป็นจาก feature ที่ไม่ช่วยอาจทำให้สัญญาณหลักถูกกลบ

k-NN

เหมาะ: ถ้าข้อมูลมิติน้อยและ noise ต่ำ
ไม่เหมาะ: กรณีนี้ noise เยอะ -> ระยะทางถูกครอบงำโดยมิติที่ไม่สำคัญ (curse of dimensionality)

ข้อสรุปชุด (a): Decision Tree มักเหมาะสุด

(b) Synthetic data set 2

ลักษณะข้อมูล: มี distinguishing attributes หลายตัวช่วยกันบอกคลาส แต่ยังมี noise ปะปน

Decision Tree

เหมาะ: ถ้าโครงสร้างแยกคลาสได้ด้วย split เป็นลำดับชัดเจน
ไม่เหมาะ: ถ้าแต่ละ feature เดี่ยวๆ อ่อน แต่ต้องใช้หลาย feature ร่วมกัน ต้นไม้อาจเลือก split ไม่เสถียร

Naive Bayes

เหมาะ: เด่นมากเมื่อมี weak predictors หลายตัว เพราะรวมหลักฐานจากหลาย attribute พร้อมกันได้ดี
ไม่เหมาะ: ถ้า features พึ่งพากันแรงมาก (ละเมิด independence assumption)

k-NN

เหมาะ: ถ้าระยะทางสะท้อนความใกล้จริง
ไม่เหมาะ: มิติสูง + noise ทำให้เพื่อนบ้านใกล้สุดไม่น่าเชื่อถือ

ข้อสรุปชุด (b): Naive Bayes มักเหมาะสุด

(c) Synthetic data set 3

ลักษณะข้อมูล: มี distinguishing attributes 2 ตัวที่แต่ละตัวแยกได้ไม่เด็ดขาด (เช่น 60/40) แต่เมื่อใช้ร่วมกันดีขึ้น

Decision Tree

เหมาะ: พอใช้ได้ถ้าแตกกิ่งหลายชั้น
ไม่เหมาะ: split เดี่ยวไม่ pure มาก ทำให้ต้นไม้เสี่ยงซับซ้อน/ไม่เสถียร

Naive Bayes

เหมาะ: เหมาะมาก เพราะรวม evidence จากหลาย attribute ได้ตรงโจทย์
ไม่เหมาะ: ถ้า 2 feature นี้สัมพันธ์กันแรงมาก ผลอาจเพี้ยน

k-NN

เหมาะ: ถ้าจำนวนมิติน้อยและสเกลเหมาะสม
ไม่เหมาะ: ถ้ามี noise attributes เพิ่ม ระยะทางจะเสื่อมคุณภาพทันที

ข้อสรุปชุด (c): Naive Bayes มักเหมาะสุด

(d) Synthetic data set 4

ลักษณะข้อมูล: รูปแบบคล้าย checkerboard/สลับคลาสเป็นช่องๆ ตามแกน X-Y

Decision Tree

เหมาะ: พอทำได้ด้วย axis-aligned splits
ไม่เหมาะ: ต้องใช้ split จำนวนมาก -> ต้นไม้ใหญ่และ overfit ง่าย

Naive Bayes

เหมาะ: เมื่อขอบเขตคลาสเรียบง่ายและสมมติฐานไม่ถูกละเมิดมาก
ไม่เหมาะ: รูปแบบสลับช่องต้องอาศัย interaction สูง (ลักษณะคล้าย XOR) ซึ่ง Naive Bayes จับยาก

k-NN

เหมาะ: เด่นมาก เพราะใช้ local neighborhood จับ boundary ซับซ้อนเป็นหย่อมๆ ได้ดี
ไม่เหมาะ: ถ้าเลือก k ใหญ่เกินไปจะ smooth จนเสียลายละเอียด

ข้อสรุปชุด (d): k-NN มักเหมาะสุด

(e) Synthetic data set 5

ลักษณะข้อมูล: คลาสเป็นก้อนรูปร่างไม่เป็นเส้นตรง (non-linear blobs)

Decision Tree

เหมาะ: พอทำได้หากแตกกิ่งเยอะ
ไม่เหมาะ: ขอบเขตที่ได้เป็นสี่เหลี่ยมขั้นบันได จับเส้นโค้งไม่เนียน

Naive Bayes

เหมาะ: เทรนเร็ว/ตีความง่าย
ไม่เหมาะ: ขอบเขตคลาสไม่เชิงเส้นและซับซ้อน ทำให้โมเดลเรียบเกินไป

k-NN

เหมาะ: เหมาะมากกับ decision boundary ไม่เป็นเชิงเส้นและรูปร่างอิสระ
ไม่เหมาะ: sensitive ต่อสเกลข้อมูลและ outliers ถ้าไม่ normalize

ข้อสรุปชุด (e): k-NN มักเหมาะสุด

(f) Synthetic data set 6

ลักษณะข้อมูล: วงซ้อน/วงแหวน (concentric regions) คลาสเปลี่ยนตามรัศมี

Decision Tree

เหมาะ: ใช้ได้จำกัด
ไม่เหมาะ: ต้องใช้ split แนวแกนจำนวนมากเพื่อเลียนแบบวงกลม

Naive Bayes

เหมาะ: เมื่อ distribution ต่อคลาสเรียบง่าย
ไม่เหมาะ: boundary แบบวงซ้อนและสลับชั้นเป็นรูปแบบไม่เชิงเส้นที่จับยากมาก

k-NN

เหมาะ: เด่นที่สุด เพราะตัดสินจากเพื่อนบ้านเฉพาะที่ จับ boundary วงซ้อนได้ดี
ไม่เหมาะ: ต้องเลือก k ให้พอดี (เล็กไปไวต่อ noise, ใหญ่ไป boundary เบลอ)

ข้อสรุปชุด (f): k-NN มักเหมาะสุด

สรุปภาพรวมการเลือกโมเดล

ใช้ Decision Tree เมื่อมี feature สำคัญเด่นและต้องการกฎตีความง่าย
ใช้ Naive Bayes เมื่อมี feature หลายตัวช่วยกัน (โดยเฉพาะ weak predictors จำนวนมาก)
ใช้ k-NN เมื่อ boundary ซับซ้อน ไม่เชิงเส้น หรือเป็น pattern เชิงพื้นที่

หมายเหตุสำหรับตอบในข้อสอบ

ไม่มีโมเดลที่ดีที่สุดสำหรับทุกชุดข้อมูล
ให้ยึดหลัก 3 อย่างในการให้เหตุผล:
1. รูปร่าง decision boundary (ง่าย/ซับซ้อน)
2. จำนวน noise และมิติข้อมูล
3. สมมติฐานของโมเดล (เช่น independence ของ Naive Bayes)

Data Mining Exercise 12

ภาพรวมการใช้ Model จาก Synthetic Data Sets (Decision Tree, Naive Bayes, k-NN)

สรุปสั้นมาก (เลือกตัวเด่นต่อชุด)

(a) Synthetic data set 1

Decision Tree

Naive Bayes

k-NN

(b) Synthetic data set 2

Decision Tree

Naive Bayes

k-NN

(c) Synthetic data set 3

Decision Tree

Naive Bayes

k-NN

(d) Synthetic data set 4

Decision Tree

Naive Bayes

k-NN

(e) Synthetic data set 5

Decision Tree

Naive Bayes

k-NN

(f) Synthetic data set 6

Decision Tree

Naive Bayes

k-NN

สรุปภาพรวมการเลือกโมเดล

หมายเหตุสำหรับตอบในข้อสอบ

On this page