Data Mining Exercise 12
ภาพรวมการใช้ Model จาก Synthetic Data Sets (Decision Tree, Naive Bayes, k-NN)
ภาพรวมการใช้ Model จาก Synthetic Data Sets (Decision Tree, Naive Bayes, k-NN)
อ้างอิงจากลักษณะข้อมูลในภาพ (a)-(f) เป้าหมาย: ต่อ 1 data set อธิบายให้ครบทั้ง 3 อัลกอริทึมว่าเหมาะ/ไม่เหมาะเพราะอะไร
สรุปสั้นมาก (เลือกตัวเด่นต่อชุด)
- (a) เด่น: Decision Tree
- (b) เด่น: Naive Bayes
- (c) เด่น: Naive Bayes
- (d) เด่น: k-NN
- (e) เด่น: k-NN
- (f) เด่น: k-NN
(a) Synthetic data set 1
ลักษณะข้อมูล: มี distinguishing attribute เด่น 1 ตัว และมี noise attributes จำนวนมาก
Decision Tree
- เหมาะ: เลือก split ที่แยกคลาสได้ดีที่สุดจาก attribute สำคัญตัวเดียวได้เร็ว
- ไม่เหมาะ: ถ้าต้นไม้ลึกเกินไปอาจไปกิน noise แล้ว overfit
Naive Bayes
- เหมาะ: เทรนเร็วและทำงานได้กับข้อมูลมิติสูง
- ไม่เหมาะ: เมื่อ noise attributes เยอะมาก โอกาสคูณความน่าจะเป็นจาก feature ที่ไม่ช่วยอาจทำให้สัญญาณหลักถูกกลบ
k-NN
- เหมาะ: ถ้าข้อมูลมิติน้อยและ noise ต่ำ
- ไม่เหมาะ: กรณีนี้ noise เยอะ -> ระยะทางถูกครอบงำโดยมิติที่ไม่สำคัญ (curse of dimensionality)
ข้อสรุปชุด (a): Decision Tree มักเหมาะสุด
(b) Synthetic data set 2
ลักษณะข้อมูล: มี distinguishing attributes หลายตัวช่วยกันบอกคลาส แต่ยังมี noise ปะปน
Decision Tree
- เหมาะ: ถ้าโครงสร้างแยกคลาสได้ด้วย split เป็นลำดับชัดเจน
- ไม่เหมาะ: ถ้าแต่ละ feature เดี่ยวๆ อ่อน แต่ต้องใช้หลาย feature ร่วมกัน ต้นไม้อาจเลือก split ไม่เสถียร
Naive Bayes
- เหมาะ: เด่นมากเมื่อมี weak predictors หลายตัว เพราะรวมหลักฐานจากหลาย attribute พร้อมกันได้ดี
- ไม่เหมาะ: ถ้า features พึ่งพากันแรงมาก (ละเมิด independence assumption)
k-NN
- เหมาะ: ถ้าระยะทางสะท้อนความใกล้จริง
- ไม่เหมาะ: มิติสูง + noise ทำให้เพื่อนบ้านใกล้สุดไม่น่าเชื่อถือ
ข้อสรุปชุด (b): Naive Bayes มักเหมาะสุด
(c) Synthetic data set 3
ลักษณะข้อมูล: มี distinguishing attributes 2 ตัวที่แต่ละตัวแยกได้ไม่เด็ดขาด (เช่น 60/40) แต่เมื่อใช้ร่วมกันดีขึ้น
Decision Tree
- เหมาะ: พอใช้ได้ถ้าแตกกิ่งหลายชั้น
- ไม่เหมาะ: split เดี่ยวไม่ pure มาก ทำให้ต้นไม้เสี่ยงซับซ้อน/ไม่เสถียร
Naive Bayes
- เหมาะ: เหมาะมาก เพราะรวม evidence จากหลาย attribute ได้ตรงโจทย์
- ไม่เหมาะ: ถ้า 2 feature นี้สัมพันธ์กันแรงมาก ผลอาจเพี้ยน
k-NN
- เหมาะ: ถ้าจำนวนมิติน้อยและสเกลเหมาะสม
- ไม่เหมาะ: ถ้ามี noise attributes เพิ่ม ระยะทางจะเสื่อมคุณภาพทันที
ข้อสรุปชุด (c): Naive Bayes มักเหมาะสุด
(d) Synthetic data set 4
ลักษณะข้อมูล: รูปแบบคล้าย checkerboard/สลับคลาสเป็นช่องๆ ตามแกน X-Y
Decision Tree
- เหมาะ: พอทำได้ด้วย axis-aligned splits
- ไม่เหมาะ: ต้องใช้ split จำนวนมาก -> ต้นไม้ใหญ่และ overfit ง่าย
Naive Bayes
- เหมาะ: เมื่อขอบเขตคลาสเรียบง่ายและสมมติฐานไม่ถูกละเมิดมาก
- ไม่เหมาะ: รูปแบบสลับช่องต้องอาศัย interaction สูง (ลักษณะคล้าย XOR) ซึ่ง Naive Bayes จับยาก
k-NN
- เหมาะ: เด่นมาก เพราะใช้ local neighborhood จับ boundary ซับซ้อนเป็นหย่อมๆ ได้ดี
- ไม่เหมาะ: ถ้าเลือก k ใหญ่เกินไปจะ smooth จนเสียลายละเอียด
ข้อสรุปชุด (d): k-NN มักเหมาะสุด
(e) Synthetic data set 5
ลักษณะข้อมูล: คลาสเป็นก้อนรูปร่างไม่เป็นเส้นตรง (non-linear blobs)
Decision Tree
- เหมาะ: พอทำได้หากแตกกิ่งเยอะ
- ไม่เหมาะ: ขอบเขตที่ได้เป็นสี่เหลี่ยมขั้นบันได จับเส้นโค้งไม่เนียน
Naive Bayes
- เหมาะ: เทรนเร็ว/ตีความง่าย
- ไม่เหมาะ: ขอบเขตคลาสไม่เชิงเส้นและซับซ้อน ทำให้โมเดลเรียบเกินไป
k-NN
- เหมาะ: เหมาะมากกับ decision boundary ไม่เป็นเชิงเส้นและรูปร่างอิสระ
- ไม่เหมาะ: sensitive ต่อสเกลข้อมูลและ outliers ถ้าไม่ normalize
ข้อสรุปชุด (e): k-NN มักเหมาะสุด
(f) Synthetic data set 6
ลักษณะข้อมูล: วงซ้อน/วงแหวน (concentric regions) คลาสเปลี่ยนตามรัศมี
Decision Tree
- เหมาะ: ใช้ได้จำกัด
- ไม่เหมาะ: ต้องใช้ split แนวแกนจำนวนมากเพื่อเลียนแบบวงกลม
Naive Bayes
- เหมาะ: เมื่อ distribution ต่อคลาสเรียบง่าย
- ไม่เหมาะ: boundary แบบวงซ้อนและสลับชั้นเป็นรูปแบบไม่เชิงเส้นที่จับยากมาก
k-NN
- เหมาะ: เด่นที่สุด เพราะตัดสินจากเพื่อนบ้านเฉพาะที่ จับ boundary วงซ้อนได้ดี
- ไม่เหมาะ: ต้องเลือก k ให้พอดี (เล็กไปไวต่อ noise, ใหญ่ไป boundary เบลอ)
ข้อสรุปชุด (f): k-NN มักเหมาะสุด
สรุปภาพรวมการเลือกโมเดล
- ใช้ Decision Tree เมื่อมี feature สำคัญเด่นและต้องการกฎตีความง่าย
- ใช้ Naive Bayes เมื่อมี feature หลายตัวช่วยกัน (โดยเฉพาะ weak predictors จำนวนมาก)
- ใช้ k-NN เมื่อ boundary ซับซ้อน ไม่เชิงเส้น หรือเป็น pattern เชิงพื้นที่
หมายเหตุสำหรับตอบในข้อสอบ
- ไม่มีโมเดลที่ดีที่สุดสำหรับทุกชุดข้อมูล
- ให้ยึดหลัก 3 อย่างในการให้เหตุผล:
- รูปร่าง decision boundary (ง่าย/ซับซ้อน)
- จำนวน noise และมิติข้อมูล
- สมมติฐานของโมเดล (เช่น independence ของ Naive Bayes)