Data Mining Exercise 6
Data Preprocessing & Decision Tree - การสุ่มตัวอย่างและการคำนวณ Entropy เพื่อเลือก Node
Warning
This article is a work in progress and may contain incomplete information or inaccuracies. Please verify details from reliable sources.
Data Mining Exercise 6
รากฐานของ Data Preprocessing (การสุ่มตัวอย่าง) และ Decision Tree Model (การคำนวณ Entropy เพื่อเลือก Node)
ข้อ 3: ความแตกต่างระหว่างการสุ่ม 2 แบบ (Stratified vs. Simple Random)
โจทย์
ต้องการสุ่มตัวอย่าง จากประชากรที่มีกลุ่มย่อย กลุ่ม
- แบบที่ 1: Stratified Sampling (เลือกตามสัดส่วน)
- แบบที่ 2: Simple Random Sampling (สุ่มรวม ไม่สนกลุ่ม)
ความแตกต่าง (Difference)
หัวใจสำคัญอยู่ที่ "ความน่าจะเป็นที่จะได้ตัวแทนครบทุกกลุ่ม" และ "ความแม่นยำ (Precision)"
1. การการันตีตัวแทน (Representation Guarantee)
แบบที่ 1 (Stratified):
- การันตี 100% ว่าจะได้ข้อมูลครบทุกกลุ่ม ตามสัดส่วนจริง
- วิธีนี้ดีมากถ้าข้อมูลเรา Imbalanced (เช่น มีกลุ่มที่หายากมากๆ อยู่)
📌 ตัวอย่าง: สำรวจความเห็นในมหาวิทยาลัย
มีนักศึกษา 9,000 คน และ อาจารย์ 100 คน
ถ้าสุ่มแบบ Stratified เราจะบังคับโควตาเลยว่าต้องหยิบอาจารย์มาด้วย
แบบที่ 2 (Simple Random):
- อาศัยดวง ถ้ากลุ่ม ไหนมีขนาดเล็กมาก มีโอกาสสูงที่เราจะ "สุ่มไม่เจอเลย"
- ทำให้ข้อมูลกลุ่มนั้นหายไป (Under-represented)
ตัวอย่าง: ปัญหาของ Simple Random
จากเคสมหาวิทยาลัย ถ้าสุ่มรวมๆ เราอาจจะได้แต่นักเรียนล้วนๆ ไม่ได้อาจารย์เลย ทำให้ผลสำรวจเพี้ยน
2. ความคลาดเคลื่อน (Standard Error)
| วิธีสุ่ม | ค่า Error | เหตุผล |
|---|---|---|
| Stratified | ต่ำกว่า | รับประกันโครงสร้างของประชากรไว้แล้ว ข้อมูลที่ได้จะกระจายตัวดีกว่า |
| Simple Random | สูงกว่า | โดยเฉพาะถ้าแต่ละกลุ่มมีความแตกต่างกันมาก |
สรุป
✅ ข้อแนะนำ
ถ้าคุณรู้ว่าข้อมูลแบ่งเป็นกลุ่มๆ อยู่แล้ว และอยากให้แต่ละกลุ่มมีที่ยืน ต้องใช้ Stratified
(นี่คือ Standard ในการแบ่ง Train/Test set ของงาน Classification ด้วย)
ข้อ 4: การคำนวณ Entropy (ค่าความไม่แน่นอน)
ข้อมูล
ลูกบอลรวม 8 ลูก:
- 🔴 แดง: 4 ลูก
- 🟢 เขียว: 2 ลูก
- 🔵 ฟ้า: 2 ลูก
สูตร Entropy:
ขั้นตอนการคำนวณ
1. หาความน่าจะเป็น () ของแต่ละสี
2. แทนค่าลงในสูตร
เราต้องคิดทีละเทอมแล้วเอามารวมกัน (อย่าลืมเครื่องหมายลบข้างหน้าสุด):
3. แปลงค่า Log (ฐาน 2):
4. คำนวณตัวเลข
คำตอบ
✅ ผลลัพธ์
ค่า Entropy คือ 1.5 bits
เกร็ดความรู้เชื่อมโยง Data Mining
ค่าสูงสุดที่เป็นไปได้ (Max Entropy) ของโจทย์นี้คือเท่าไหร่?
ถ้าลูกบอล 3 สี มีจำนวนเท่ากันเป๊ะ (โอกาสเกิดเท่ากันหมด) ค่า Entropy จะสูงที่สุดคือ bits
💡 การตีความผลลัพธ์
ค่าที่เราคำนวณได้ 1.5 ซึ่งเกือบเต็ม Max แปลว่าข้อมูลชุดนี้ "มีความไม่แน่นอนสูง" (เดายากว่าจะหยิบได้สีอะไร แม้สีแดงจะเยอะสุดก็ตาม)
ความเชื่อมโยงกับ Decision Tree
ใน Decision Tree:
- เราชอบ Node ที่มี Entropy ต่ำๆ (เช่น มีสีแดงล้วน = Entropy 0)
- เพราะมันแปลว่าข้อมูลบริสุทธิ์ (Pure)
- ยิ่ง Pure ยิ่งทำนายได้แม่นยำ!