Data Mining Exercise 14
Solution for K-Means (3-mean, L1) from given problem
K-Means (3-mean, L1) Solution From Given Problem
โจทย์
กำหนดจุดข้อมูล 10 จุด:
- A1 (2,3,0)
- A2 (5,7,2)
- A3 (1,6,1)
- A4 (3,4,3)
- A5 (2,8,5)
- A6 (7,5,9)
- A7 (9,4,10)
- A8 (6,2,12)
- A9 (8,7,11)
- A10 (10,6,10)
ให้หา centroid ของ 3-mean ที่ iteration 4 โดยใช้ระยะทางแบบ L1 (Manhattan)
สมมติฐานที่ใช้ (สำคัญ)
ในภาพไม่ได้ระบุ centroid เริ่มต้น จึงใช้มาตรฐานที่พบบ่อยในข้อสอบ:
- Centroid เริ่มต้น (iteration 1):
- C1 = A1 = (2,3,0)
- C2 = A2 = (5,7,2)
- C3 = A3 = (1,6,1)
หมายเหตุ: ถ้าเลือก centroid เริ่มต้นต่างกัน คำตอบปลายทางอาจต่างกัน
สูตรที่ใช้
- ระยะ L1: d((x,y,z),C) = |x-cx| + |y-cy| + |z-cz|
- อัปเดต centroid (3-mean):
- cx_new = ค่าเฉลี่ยพิกัด x ของสมาชิกในคลัสเตอร์
- cy_new = ค่าเฉลี่ยพิกัด y ของสมาชิกในคลัสเตอร์
- cz_new = ค่าเฉลี่ยพิกัด z ของสมาชิกในคลัสเตอร์
Iteration 1
Assignment (จาก C1=A1, C2=A2, C3=A3)
- Cluster 1: A1, A4
- Cluster 2: A2, A5, A6, A7, A8, A9, A10
- Cluster 3: A3
Update centroid
- C1 = mean(A1,A4)
- = ((2+3)/2, (3+4)/2, (0+3)/2)
- = (2.5, 3.5, 1.5)
- C2 = mean(A2,A5,A6,A7,A8,A9,A10)
- x = (5+2+7+9+6+8+10)/7 = 47/7 = 6.7143
- y = (7+8+5+4+2+7+6)/7 = 39/7 = 5.5714
- z = (2+5+9+10+12+11+10)/7 = 59/7 = 8.4286
- C2 = (6.7143, 5.5714, 8.4286)
- C3 = mean(A3) = (1,6,1)
Iteration 2
Assignment (คำนวณ L1 ใหม่)
- Cluster 1: A1, A4
- Cluster 2: A6, A7, A8, A9, A10
- Cluster 3: A2, A3, A5
Update centroid
- C1 = mean(A1,A4) = (2.5, 3.5, 1.5)
- C2 = mean(A6,A7,A8,A9,A10)
- = ((7+9+6+8+10)/5, (5+4+2+7+6)/5, (9+10+12+11+10)/5)
- = (8.0, 4.8, 10.4)
- C3 = mean(A2,A3,A5)
- = ((5+1+2)/3, (7+6+8)/3, (2+1+5)/3)
- = (2.6667, 7.0, 2.6667)
Iteration 3
Assignment (จาก centroid รอบก่อน)
- Cluster 1: A1, A4
- Cluster 2: A6, A7, A8, A9, A10
- Cluster 3: A2, A3, A5
Update centroid
- C1 = (2.5, 3.5, 1.5)
- C2 = (8.0, 4.8, 10.4)
- C3 = (2.6667, 7.0, 2.6667)
ไม่เปลี่ยนจาก iteration 2 -> เข้าสู่จุดคงที่ (converged)
Iteration 4 (คำตอบที่ถาม)
เมื่อโมเดล converge แล้ว centroid จะคงเดิม
Centroid ที่ iteration 4
- C1 = (2.5, 3.5, 1.5)
- C2 = (8.0, 4.8, 10.4)
- C3 = (2.6667, 7.0, 2.6667)
สรุปสั้น
สำหรับการตั้งต้นแบบ C1=A1, C2=A2, C3=A3 และใช้ L1 ในการจัดกลุ่ม:
- คำตอบ centroid ที่ iteration 4 คือ
- (2.5, 3.5, 1.5), (8.0, 4.8, 10.4), (2.6667, 7.0, 2.6667)