Data Mining Exercise 14

Solution for K-Means (3-mean, L1) from given problem

K-Means (3-mean, L1) Solution From Given Problem

โจทย์

กำหนดจุดข้อมูล 10 จุด:

  • A1 (2,3,0)
  • A2 (5,7,2)
  • A3 (1,6,1)
  • A4 (3,4,3)
  • A5 (2,8,5)
  • A6 (7,5,9)
  • A7 (9,4,10)
  • A8 (6,2,12)
  • A9 (8,7,11)
  • A10 (10,6,10)

ให้หา centroid ของ 3-mean ที่ iteration 4 โดยใช้ระยะทางแบบ L1 (Manhattan)


สมมติฐานที่ใช้ (สำคัญ)

ในภาพไม่ได้ระบุ centroid เริ่มต้น จึงใช้มาตรฐานที่พบบ่อยในข้อสอบ:

  • Centroid เริ่มต้น (iteration 1):
    • C1 = A1 = (2,3,0)
    • C2 = A2 = (5,7,2)
    • C3 = A3 = (1,6,1)

หมายเหตุ: ถ้าเลือก centroid เริ่มต้นต่างกัน คำตอบปลายทางอาจต่างกัน


สูตรที่ใช้

  • ระยะ L1: d((x,y,z),C) = |x-cx| + |y-cy| + |z-cz|
  • อัปเดต centroid (3-mean):
    • cx_new = ค่าเฉลี่ยพิกัด x ของสมาชิกในคลัสเตอร์
    • cy_new = ค่าเฉลี่ยพิกัด y ของสมาชิกในคลัสเตอร์
    • cz_new = ค่าเฉลี่ยพิกัด z ของสมาชิกในคลัสเตอร์

Iteration 1

Assignment (จาก C1=A1, C2=A2, C3=A3)

  • Cluster 1: A1, A4
  • Cluster 2: A2, A5, A6, A7, A8, A9, A10
  • Cluster 3: A3

Update centroid

  • C1 = mean(A1,A4)
    • = ((2+3)/2, (3+4)/2, (0+3)/2)
    • = (2.5, 3.5, 1.5)
  • C2 = mean(A2,A5,A6,A7,A8,A9,A10)
    • x = (5+2+7+9+6+8+10)/7 = 47/7 = 6.7143
    • y = (7+8+5+4+2+7+6)/7 = 39/7 = 5.5714
    • z = (2+5+9+10+12+11+10)/7 = 59/7 = 8.4286
    • C2 = (6.7143, 5.5714, 8.4286)
  • C3 = mean(A3) = (1,6,1)

Iteration 2

Assignment (คำนวณ L1 ใหม่)

  • Cluster 1: A1, A4
  • Cluster 2: A6, A7, A8, A9, A10
  • Cluster 3: A2, A3, A5

Update centroid

  • C1 = mean(A1,A4) = (2.5, 3.5, 1.5)
  • C2 = mean(A6,A7,A8,A9,A10)
    • = ((7+9+6+8+10)/5, (5+4+2+7+6)/5, (9+10+12+11+10)/5)
    • = (8.0, 4.8, 10.4)
  • C3 = mean(A2,A3,A5)
    • = ((5+1+2)/3, (7+6+8)/3, (2+1+5)/3)
    • = (2.6667, 7.0, 2.6667)

Iteration 3

Assignment (จาก centroid รอบก่อน)

  • Cluster 1: A1, A4
  • Cluster 2: A6, A7, A8, A9, A10
  • Cluster 3: A2, A3, A5

Update centroid

  • C1 = (2.5, 3.5, 1.5)
  • C2 = (8.0, 4.8, 10.4)
  • C3 = (2.6667, 7.0, 2.6667)

ไม่เปลี่ยนจาก iteration 2 -> เข้าสู่จุดคงที่ (converged)


Iteration 4 (คำตอบที่ถาม)

เมื่อโมเดล converge แล้ว centroid จะคงเดิม

Centroid ที่ iteration 4

  • C1 = (2.5, 3.5, 1.5)
  • C2 = (8.0, 4.8, 10.4)
  • C3 = (2.6667, 7.0, 2.6667)

สรุปสั้น

สำหรับการตั้งต้นแบบ C1=A1, C2=A2, C3=A3 และใช้ L1 ในการจัดกลุ่ม:

  • คำตอบ centroid ที่ iteration 4 คือ
    • (2.5, 3.5, 1.5), (8.0, 4.8, 10.4), (2.6667, 7.0, 2.6667)