Claude 3.5 Sonnet VS GPT 4o

ข่าวบริษัท Anthropic เปิดตัว AI model ตัวกลางคือ Claude 3.5 Sonnet (ส่วนตัวใหญ่คือ Opus และตัวเล็กคือ Haiku มีแค่ 3.0 ยังไม่ออกรุ่น 3.5) ได้รับความสนใจอย่างมาก โดยเฉพาะอย่างยิ่งเมื่อผลจากการทดสอบหลายหัวข้อ สามารถเอาชนะ ChatGPT 4o ของแรงตัวล่าสุดจาก OpenAI ที่เคยสร้างความฮือฮาจากการสนทนาสดด้วยเสียงเมื่อเดือนที่แล้ว และกำลังทยอยปล่อยให้ผู้ใช้ทั่วโลกได้ใช้กันแบบฟรีอยู่

[ใครยังไม่คุ้นชื่อ Anthropic – ต้องเสริมว่าบริษัทนี้มีผู้ร่วมลงทุนรายใหญ่อย่าง Google ลงไป 2 billion และ Amazon ลงไป 2.75 billion USD]

สาเหตุหนึ่งที่ข่าวนี้น่าสนใจก็เพราะการที่โมเดลขนาดกลางอย่าง Sonnet สามารถเอาชนะโมเดลใหญ่อย่าง GPT 4o ได้ในหลายๆ การทดสอบ เป็นการยืนยันถึงความสำเร็จของที่สอดคล้องกับแนวทางการพัฒนาโมเดล AI ของทุกค่ายที่พยายามทำให้เล็กลงแต่เก่งขึ้น เพื่อให้สามารถรันได้ในอุปกรณ์ของผู้ใช้เองมากขึ้น แทนที่จะต้องส่งทุกอย่างขึ้นไปบน cloud ส่วนกลางเหมือนที่เคยเป็นมาก่อน ซึ่งนอกจากจะต้องการกำลังในการประมวลผลและใช้พลังงานไฟฟ้ามากมายมหาศาลแล้ว ยังอาจมีปัญหาตามมาในเรื่องของความปลอดภัยข้อมูล (security) และความเป็นส่วนตัว (privacy) อีกด้วย

=====

หมายเหตุ: ที่จริงแล้วเราก็ไม่รู้ว่า GPT 4o เป็นโมเดลขนาดใหญ่ หรือเป็นแค่ตัวขนาดกลางของ GPT 4 ที่ปรับปรุงให้เก่งกว่า และเร็วกว่า โดยลดขนาดลงมาแล้ว ในทำนองเดียวกันกับ Claude 3.5 Sonnet หรือเปล่า ทาง OpenAI ถึงกล้าเปิดให้ใช้ฟรีทั่วโลก แถมยังลดราคาการเรียกใช้ API ถูกลงอีก ซึ่งถ้าจริงก็แปลว่ายังมี GPT ตัวใหญ่รุ่นถัดไป (จะนับรุ่นอะไร 4 หรือ 5 ก็ตาม) ที่เก่งขึ้นไปอีก

=====

ในตอนนี้เรียกได้ว่าทุกค่ายก็มีโมเดล AI ตั้งแต่ขนาดเล็กไปจนถึงใหญ่ของตัวเองกันแล้ว แถมโมเดลขนาดเล็กเหล่านี้ก็เก่งขึ้นทุกวัน แม้แต่ทางค่าย OpenAI / Microsoft ที่มุ่งพัฒนาโมเดลขนาดใหญ่เป็นหลักมาโดยตลอด ก็ยังมีข่าวโมเดล Phi-3 ที่เป็นตัวเล็กสำหรับรันบน device เป็นอีกแนวทางหนึ่ง

นอกจากนี้เรากำลังจะได้เห็น mass adoption หรือการ deploy โมเดล AI แบบแยกส่วนทำงาน (คือโมเดลเล็กทำงานในตัวเครื่อง และส่งงานใหญ่ไปทำที่โมเดลใหญ่บน cloud) ในสเกลระดับผู้ใช้ร้อยหรือพันล้านคนใน iOS 18 ที่ Apple เพิ่งเปิดตัวไปและจะทยอยให้ใช้จริงได้ในไม่กี่เดือนข้างหน้า ซึ่งจะรันงานบางส่วนบนโมเดล AI ขนาดเล็กในเครื่อง iPhone และส่งงานใหญ่ไปทำบน Cloud

ที่จริงแม้แต่โมเดล AI ที่ทำงานบน cloud ก็ยังอาจสร้างให้มีการทำงานในหลายระดับ มีทั้งแบ่งกันทำงานด้วยโมเดลขนาดกลางถึงใหญ่ แล้วแต่ความต้องการในการใช้งาน หรือจะแบ่งในแบบที่มีตัวกลางแล้วกระจายให้โมเดลเฉพาะทางทำงานในแต่ละเรื่อง (Mixture of Expert – MoE) ก็เป็นได้ ซึ่งเราก็อาจจะได้เห็นการออกแบบโครงสร้างการกระจายงานระหว่างโมเดล AI ในแบบอื่นๆ ที่ซับซ้อนขึ้นตามมาในอนาคต

[Link ข่าว]

https://www.anthropic.com/news/claude-3-5-sonnet