
ข่าวบริษัท Anthropic เปิดตัว AI model ตัวกลางคือ Claude 3.5 Sonnet (ส่วนตัวใหญ่คือ Opus และตัวเล็กคือ Haiku มีแค่ 3.0 ยังไม่ออกรุ่น 3.5) ได้รับความสนใจอย่างมาก โดยเฉพาะอย่างยิ่งเมื่อผลจากการทดสอบหลายหัวข้อ สามารถเอาชนะ ChatGPT 4o ของแรงตัวล่าสุดจาก OpenAI ที่เคยสร้างความฮือฮาจากการสนทนาสดด้วยเสียงเมื่อเดือนที่แล้ว และกำลังทยอยปล่อยให้ผู้ใช้ทั่วโลกได้ใช้กันแบบฟรีอยู่
[ใครยังไม่คุ้นชื่อ Anthropic – ต้องเสริมว่าบริษัทนี้มีผู้ร่วมลงทุนรายใหญ่อย่าง Google ลงไป 2 billion และ Amazon ลงไป 2.75 billion USD]
สาเหตุหนึ่งที่ข่าวนี้น่าสนใจก็เพราะการที่โมเดลขนาดกลางอย่าง Sonnet สามารถเอาชนะโมเดลใหญ่อย่าง GPT 4o ได้ในหลายๆ การทดสอบ เป็นการยืนยันถึงความสำเร็จของที่สอดคล้องกับแนวทางการพัฒนาโมเดล AI ของทุกค่ายที่พยายามทำให้เล็กลงแต่เก่งขึ้น เพื่อให้สามารถรันได้ในอุปกรณ์ของผู้ใช้เองมากขึ้น แทนที่จะต้องส่งทุกอย่างขึ้นไปบน cloud ส่วนกลางเหมือนที่เคยเป็นมาก่อน ซึ่งนอกจากจะต้องการกำลังในการประมวลผลและใช้พลังงานไฟฟ้ามากมายมหาศาลแล้ว ยังอาจมีปัญหาตามมาในเรื่องของความปลอดภัยข้อมูล (security) และความเป็นส่วนตัว (privacy) อีกด้วย
=====
หมายเหตุ: ที่จริงแล้วเราก็ไม่รู้ว่า GPT 4o เป็นโมเดลขนาดใหญ่ หรือเป็นแค่ตัวขนาดกลางของ GPT 4 ที่ปรับปรุงให้เก่งกว่า และเร็วกว่า โดยลดขนาดลงมาแล้ว ในทำนองเดียวกันกับ Claude 3.5 Sonnet หรือเปล่า ทาง OpenAI ถึงกล้าเปิดให้ใช้ฟรีทั่วโลก แถมยังลดราคาการเรียกใช้ API ถูกลงอีก ซึ่งถ้าจริงก็แปลว่ายังมี GPT ตัวใหญ่รุ่นถัดไป (จะนับรุ่นอะไร 4 หรือ 5 ก็ตาม) ที่เก่งขึ้นไปอีก
=====
ในตอนนี้เรียกได้ว่าทุกค่ายก็มีโมเดล AI ตั้งแต่ขนาดเล็กไปจนถึงใหญ่ของตัวเองกันแล้ว แถมโมเดลขนาดเล็กเหล่านี้ก็เก่งขึ้นทุกวัน แม้แต่ทางค่าย OpenAI / Microsoft ที่มุ่งพัฒนาโมเดลขนาดใหญ่เป็นหลักมาโดยตลอด ก็ยังมีข่าวโมเดล Phi-3 ที่เป็นตัวเล็กสำหรับรันบน device เป็นอีกแนวทางหนึ่ง
นอกจากนี้เรากำลังจะได้เห็น mass adoption หรือการ deploy โมเดล AI แบบแยกส่วนทำงาน (คือโมเดลเล็กทำงานในตัวเครื่อง และส่งงานใหญ่ไปทำที่โมเดลใหญ่บน cloud) ในสเกลระดับผู้ใช้ร้อยหรือพันล้านคนใน iOS 18 ที่ Apple เพิ่งเปิดตัวไปและจะทยอยให้ใช้จริงได้ในไม่กี่เดือนข้างหน้า ซึ่งจะรันงานบางส่วนบนโมเดล AI ขนาดเล็กในเครื่อง iPhone และส่งงานใหญ่ไปทำบน Cloud
ที่จริงแม้แต่โมเดล AI ที่ทำงานบน cloud ก็ยังอาจสร้างให้มีการทำงานในหลายระดับ มีทั้งแบ่งกันทำงานด้วยโมเดลขนาดกลางถึงใหญ่ แล้วแต่ความต้องการในการใช้งาน หรือจะแบ่งในแบบที่มีตัวกลางแล้วกระจายให้โมเดลเฉพาะทางทำงานในแต่ละเรื่อง (Mixture of Expert – MoE) ก็เป็นได้ ซึ่งเราก็อาจจะได้เห็นการออกแบบโครงสร้างการกระจายงานระหว่างโมเดล AI ในแบบอื่นๆ ที่ซับซ้อนขึ้นตามมาในอนาคต
[Link ข่าว]
