Google เปิดตัว Gemini AI ใหม่ล่าสุด

ข่าวใหญ่ล่าสุดในแวดวง AI คงไม่พ้นการเปิดตัวของ Gemini (อ่านว่า “เจ-มิ-นาย“) เมื่อคืนนี้ ซึ่ง Gemini นับเป็นโปรแกรมหรือ AI model ตัวใหม่ล่าสุดและเก่งที่สุดของ Google ที่จะมาสู้กับ GPT-4 ของ OpenAI โดยจากการทดสอบของ Google แสดงว่า Gemini สามารถชนะ GPT-4 ได้ถึง 30 จาก 32 หัวข้อ และยังเป็น AI model ที่ออกแบบมาตั้งแต่ต้นให้สามารถทำงานได้กับข้อมูลที่หลากหลาย ทั้งข้อความ ภาพ เสียง รวมถึงวิดีโอ หรือที่เรียกว่า multimodal คือมีหลายๆ mode ในตัวเดียว ไม่ได้แยกเป็น GPT สำหรับข้อความ, DALL-E สำหรับการสร้างภาพ แบบของ OpenAI (ชั้นต้นนี้เข้าใจว่า Google น่าจะหมายถึงความสามารถในการทำความเข้าใจภาพเคลื่อนไหวหรือวิดีโอ แต่ยังไม่แน่ใจว่าจะรวมถึงการสร้างภาพหรือวิดีโอ ซึ่ง Google มี AI ทดลองที่ชื่อ Imagenและ Imagen Video อยู่แล้วหรือเปล่า หรือจะเอามารวมใน Gemini เลย)

ทั้งนี้ Gemini จะมีโมเดลหลายขนาดเพื่อใช้งานตามความเหมาะสม ดังนี้

– Gemini Nano มีขนาดเล็กที่สุด สำหรับทำงานในแพลตฟอร์มที่มีทรัพยากรจำกัด เช่น สมาร์ทโฟน หรือการรันบนเครื่องของผู้ใช้เอง โดย Google แถลงว่าจะเพิ่มความสามารถของ Gemini ลงในระบบปฏิบัติการ Android และในเครื่อง Pixel 8 Pro (ที่ Google ทำเอง แต่ไม่มีนำเข้ามาขายในไทย)

– Gemini Pro เป็นโมเดลขนาดกลางที่จะใช้ในงานหลากหลายประเภท รวมทั้งได้นำมาใช้แล้วกับภาษาอังกฤษใน Google Bard เริ่มตั้งแต่วันนี้ ส่วนภาษาอื่นๆ จะตามมาเร็วๆ นี้ (แต่เรื่องนี้มีคนใจร้อนรีบไปทดลองถาม Bard เป็นภาษาอังกฤษแล้ว ได้คำตอบที่หลากหลายว่า AI model ที่ใช้ตอนนี้เป็น Gemini บ้าง, PaLM บ้าง หรือบางทีก็เก่าไปถึง LaMDA เลยก็มี ซึ่งความจริงตอนนี้คงไม่ใช่ LaMDA แล้วแน่ๆ)

– Gemini Ultra จะเป็น AI Model ที่รวมความสามารถ multimodal ไว้ด้วยตามที่เล่าแล้ว ซึ่งจากที่ demo เมื่อคืนนี้ คาดว่าจะเปิดตัวให้ใช้จริงในต้นปีหน้า (2024) โดยทำงานกับ Bard Advance (ซึ่งน่าจะไม่ฟรีแล้ว)

ทั้งนี้ผู้ใช้ระดับองค์กรจะเริ่มใช้ Gemini Pro ได้ในวันที่ 13 ธันวาคม 2023 (สัปดาห์หน้า) เป็นต้นไป ผ่านทาง Google Generative AI Studio หรือ Vertex AI in Google Cloud และจะทยอยรวมความสามารถของ Gemini เข้ากับบริการทุกอย่างของ Google ตั้งแต่ Search, Ads ไปจนถึง Chrome browser และอื่นๆ

สำหรับขนาดหรือจำนวนของพารามิเตอร์ภายในของ Gemini นั้นยังไม่มีการเปิดเผย แต่จากแนวโน้มในปัจจุบัน จำนวนพารามิเตอร์เพียงอย่างเดียวยังไม่สามารถบอกได้ว่า AI model นั้นจะเก่งขนาดไหน ดูได้จากการที่ AI modle ตัว Llama 2 ของ Meta (Facebook) สามารถทำงานได้ดีทั้งๆ ที่มีจำนวนพารามิเตอร์น้อยกว่าของคนอื่น (ตัวใหญ่สุดมีขนาดแค่ 70B หรือ 70,000 ล้านพารามิเตอร์ เทียบกับ 175B ของ GPT-3.5 ที่มีถึง 175,000 ล้าน หรือ GPT-4 ที่คาดว่ามากกว่า 1,000B หรือ 1 ล้านล้านพารามิเตอร์) หรือ PaLM2 ของ Google เองที่เก่งกว่า PaLM รุ่นแรก ทั้งๆ ที่มีจำนวนพารามิเตอร์ลดลงครึ่งหนึ่งคือจาก 540B เหลือราว 340B เท่านั้น (แต่ใช้ข้อมูลในการสอนหรือ train ให้ AI มากกว่าถึงประมาณ 5 เท่า) ดังนั้นจึงต้องดูที่การออกแบบ AI model นั้นๆ ประกอบด้วย

พร้อมกันนี้ Google ได้เปิดตัว AI processor สำหรับ Google Cloud ตัวใหม่ คือรุ่น TPU v5p (TPU ย่อมาจาก Tensor Processing Unit ซึ่งของเดิมก่อนหน้านี้เป็น v4 และ v5e) ที่จะสามารถรัน AI model ได้อย่างมีประสิทธิภาพมากขึ้น ใช้พลังงานน้อยลง ซึ่งเป็นจุดหนึ่งที่แต่ละบริษัทกำลังแข่งขันกันอยู่ เพราะการทำงานของ AI นั้นใช้การคำนวณมหาศาลและกินไฟมหาศาลตามไปด้วย มีคนคำนวณเล่นๆ ว่าการ gen ภาพแต่ละภาพนั้นอาจใช้พลังงานมากพอๆ กับการชาร์จแบตเตอรี่ของสมาร์ทโฟนให้เต็ม 1 ครั้งเลยทีเดียว

จากประเด็นประสิทธิภาพของตัวโปรแกรมหรือ AI model และฮาร์ดแวร์ที่ใช้รันนี้ หากยิ่งได้ AI model ที่ทำงานได้ดีโดยมีขนาดไม่ใหญ่เกินไป และฮาร์ดแวร์ที่มีประสิทธิภาพด้านพลังงานที่ดี ย่อมสร้างความได้เปรียบในการแข่งขัน สามารถรันงานทั้งการ train AI และการให้บริการได้มากกว่า ดูง่ายๆ ตอนนี้ระบบของ ChatGPT Plus หรือแบบเสียเงิน ที่มีผู้ใช้งานมากจนต้องปิดรับการสมัครใหม่ ถึงขนาดแอคเคาท์เดิมมีการขายกันบนเว็บในราคาหลักหมื่นบาท แสดงว่ายังคงต้องมีการปรับปรุงการทำงานให้รับโหลดได้มากกว่านี้ก่อน

ต้องดูกันต่อไปว่าอีกปีหนึ่งข้างหน้านี้ Google ที่ปรับปรุงตัวอย่างรวดเร็ว จะสามารถแซงขึ้นมาเป็นผู้นำตลาด AI นี้และยืนระยะได้นานแค่ไหน และจะมี AI model ระดับยักษ์ใหญ่ที่เรียกว่าเป็นตัวหลักหรือ Foundation model รายไหนเปิดตัวออกมาใหม่อีกบ้าง ดังที่ว่ากันว่า “Data is the new oil!” ซึ่งยกให้ข้อมูลดิบเป็นเสมือนขุมทรัพย์ใหม่ หรือเทียบได้กับแหล่งน้ำมันดิบของศตวรรษที่ผ่านมา และ Google ก็เป็นบริษัทหนึ่งที่มีข้อมูลดิบอยู่มากที่สุดในโลก หากแต่จะสามารถนำข้อมูลนั้นมาใช้สร้างความได้เปรียบในสงคราม AI นี้ได้แค่ไหนเท่านั้น

——
ภาพประกอบ: Gemini หมายถึง “คนคู่” หรือ “ฝาแฝด” (Twins) Castor และ Pollux ตามตำนานเทวดากรีก
ส่วนโครงการอวกาศของ NASA ในยุค ‘60 ก่อนไปลงดวงจันทร์ ก็ใช้ชื่อ Gemini เพราะยานลำหนึ่งจะมีนักบินอวกาศสองคน (แต่ NASA นิยมออกเสียงว่า “เจ-มิ-นี” มากกว่า)

AI model Gemini Gemini AI Google GPT-4 openai

Vasin Permsup

บรรณาธิการอำนวยการ กลุ่มบริษัท โปรวิชั่น จำกัด จบโทวิศวกรรมคอมพิวเตอร์จากสถาบันเทคโนโลยีแห่งเอเซีย (AIT) เขียนหนังสือมาหลายสิบปี ที่พิมพ์ขายไปนับได้ร่วมล้านเล่ม แต่ก็ยังรู้สึกว่าต้องเรียนรู้อะไรใหม่ๆ อยู่ตลอด เพราะโลกหมุนเร็วกว่าที่เคยเป็นมา :-)

Vasin Permsup

Copy - Demo Title