
จนตอนนี้ผ่านไปกว่า 6 ชั่วโมงแล้วตั้งแต่ OpenAI เปิดตัว ChatGPT-4o (“จีพีที-โฟร์-โอ”) ซึ่งดู เผินๆ เหมือนจะไม่ได้มีอะไรใหม่มากเท่ากับการเปลี่ยนแปลงจาก GPT-3.5 ไปเป็น GPT-4 แต่ที่จริงแล้วน่าจะนับเป็นก้าวใหญ่หรือหมุดหมายสำคัญอันนึงในระหว่างทาง ก่อนที่เราจะไปถึง GPT-5 ในอีกไม่กี่เดือนข้างหน้า
……
𝐃𝐢𝐬𝐜𝐥𝐨𝐬𝐮𝐫𝐞: บทความนี้ไม่ได้ใช้ AI ในการเขียนแต่อย่างใด (เขียนด้วยความคันมือคันไม้ของผู้เขียนเอง) อาจมีการใช้เอไอช่วยในการพิมพ์ตามคำพูดหรือ Dictation บ้างเท่านั้น ![]()
……
ความว้าวที่เพิ่มขึ้นมาอยู่ในส่วนของความสามารถในการตอบโต้แบบเรียลไทม์ทั้งเสียงและภาพ ซึ่งจะช่วยทำให้ผู้ใช้เข้าถึง AI ได้ง่ายขึ้น โดยนอกจากจะสามารถพูดคุยด้วยเสียง และเปิดกล้องมือถือให้ดูสิ่งต่างๆ ไปพร้อมๆ กันได้เหมือนคุยกับคนจริงๆ แล้ว ฝั่งเอไอยังสามารถตอบโต้กับผู้ใช้ได้ในแบบทันทีทันใดตลอดเวลาด้วย (ใครที่เคยดูภาพยนตร์เรื่อง Her คงจะนึกได้ถึงคอมพิวเตอร์ที่ตัวเอกพกไว้ในกระเป๋าเสื้อเชิ้ต และคอยพูดคุยด้วยตลอดเวลาในหนัง ซึ่งตอนนี้ ChatGPT-4o ทำได้เหมือนในหนังยังไงยังงั้นเลย)
.
Omnimedia & Real-time
————————
ทาง OpenAI บอกว่า o คือ Omni ส่วนในตัว ChatGPT-4o บอกเองว่าหมายถึง “optimized” แต่หลายคนตีความไปว่า o หมายถึง omnimedia นั่นคือโปรแกรมหรือเอไอโมเดลตัวใหม่นี้สามารถรับข้อมูลใดๆ ที่เป็นภาพ เสียงวิดีโอข้อความ รวมถึงอื่นๆ ในอนาคตได้หมดเช่นเดียวกับมนุษย์ จึงทำให้เราสามารถพูดคุยโต้ตอบกับ AI ได้เหมือนคนจริงมากขึ้นอย่างที่ไม่เคยมีมาก่อน รวมทั้งเอไอยังสามารถวิเคราะห์เสียงและสีหน้าท่าทางของผู้ใช้ เพื่อเข้าสถานการณ์ อารมณ์ และบริบทอื่นๆ ได้ด้วย
.
นอกจากนี้เอไอยังสามารถตอบเอาท์พุตเป็นเสียง โดยใช้น้ำเสียงที่แสดงอารมณ์ให้เหมาะกับสถานการณ์ ไม่ว่าจะเป็นการเล่านิทาน ร้องเพลง เล่าเรื่องตลก เรื่องเศร้า พูดจาเป็นงานเป็นการ หรือง่ายที่สุดก็สามารถทักทาย สนทนา ปลอบโยนกับผู้ใช้ได้อย่างเหมาะสมกับบริบทและเป็นธรรมชาติ (ซึ่งนึกไม่ออกเลยว่าเบื้องหลังนั้นมีการประมวลผลไปกี่พันล้านครั้งกว่าจะออกมาเป็นแต่ละคำ แต่ละประโยค หรือแต่ละเสียงอุทาน เสียงหัวเราะ ของ AI)ในวิดีโอมีการสาธิตทั้งการพูดคุย หยอกล้อ ราวกับเอไอเป็นมนุษย์จริงๆ
.
ทาง OpenAI ขยายควาามว่ากระบวนการทำงานในเอไอตัวเดิมนั้นแยกเป็น 3 ส่วนคือ รับข้อความเข้ามา ตอบสนอง แล้วจึงแปลงเป็นเสียงตอบกลับ ซึ่งมีความล่าช้าและไม่ทันกับการใช้งานลักษณะนี้ จึงปรับปรุงให้การตอบสนองด้วยเสียงเป็นกลไกที่ัแฝงอยู่ในทุกส่วนของ AI แทน ทำให้ตอบสนองได้เร็วขึ้นมาก
.
วิดีโอสาธิต
– – —
นอกจากนี้ทาง OpenAI ยังได้ปล่อยวิดีโอออกมารัวๆ อีกหลายตัว สาธิตความสามารถของ GPT-4o ราวกับจะตั้งใจตัดหน้างาน Google IO ที่จะจัดในวันถัดมา (14/5) ไม่ว่าจะเป็น
– การสอนเด็กให้เข้าใจพื้นฐานวิชาตรีโกณมิติ ซึ่งสาธิตโดยแขกรับเชิญ คือ Salman Khan ผู้ก่อตั้ง Khan Academy และลูกชาย)
– การคุยกันของ GPT-4o สองตัวเพื่อข่วยกันทำงาน โดยเอไอตัวหนึ่งสามารถ “เห็น” ภาพจากกล้อง และบรรยายให้เอไออีกตัวที่ไม่เห็นฟังว่ามีอะไรเกิดขึ้นบ้าง
– ให้คำแนะนำท่าทางและการแต่งตัวของผู้ใช้ทีีกำลังจะไปสัมภาษณ์งาน
– บรรยายภาพให้ผู้ใช้ที่พิการทางสายตาฟังว่าเห็นอะไรบ้างรอบๆ ตัว และที่เด็ดสุดคือช่วยบอกจังหวะเรียกรถ taxi ที่กำลังมีให้หยุดรับพอดีได้ด้วย!
ฯลฯ
แนะนำว่าลองไปหาวิดีโอดูครับ อยู่บน YouTube และมี link ไปจากหน้าเว็บของ OpenAI น่าทึ่งมาก พอๆ กับการเปิดตัว GPT-4 ของปีที่แล้ว ที่คนสงสัยว่าจะทำได้จริงหรือ แล้วก็ทำได้จริงๆ
.
ภาษาไทย: ไปต่อไม่รอแล้วนะ
————————–
ที่น่าตกใจอีกอย่างก็คือความเร็วในการประมวลผลภาษาไทย ซึ่งในช่วงหลายเดือนที่ผ่านมาดูเหมือน AI คู่แข่งรายต่างๆ จะเร่งสปีดทิ้งช่วงหนี ChatGPT ไปพอสมควร แต่ตอนนี้ ChatGPT-4o กลับมาตามทัน และดูเหมือนจะแซงหน้าคู่แข่งอื่นๆ ไปเสียด้วยซ้ำ ซึ่งถ้าจะให้คาดเดาทางเทคนิคความเร็วระดับนี้ อย่างน้อยต้องมีการแบ่ง Token (หน่วยย่อยในการประมวลผลข้อความภาษาไทย) ใหม่ในระดับที่แทนความหมายของคำ (word) ซึ่งแตกต่างจากการแบ่งภาษาไทยแต่เดิมที่ตัวอักษรไทย (character) หนึ่งตัวเท่ากับหนึ่ง หรือบางทีก็ใช้ไปหลาย Token ด้วยซ้ำ ซึ่งการจะทำแบบนี้ได้ คงต้องจับมาเรียนภาษาไทยเพิ่ม เทรนด้วยข้อมูลภาษาไทยเข้าไปอีกมากมายมหาศาล ผลข้างเคียงอื่นๆ ที่ตามมาก็เช่นใช้ ChatGPT-4o มีความสามารถถึงขั้นพอจะแต่งกลอนแปดได้แล้ว (ตามรูปในคอมเมนท์) โดยมีการแบ่งคำและสัมผัสถูกต้อง แสดงว่า AI ต้องเก่งภาษาไทยมากพอ ถึงระดับที่รู้จักทั้งเสียงของคำที่คล้องจองกัน และการแบ่งจำนวนคำให้ลงในแต่ละวรรคได้อย่างพอดีแล้ว
.
ปล. ล่าสุดถึงตอนนี้ (เช้าวันรุ่งขึ้นหลังการเปิดตัว) ก็ยังไม่สามารถเข้าถึงเพจ ที่แสดงการแบ่ง Token (Tokenizer) ของ GPT-4o ได้ (บอกแต่ว่า coming soon)
.
ความเร็วมหาศาลที่ประมวลผลอยู่เบื้องหลัง
————————————–
การโต้ตอบด้วยภาพและเสียงแบบเรียลไทม์นี้ นอกจากจะแสดงให้เห็นความเก่งของโมเดลที่เพิ่มขึ้นแล้ว ยังแสดงถึงความเร็วในการทำงานที่เพิ่มขึ้นอย่างมหาศาลของโมเดลใหม่ (เร็วกว่าตัว GPT-4 Turbo ที่เร็วที่สุดอยู่เดิม) ซึ่งทำให้การใช้งานบางอย่างเช่น การแปลภาษาหนึ่งไปเป็นอีกภาษาหนึ่งแบบเรียลไทม์กลายเป็นเรื่องธรรมดา ชนิดที่เรียกว่าพูดคุยได้เหมือนกับมีล่ามมายืนตรงนั้น เพราะในเมื่อการสื่อสารด้วยภาพหรือวิดีโอซึ่งซับซ้อนกว่านั้นหลายเท่ายังทำได้ กับแค่การแปลเสียงคำพูดระหว่างภาษาก็เลยกลายเป็นเรื่องเล็กไป (ในวิดีโอมีการสาธิตพูดคุยภาษาอังกฤษกับภาษาอิตาเลียน โดยให้ GPT-4o ช่วยแปลเหมือนกับเป็นล่ามอีกคนหนึ่งที่ยืนคุยอยู่ด้วยกันเลย ไม่ใช่พูดทีแปลทีแบบประโยคต่อประโยคแบบที่เราคุ้นเคยกัน)
.
งานนี้กินกำลังเครื่องถึงขนาดที่ในวิดีโอ Mira Murati CTO ของ OpenAI ต้องขอบคุณ Jason Huang CEO ของ Nvidia ที่ช่วยจัดหาฮาร์ดแวร์ให้เป็นพิเศษสำหรับการสาธิตแบบ Live ในครั้งนี้
.
งานนี้ OpenAI ยังท้าทายคู่แข่งทั้งโลก ด้วยการเปิด AI ตัวเดียวกันนี้ให้ใช้ได้ทั้งผู้ใช้ฟรี และผู้ใช้เสียเงิน โดยมีข้อแตกต่างแค่จำกัดอัตราหรือปริมาณในการใช้งาน โดยผู้ใช้เสียเงินจะสามารถใช้งานได้มากกว่าราว 5 เท่า ซึ่งวิธีนี้จะทำให้ผู้ใช้ทุกคนทั่วโลกสามารถเข้าถึง และมีโอกาสทดลองใช้ความสามารถของ AI รุ่นล่าสุดได้เหมือนกัน พูดง่ายๆ ก็คือ ทำให้ทุกคนในโลกเห็นว่าของใหม่ล่าสุดที่มีอยู่ทำได้แค่ไหน แทนที่จะต้องติดอยู่กับ AI เวอร์ชั่นที่เก่ากว่าหรือด้อยกว่าผู้ใช้แบบเสียเงินเท่านั้น
.
ก็ต้องรอดูกันต่อไปว่า เปิดกว้างซะขนาดนี้ พอมีคนใช้งานกันเยอะแล้วจะทำงานช้าลงมากหรือไม่ หรือเป็นไปตามสไตล์ของ OpenAI ที่มักจะทำได้จริง ไม่ค่อย overpromise แต่พอไปนานๆ ก็แอบมี glitch หรือสะดุดระหว่างทางบ้างให้ผู้ใช้หงุดหงิดเล่นเป็นช่วงๆ
.
เรียกว่าอย่างน้อยก็มีของใหม่ให้เล่นไปพลางๆ ระหว่างรอ GPT-5 ที่น่าจะออกมาแถวกลางๆ ปี (ตอนนี้คาดว่าคงกำลังบ่ม เอ๊ย เทรนอยู่ในเครื่อง)

