
อีกไม่กี่วันก็จะเป็นวันครบรอบปีแรก หรือขวบแรกนับตั้งแต่การเปิดตัวของ ChatGPT ปัญญาประดิษฐ์หรือ AI ตัวแรกที่เปลี่ยนการทำงานกับคอมพิวเตอร์ของมนุษยชาติไปตลอดกาล ลองมามองย้อนกันดูว่าในเวลาเพียง 1 ปีที่ผ่านมา มีอะไรเกิดขึ้นบ้าง
ในตอนนี้เราจะพูดถึงเฉพาะ AI ประเภท chatbot กันก่อน (เช่น Q, Grok, Llama, Bard, Bing, GPT-4) เพราะเป็นตัวที่สร้างแรงกระเพื่อมมากที่สุดในบรรดา AI ทั้งหมด ส่วน Generative AI ประเภทอื่น เช่นพวกที่สร้างภาพหรือ text-to-image นั้นไว้เล่ากันวันหลัง
𝐎𝐩𝐞𝐧𝐀𝐈 เปิดตัว 𝐂𝐡𝐚𝐭𝐆𝐏𝐓 (𝐆𝐏𝐓-𝟑.𝟓)
—-
เราพูดกันถึง AI มาเป็นสิบปีแล้ว ตั้งแต่สมาร์ทโฟนทุกเครื่องมี “ผู้ช่วย AI”ในแบบอ่อนๆ อย่าง Siri หรือ Google Assistant ที่ช่วยเราโทรออกตามสั่งได้ เล่นเพลงได้ ปิดเปิดเครื่องใช้ไฟฟ้าในบ้าน และอื่นๆ แต่ก็หลายปีผ่านไปก็ยังไม่มีตัวไหนเก่งขึ้นซักเท่าไหร่
ในแพลทฟอร์มออนไลน์ไม่กี่ปีที่ผ่านมา เราก็ทั้งบ่น ทั้งด่า บรรดา AI ที่ทำงานให้เจ้าของระบบเหล่านั้นเพื่อคอยตรวจจับว่ามีอะไรผิดกฎ กติกา มารยาท ฯลฯ บ้างมั้ย ไม่ว่าจะเป็น Facebook, Tik Tok, Shopee, Lazada หรืออื่นๆ ว่าตรวจผิดบ้าง มั่วบ้าง แบนอะไรที่ไม่ผิดกติกา ส่วนอะไรที่ผิด (แต่ได้เงิน) ดันปล่อยผ่าน
ใครจะนึกว่าเพียงไม่กี่ปีต่อมาเราจะมีเอไอที่ฉลาดกว่านั้น ช่วยสร้างสรรค์งานได้มากกว่านั้นเยอะ บางคนบอกว่าเริ่มจากงานวิจัยของ Google ชื่อ “Attention is All You Need” ที่เปิดทางให้เอไอเชิงภาษาหรือ Language Model สามารถเข้าใจสิ่งที่เราพูดไปและโต้ตอบได้ถูกต้องมากขึ้น
นั่นเป็นที่มาของ Language Model เวอร์ชั่นแรกๆ อย่าง GPT-1 และ GPT-2 ซึ่ง OpenAI เปิดให้ดาวน์โหลดไปศึกษาและพัฒนาต่อในแบบ Open source มาตั้งแต่ปี 2018-2019 ซึ่งตอนนั้นมันยังมีขนาดเล็กพอที่รันบนเครื่องคอมพิวเตอร์ของนักวิจัยในแล็บต่างๆ ทั่วโลกได้บ้าง แต่ดูเหมือนผู้คนจะยังไม่เชื่อถือใน generative AI chat bot มากนัก แต่จะออกแนวหัวเราะเยาะกันเสียมากกว่า บ้างก็ว่ามันเป็น “เครื่องมือสร้างข่าวปลอมของอีลอน มัสก์” (Elon Musk’s Fake News Machine เพราะตอนนั้นเฮียแกยังเพิ่งจะถอนตัวออกจากบริษัทในปี 2018 แต่คนยังไม่ค่อยเก็ทกัน) หรือห่วงกันแต่ในด้านลบว่ามันจะสร้างข้อมูลเท็จที่เป็นอันตราย ไม่มีใครเห็นประโยชน์ที่ AI สามารถทำได้เท่าไรนัก หรือไม่ก็เชื่อว่าคงอีกนานกว่าที่จะถึงขั้นใช้งานได้เป็นประโยชน์จริง จะมีก็แต่นักวิจัยทั่วโลกเท่านั้นที่พากันโหลดมาทดลอง
ต่อมาก็มีงานวิจัยอีกชิ้นหนึ่งชื่อ “Emergent Abilities of Large Language Models” ที่ค้นพบว่าพอเราใส่ข้อมูลให้เอไอที่เป็น Language Model อย่างมากมายมหาศาลถึงระดับหนึ่ง (จนเรียกว่าเป็น Large Language Model หรือ LLM) มันจะแสดงปาฏิหารย์จากที่เคยพล่ามไม่ได้ศัพท์ กลับมาเป็นพูดรู้เรื่องขึ้นมาได้อย่างน่าอัศจรรย์ แต่การจะทำแบบนี้ได้จะต้องใช้เครื่องขนาดใหญ่ยักษ์ระดับ super computer กับเงินและเวลาอีกมาก (ซึ่งด้วยเทคโนโลยีปัจจุบัน เราก็เพิ่งจะสร้างเครื่องระดับนี้ได้เมื่อไม่กี่ปีที่ผ่านมาเท่านั้นเอง) ถึงตอนนี้โปรแกรมหรือเอไอโมเดลเหล่านั้นก็มีขนาดใหญ่เกินกว่าจะรันบนคอมพิวเตอร์ทั่วๆ ไปได้แล้ว
รวมๆ แล้วทั้งหมดนี้ก็น่าจะเป็นสาเหตุที่เราเพิ่งจะมีเอไอที่พูดภาษาคนรู้เรื่องขึ้นมาเมื่อไม่กี่ปีนี่เอง โดยตอนแรกๆ มันก็ยังมั่วๆ เหมือนคนเมาหมัดอยู่บ้าง จนกลายมาเป็นคนเก่งอย่าง GPT-3, 3.5 และ 4 ที่เราใช้กันอยู่ในตอนนี้ (ซึ่งหลังจาก GPT-2 เป็นต้นมา ทาง OpenAI ก็ไม่ได้เปิด open-source ตัว GPT รุ่นใหม่ๆ อีกเลยจนถึงปัจจุบัน)
ในที่สุดทาง OpenAI ก็เปิดให้คนทั่วโลกได้ทดลองใช้งาน GPT-3.5 ในรูปแบบของ chat bot เมื่อวันที่ 30 พฤศจิกายน 2022 โดยมีขนาดของข้อมูลภายในหรือพารามิเตอร์จำนวน 175 พันล้าน (175 Billion หรือย่อว่า 175B) แล้วเรื่องหลังจากนั้นก็กลายเป็นบันทึกสำคัญในหน้าของประวัติศาสตร์ไปแล้ว
𝐆𝐨𝐨𝐠𝐥𝐞 เปิดตัว 𝐁𝐚𝐫𝐝
—-
กุมภาพันธ์ 2023 – Google เปิดตัว Bard (แปลว่า “กวี”) ซึ่งเป็น AI chat bot ที่สามารถโต้ตอบได้เหมือน ChatGPT ตัดหน้าก่อนที่ OpenAI จะเปิดตัว GPT-4 ไม่นาน แต่ด้วยความที่คนคาดหวังไว้สูงมาก แค่ Bard ตอบคำถามไม่แม่นนิดเดียวตอน demo ก็ทำให้หุ้น Google ตกไปพักนึง
โปรแกรมหรือ Large Language Model ที่อยู่เบื้องหลัง Bard คือ LaMDA ซึ่งเป็นตัวที่พัฒนาขึ้นมาสำหรับเป็น chat bot โดยเฉพาะ แต่ถึงกระนั้นก็มีขนาดของข้อมูลหรือพารามิเตอร์ข้างในที่ยังเล็กกว่า GPT-3.5 หลายเท่า
𝐎𝐩𝐞𝐧𝐀𝐈 เปิดตัว 𝐆𝐏𝐓-𝟒 ที่เก่งกว่าเดิม
—-
มีนาคม 2023 – OpenAI เปิดตัว GPT-4 ที่เก่งกว่าเดิม และใหญ่กว่าเดิมเป็นสิบเท่า (ประมาณกันว่ามี 1.76 ล้านล้าน หรือ 1.76 Trillion หรือ 1.76T พารามิเตอร์) รวมทั้งโชว์ความสามารถด้านการอัพโหลดภาพเข้าไปและวิเคราะห์ออกมาว่าเป็นภาพอะไรได้ (หรือเรียกว่า vision) เพื่อไปทำงานอื่นต่อ เช่น เข้าใจความตลกหรือผิดปกติในภาพถ่าย สร้างโค้ดสำหรับทำเว็บให้เหมือนภาพเสก็ตช์ของคนออกแบบ เป็นต้น
นอกจากนี้ยังมีตัวเสริมหรือ plugin ให้เรียกใช้เพื่อช่วยงานหลายอย่าง (ล่าสุดมีร่วมพันตัว) เช่นการอัพโหลดไฟล์ข้อมูลหรือ PDF การค้นข้อมูลล่าสุดจากเว็บ อีกทั้งยังมีการปรับเปลี่ยนคุณสมบัติใหม่ๆ เข้ามาตลอดเวลา
𝐌𝐢𝐜𝐫𝐨𝐬𝐨𝐟𝐭 เปิดตัว 𝐁𝐢𝐧𝐠 𝐂𝐡𝐚𝐭 และลงทุนใน 𝐎𝐩𝐞𝐧𝐀𝐈 สามแสนล้าน
—-
ข่าวใหญ่ที่ตามมาก็คือการลงทุนเพิ่มใน OpenAI ของไมโครซอฟท์ จากที่เคยลงไปแล้วกว่าสามหมื่นล้าน (1,000 ล้านดอลลาร์) ก็เพิ่มอีกสิบเท่าเป็นกว่าสามแสนล้านบาท ทั้งหมดนี้ไม่ใช่เงินสดที่จ่ายครั้งเดียว แต่ส่วนใหญ่น่าจะเป็นเครดิตการใช้งาน supercomputer บนระบบคลาวด์ Azure ของไมโครซอฟท์เองที่ลงทุนอัพเกรดให้ OpenAI ใช้พัฒนาต่อ (อย่างที่บอกแล้วว่าต้นทุนการพัฒนา AI นั้น ที่แพงสุดนอกจากค่าตัวคนเก่งๆ แล้วก็คือค่าเวลาของ supercomputer สำหรับพัฒนานั่นเอง)
ทั้งนี้ที่ไมโครซอฟท์ได้รับนอกจากหุ้นแล้วก็เป็นสิทธิในการเอาเทคโนโลยีของ OpenAI มาให้บริการผ่านทางเว็บไซต์ Bing เช่น Bing chat, Bing Image Creator และรวมถึงบริการอื่นๆ ที่จะรวมเข้ากับผลิตภัณฑ์ต่างๆ ทั้ง Windows, Office (ที่ปัจจุบันเรียกว่า Microsoft 365) รวมถึงตัวช่วยเขียนโปรแกรม Visual Studio ซึ่งทั้งหมดนี้มีข่าวว่าใช้ชื่อ Copilot นั่นเอง
𝐌𝐞𝐭𝐚 (𝐅𝐚𝐜𝐞𝐛𝐨𝐨𝐤) เปิดตัว 𝐀𝐈 𝐋𝐥𝐚𝐦𝐚 𝟐 ให้เป็น 𝐎𝐩𝐞𝐧 𝐬𝐨𝐮𝐫𝐜𝐞
—-
กุมภาพันธ์ 2023 – ทางด้าน Meta (Facebook) ได้เปิดตัว LLM ในชื่อ Llama และอัพเกรดเป็น Llama 2 ในเดือนกรกฎาคม แต่ยังไม่ไ้ด้เปิดบริการ chat bot ของตัวเอง (มีข่าวว่าจะเปิดในชื่อ Facebook Assistant เร็วๆ นี้)
ทั้งนี้ Llama เปิดให้ใช้งานในแบบ Open-source ได้ด้วย และเป็นโมเดลหรือโปรแกรมที่มีขนาดเล็กกว่าเพื่อน แต่ทำงานได้ดี โดยเวอร์ชั่น 2 มีจำนวนพารามิเตอร์ 3 ขนาดคือ เพียง 7B, 13B และ 70B (ตัวใหญ่สุดก็ยังเล็กกว่า GPT-4 ประมาณ 20 เท่า) ซึ่งตัวเล็กนั้นพอจะรันบนเครื่อง supercomputer ขนาดเล็กในแล็บทั่วโลกได้ จึงมีคนนำไปพัฒนาต่อยอดกันมาก
𝐁𝐚𝐫𝐝 ปรับตัว 𝐀𝐈 ใหม่จาก 𝐋𝐚𝐌𝐃𝐀 เป็น 𝐏𝐚𝐋𝐌 𝟐 และใช้ภาษาไทยได้
—-
พฤษภาคม 2023 – หลังจากการเปิดตัว Bard ครั้งแรก ซึ่งยังใช้ภาษาไทยไม่ได้ ประมาณเดือนพฤษภาคม Google ก็ได้ปรับเอา LLM ตัวใหม่ที่เก่งกว่าเดิมคือ PaLM 2 มาใช้แทน LaMDA ทั้งนี้ PaLM 2 มีขนาดเล็กกว่า PaLM 1 ที่ Google พัฒนามาก่อน แต่เก่งกว่า และทำให้ Bard สามารถใช้ภาษาไทยได้ และทำงานเร็วขึ้น รวมทั้งเพิ่มความสามารถในการอ่านภาพ (vision) เข้ามาด้วยเช่นเดียวกับ GPT-4 และ Bing (ความจริงเปิดให้ใช้คุณสมบัตินี้ทั่วไปก่อน GPT-4 ที่เพิ่งจะมาเปิดในช่วงตุลาคม 2023 เสียด้วยซ้ำ)
จากตัวอย่างของ Llama และ PaLM ทำให้เห็นว่า ขนาดของพารามิเตอร์มากกว่า (ใหญ่กว่า) ไม่ได้จำเป็นจะต้องเก่งกว่าเสมอไป
𝐀𝐧𝐭𝐡𝐫𝐨𝐩𝐢𝐜 เปิดตัว 𝐂𝐥𝐚𝐮𝐝𝐞 𝟐 (ใช้ภาษาไทยได้)
—-
กรกฎาคม 2023 – บริษัท Anthropic ที่มีคีย์แมนหลายคนมาจาก OpenAI เปิดตัว Claude 2 ซึ่งเป็นทั้งชื่อ chat bot และ LLM ที่ทำงานได้ดีพอสมควร มีการปรับเวอร์ชั่นเป็น 2.1 ในไตรมาสที่ 4/2023 และได้ผู้ลงทุนรายใหญ่อย่าง Amazon ที่มีระบบคลาวด์ที่ใหญ่พอจะสู้กับ Microsoft และ Google ได้
𝐂𝐨𝐧𝐜𝐥𝐮𝐬𝐢𝐨𝐧 (𝐟𝐨𝐫 𝐧𝐨𝐰)
—-
พฤศจิกายน 2023 – สรุปว่าตอนนี้มี LLM ดังๆ ในโลกอยู่ 4 ตัวหลัก คือ GPT, PaLM, Llama และ Claude แต่ละตัวก็มีบริษัทยักษ์ใหญ่หนุนหลัง กับอีกหลายตัวย่อยๆ ที่มีการพัฒนากันอยู่ ส่วนเฉพาะตัวที่เปิดให้บริการ chat bot ในระดับโลกแล้วก็มี
– ChatGPT (ใช้ GPT-3.5 และ 4 ของ OpenAI)
– Bing chat (ใช้ GPT-3.5 และ 4 ของ OpenAI เช่นกัน)
– Bard (ใช้ PaLM 2 ของ Google)
– Claude (ใช้ Claude 2.1 ของ Anthropic)
นอกจากนี้ยังมี
– Grok ของ Elon Musk ซึ่งถอนตัวออกไปจาก OpenAI หลายปีก่อนแล้วกลับไปตั้งบริษัทใหม่ที่เพิ่งเปิดตัวออกมา (ยังไม่เปิดบริการในประเทศไทย อยากลองต้องใช้ผ่าน VPN ออกไปต่างประเทศเช่น US หรือ UK ดู)
– Q จาก Amazon ที่เพิ่งจะเปิดตัวไป (เห็น Amazon ลงทุนใน Anthropic ที่ทำ Claude แล้วยังมีตัวนี้อีก คงต้องค้นต่อมีส่วนเกี่ยวข้องกันหรือไม่ อย่างไร)
จะเห็นว่าแค่ปีเดียว ChatGPT สร้างความเปลี่ยนแปลงในวงการ AI ได้ขนาดนี้ ต้องคอยจับตาดูว่าขวบปีที่ 2 ของ ChatGPT จะทำให้เกิดการเปลี่ยนแปลงอะไรขึ้นอีกบ้าง แต่คาดว่าคงไม่น้อยกว่าปีแรกแน่นอน

