ARC-AGI-3 เผยความจริง: โมเดล AI ที่เก่งที่สุดในโลกยังทำคะแนนไม่ถึง 1%

เมื่อเราพูดถึง AI ยุคนี้ ทุกคนน่าจะเคยได้ยินว่าโมเดลใหม่ๆ เก่งขึ้นมาก ฉลาดขึ้นมาก แก้ปัญหาได้มากขึ้น แต่ถ้าผมบอกว่ามี benchmark ตัวนึงที่ทั้ง GPT-5.5 และ Claude Opus 4.7 — สองโมเดลที่เรียกได้ว่าเป็นสุดยอดของปี 2026 — ยังทำคะแนนได้ ไม่ถึง 1% คุณจะเชื่อไหม?

ARC-AGI-3 คือ benchmark ที่เพิ่งเปิดตัวเมื่อวันที่ 25 มีนาคม 2026 ที่ผ่านมา ที่ Y Combinator HQ ในซานฟรานซิสโก และผลลัพธ์ที่ได้คือการ "ตบหน้า" AI industry อย่างจัง — มนุษย์ทำคะแนนได้ 100% ในขณะที่โมเดล AI ที่ดีที่สุดทำได้เพียง 0.37%

ARC-AGI-3 คืออะไร?

ARC-AGI-3 (Abstraction and Reasoning Corpus for Artificial General Intelligence, version 3) คือ interactive reasoning benchmark ที่ออกแบบมาเพื่อวัดปัญญาประดัษฐ์ (AGI) ในรูปแบบใหม่ที่แตกต่างจาก benchmark ก่อนหน้าอย่างสิ้นเชิง จุดสำคัญคือ ARC-AGI-3 ไม่ใช่แบบทดสอบแบบเดิมๆ ที่ให้โมเดลอ่านคำถามแล้วตอบ แต่เป็น interactive environment ที่ AI ต้อง: สำรวจสภาพแวดล้อมใหม่ (explore novel environments) ที่ไม่เคยเห็นมาก่อน เรียนรู้เป้าหมายระหว่างทำงาน (acquire goals on the fly) สร้างโมเดลของโลกที่ปรับได้ (build adaptable world models) เรียนรู้อย่างต่อเนื่อง (learn continuously) ทั้งหมดนี้อยู่ในรูปแบบ turn-based game environments ที่ไม่มีคำแนะนำ (no instructions) ให้เลย — AI ต้องคิดเองว่าเกมนี้ต้องทำอะไร และทำยังไงถึงจะชนะ

เทียบกับ ARC-AGI-1 และ ARC-AGI-2

ARC-AGI-1 และ ARC-AGI-2 ใช้รูปแบบ static puzzle — ให้ดูตัวอย่าง input-output grid สองสามคู่ แล้วหา transformation rule วัด inductive reasoning จากตัวอย่างจำกัด ARC-AGI-3 เปลี่ยนเป็น interactive reasoning — AI ต้องเข้าไปเล่นเกมจริง สำรวจ ลองผิดลองถูก และเรียนรู้จากประสบการณ์โดยตรง

คะแนนที่น่าตกใจ

ผลคะแนนบน ARC-AGI-3 leaderboard เปิดเผยความจริงที่น่าตกใจ: มนุษย์ — 100% Gemini 3.1 Pro — 0.37% (สูงสุดในกลุ่ม AI) GPT-5.4 — 0.26% Opus 4.6 — 0.25% Grok-4.20 — 0.00% (ไม่สามารถแก้ได้เลย) และเมื่อทดสอบกับโมเดลใหม่กว่า: GPT-5.5 — ยังต่ำกว่า 1% Opus 4.7 — ยังต่ำกว่า 1% ช่องว่างระหว่างมนุษย์ (100%) และ AI (ต่ำกว่า 1%) คือ gap ที่ใหญ่ที่สุดเท่าที่เคยมีมา ในประวัติศาสตร์ AI benchmarks

สามรูปแบบข้อผิดพลาดที่เป็นระบบ

ARC Prize Foundation ได้วิเคราะห์ 160 game runs ของ GPT-5.5 และ Opus 4.7 บน ARC-AGI-3 และพบว่ามี สามรูปแบบข้อผิดพลาดที่เป็นระบบ (systematic error patterns) ที่ทั้งสองโมเดลมีเหมือนกัน แม้จะแสดงออกมาในรูปแบบที่แตกต่างกัน:

1. เห็นรายละเอียดแต่พลาดภาพรวม (See Details, Miss the Big Picture)

โมเดล AI สามารถระบุองค์ประกอบเดี่ยวๆ ใน environment ได้ดี — เช่น เห็นว่ามี bucket อยู่ มี object อยู่ มีการหมุนอยู่ แต่ ไม่สามารถเชื่อมโยงสิ่งเหล่านี้เข้าด้วยกัน เป็นความเข้าใจภาพรวมของกลไกเกมได้ ตัวอย่างเช่น Opus 4.7 เข้าใจว่าการกระทำหนึ่ง (ACTION3) หมุนวัตถุ แต่ไม่สามารถเข้าใจกลไกโดยรวมของเกมว่าต้องเอา bucket ไปตรงนั้นแล้วจุ่มลงไป

2. การรับรู้ผิดพลาด (Perception Errors)

โมเดลมักตีความสิ่งที่เห็นใน environment ผิด ไม่ว่าจะเป็นตำแหน่ง ทิศทาง หรือความสัมพันธ์ระหว่างวัตถุ เมื่อเริ่มต้นด้วยการรับรู้ที่ผิด การตัดสินใจที่ตามมาก็ผิดไปด้วยทั้งหมด

3. การคงอยู่ของข้อผิดพลาด (Error Persistence)

เมื่อโมเดลเริ่มผิดทาง มัน ไม่สามารถกลับมาแก้ตัวได้ ข้อผิดพลาดจะสะสมและทำให้การแก้ปัญหาทั้งหมดผิดพลาดไปหมด ซึ่งต่างจากมนุษย์ที่สามารถถอยกลับ ทบทวน และเปลี่ยนกลยุทธ์ได้เมื่อรู้ว่าทางเดิมไม่ได้ผล

ทำไมผลลัพธ์ถึงสำคัญ?

ผลจาก ARC-AGI-3 สำคัญหลายประการ: เผยข้อจำกัดพื้นฐานของ AI ปัจจุบัน — โมเดลที่ train ด้วย static next-token prediction ฝืดเมื่อต้องทำ active reasoning loops แสดงว่า AI ไม่ได้ "ฉลาด" ในความหมายเดียวกับมนุษย์ — AI อาจผ่าน benchmark อื่นๆ ได้ดี แต่เมื่อเจอสถานการณ์ที่ต้องเรียนรู้จากการลองทำจริง ก็ยังทำไม่ได้ ARC Prize Foundation เสนอรางวัล $2 ล้าน สำหรับใครก็ตามที่สร้าง AI ที่สามารถทำคะแนนเท่ามนุษย์บน ARC-AGI-3 ได้ — แสดงว่า community ให้ความสำคัญกับปัญหานี้มาก เป็นสัญญาณเตือนสำหรับการใช้ AI ในงานจริง — ถ้า AI ยังทำ interactive reasoning ไม่ได้ดี เราต้องระวังในการใช้ AI ในสถานการณ์ที่ต้องตัดสินใจแบบ real-time

อะไรต่อไป?

ผลจาก ARC-AGI-3 ไม่ได้หมายความว่า AI ไม่มีประโยชน์ — AI ยังเก่งมากในหลายๆ ด้าน แต่มันเป็นเครื่องเตือนใจว่า: เรายัง ห่างจาก AGI มาก กว่าที่ benchmark อื่นๆ อาจทำให้เข้าใจ การพัฒนา AI ที่สามารถ เรียนรู้แบบ interactive ได้อย่างแท้จริง ยังเป็นปัญหาเปิดที่ยากมาก อาจต้องมี paradigm shift ในวิธีการ train AI — ไม่ใช่แค่เพิ่มข้อมูลหรือพารามิเตอร์ แต่อาจต้องเปลี่ยนแนวทางพื้นฐาน ARC-AGI-3 เป็น benchmark ที่ทำให้เราต้องกลับมาตั้งคำถามว่า "ปัญญาประดัษฐ์" แปลว่าอะไรกันแน่ — และคำตอบอาจซับซ้อนกว่าที่เราคิด แหล่งอ้างอิง: Even the latest AI models make three systematic reasoning errors, ARC-AGI-3 analysis shows