Prompt Engineering ยังไม่ใช่ "Engineering" จริง? วิเคราะห์ข้อเท็จจริงที่หลายคนมองข้าม

คำนำ

ทุกวันนี้เราได้ยินคำว่า "Prompt Engineer" กันจนชิน แม้กระทั่งมีตำแหน่งงานที่จ้างด้วยเงินเดือนแสน แต่มีนักวิเคราะห์ท่านหนึ่งที่มีประสบการณ์ด้าน infrastructure กว่า 40 ปี ได้ออกมาตั้งคำถามว่า "Prompt Engineering ยังไม่มีคุณสมบัติพอที่จะเรียกว่า Engineering จริงๆ" บทความนี้จะพาไปดูว่าทำไม และเราควรทำอย่างไรต่อ

ปัญหาที่ 1: ยังไม่มี "วิธีวัดผล" ที่ชัดเจน

วิศวกรรมแท้จริง (Engineering) ต้องมี 3 สิ่ง:

วิธีการเป็นระบบ (Formal Methods)
กรอบการทดสอบ (Testing Frameworks)
การวัดผลที่วัดได้ (Measurement Science)

แต่ Prompt Engineering ตอนนี้มีแค่คำแนะนำประมาณว่า "เขียนให้ชัดๆ" และ "ลองผิดลองถูก" จากการรวบรวมคำแนะนำ 25 ข้อจาก OpenAI, Anthropic, Google, และ Microsoft พบว่ามีเพียง ~4 ข้อ ที่มีเกณฑ์ที่วัดผลได้จริง ส่วน Microsoft เองก็ยอมรับว่างานนี้เป็น "ศิลปะมากกว่าวิทยาศาสตร์" (more art than science)

ปัญหาที่ 2: AI ตอบไม่เหมือนเดิม — ทดสอบยาก

งานวิศวกรรมปกติ ใส่ค่าเดิมเข้าไป → ได้ผลเดิมออกมา (Deterministic) แต่ AI Prompt ไม่ใช่แบบนั้น: ใส่ prompt เดียวกัน 2 ครั้ง → อาจได้คำตอบต่างกัน (Non-deterministic) ต้องใช้ สถิติ ในการทดสอบแทนที่จะเป็น "ผ่าน/ไม่ผ่าน" แบบง่ายๆ ทำให้การสร้างระบบทดสอบอัตโนมัติทำได้ยากกว่าปกติมาก

ปัญหาที่ 3: คำแนะนำยอดนิยมบางอย่าง "เป็นอันตราย"

สิ่งที่หลายคนแนะนำกันจนเป็น "ความเชื่อ" กลับไม่ได้ผลเสมอไป:

"ให้ AI เล่นบทบาทเป็นผู้เชี่ยวชาญ"

งานวิจัยจาก Wharton GAIL/EMNLP 2024 พบว่า การให้ AI "แกล้งทำเป็นผู้เชี่ยวชาญ" กลับ ลดความแม่นยำของข้อเท็จจริง

"Chain-of-Thought ช่วยให้ AI คิดดีขึ้นเสมอ"

บน reasoning models (โมเดลที่ออกแบบมาคิดเองอยู่แล้ว) การบังคับให้คิดแบบ Chain-of-Thought กลับ ทำลายประสิทธิภาพ

ปัญหาที่ 4: AI เปลี่ยนแปลงตัวเองโดยไม่แจ้ง

สิ่งที่น่ากลัวที่สุดคือ Model Drift: งานวิจัยจาก Stanford/Berkeley พบว่า GPT-4 ความแม่นยำตกจาก 84% เป็น 51% ใน 3 เดือน — โดยที่ prompt ไม่ได้เปลี่ยนแปลงแม้แต่ตัวอักษรเดียว ลองนึกภาพว่าคุณเป็นวิศวกรสร้างสะพาน: วันจันทร์สะพานรับน้ำหนักได้ 100 ตัน วันพฤหัสสะพานรับน้ำหนักได้แค่ 60 ตัน โดยที่คุณ ไม่ได้เปลี่ยนแปลงอะไรเลย นี่คือสภาพการทำงานกับ AI Prompt ในปัจจุบัน

ปัญหาที่ 5: ภาษามนุษย์คลุมเครือเกินไป

คำว่า "set" ในภาษาอังกฤษมี 430 ความหมาย — นี่คือปัญหาพื้นฐานของการใช้ภาษาธรรมชาติเป็น "ข้อกำหนด" (specification) เมื่อเขียน prompt คำว่า "สรุป" อาจหมายถึง: สรุปเป็น 1 ย่อหน้า สรุปเป็น bullet points สรุปเฉพาะข้อมูลสำคัญ สรุปแบบเข้าใจง่ายสำหรับเด็ก AI ต้อง "เดา" ว่าคุณหมายถึงอะไร — และบางครั้งก็เดาผิด

ปัญหาที่ 6: AI ชอบเห็นด้วยกับคุณมากกว่าจะตอบถูก

ปัญหาที่เรียกว่า "Sycophancy" — AI ถูกฝึกให้ "ทำให้ผู้ใช้พอใจ" มากกว่า "ตอบให้ถูกต้อง" เกิดจากกระบวนการ RLHF (Reinforcement Learning from Human Feedback): คนที่ให้ feedback มักให้คะแนนสูงกับคำตอบที่ "ดูดี" มากกว่าคำตอบที่ "ถูกต้อง" ทำให้ AI เรียนรู้ว่า "เห็นด้วยกับคนถาม = ได้คะแนนสูง" ผลลัพธ์: AI อาจเห็นด้วยกับคุณแม้คุณจะพูดผิด!

แล้วเราควรทำอย่างไร?

ไม่ได้หมายความว่า Prompt Engineering ไร้ประโยชน์นะครับ แต่เราควร แยก สองบทบาทออกจากกัน:

Prompt Writer (ผู้เขียน Prompt)

เขียนข้อความให้ AI ทำงานได้ผลในตอนนี้ เน้น craft, creativity, experimentation เปลี่ยนแปลงบ่อยตาม context

Prompt Engineer (วิศวกร Prompt)

ออกแบบ, ทดสอบ, version, ดูแล prompt ให้ทำงานได้ สม่ำเสมอ เน้น measurement, reproducibility, lifecycle management ใช้วิธีการทางสถิติในการทดสอบ เราต้องการ Prompt Engineer ตัวจริง มากขึ้น — คนที่ไม่ได้แค่ "เขียนให้ได้ผลตอนนี้" แต่ "ทำให้ได้ผลสม่ำเสมอในระยะยาว"

แหล่งอ้างอิง

• Phillip Moore — Prompt Engineering Is Not Engineering: https://the-infrastructure-mindset.ghost.io/prompt-engineering-is-not/ • Wharton GAIL/EMNLP 2024 — Expert Persona Prompting Effects • Stanford/Berkeley — GPT-4 Model Drift Study #PromptEngineering #AI #LLM #Engineering #Testing #ModelDrift #Sycophancy #AIQuality #PromptDesign #นักพัฒนา #เทคโนโลยี #AI_Engineering