ข้ามไปยังเนื้อหา

วิดีโอจาก AI ทำงานยังไง? ถอดสูตรจาก Diffusion ถึง Transformers

เทคโนโลยี
1 ครั้ง
0 ความเห็น
1 นาที
By Uncle Bear
TL;DR

ปีนี้ AI วิดีโอพุ่งแรงสุดๆ ตั้งแต่ Sora, Veo 3 จนถึง Runway Gen-4 ใช้งานได้ในแอปยอดนิยม แต่ก็ตามมาด้วยปัญหาคอนเทนต์เฟคนิวส์และการใช้พลังงานสูง เบื้องหลังคือโมเดลแบบ diffusion ที่ถูกอัปเกรดให้ฉลาดและคงที่ด้วย transformers และเทคนิคบีบอัดแบบ latent

ปีนี้คือปีของวิดีโอจาก AI จริงๆ OpenAI เปิด Sora, Google DeepMind ปล่อย Veo 3 และ Runway ออก Gen-4 คลิปที่ได้แทบแยกไม่ออกจากงานถ่ายจริงหรือ CGI แถม Netflix ยังใช้เอฟเฟกต์ภาพจาก AI ใน The Eternaut ซึ่งนับเป็นครั้งแรกที่งานเจนเนอเรทีฟถูกใช้กับทีวีตลาดวงกว้าง ตอนนี้คนทั่วไปที่สมัครแบบเสียเงินก็ลองได้ในแอป ChatGPT และ Gemini แต่ด้านลบคือครีเอเตอร์ต้องเจอกับกองคอนเทนต์ AI คุณภาพต่ำ และฟีดโซเชียลเริ่มเต็มไปด้วยคลิปข่าวปลอม อีกทั้งการสร้างวิดีโอยังกินพลังงานสูงมาก

การใช้งานสำหรับคนทั่วไปก็แค่พิมพ์พรอมป์ เช่น “ทำวิดีโอยูนิคอร์นกินสปาเกตตี้ แล้วให้เขางอกลอยขึ้นเหมือนจรวด” ผลลัพธ์อาจโดนบ้างพลาดบ้าง ต้องกดให้โมเดลลองใหม่หลายรอบกว่าจะได้ใกล้เคียงที่คิด ซึ่งทั้งหมดนี้เกิดจากกระบวนการคำนวณหนักๆ ใต้ฝากระโปรง

แกนกลางคือ diffusion model ซึ่งเรียนรู้การ “ไล่รบกวน” ย้อนกลับจากภาพที่เป็นสัญญาณรบกวนให้กลายเป็นภาพที่มีรายละเอียด และให้ได้ตรงกับพรอมป์มากขึ้นด้วยตัวช่วยอีกตัวที่จับคู่ข้อความกับภาพ วัสดุฝึกสอนส่วนใหญ่คือคู่วิดีโอ/ภาพกับข้อความจำนวนมหาศาลที่เก็บมาจากอินเทอร์เน็ต ทำให้ผลลัพธ์สะท้อนโลกออนไลน์ทั้งที่มีอคติและคอนเทนต์ล่อแหลม เทคนิคเดียวกันนี้ขยายจากรูปภาพไปสู่ “ลำดับเฟรม” ของวิดีโอได้ด้วย เพียงแต่ต้องรักษาความต่อเนื่องข้ามเฟรม

เพื่อให้เร็วและคุ้มพลังงานขึ้น จึงมี latent diffusion แทนที่จะคำนวณบนพิกเซลดิบๆ โมเดลจะบีบอัดวิดีโอและพรอมป์เข้าสู่ “ละติเอนต์สเปซ” ที่เหลือไว้แต่สาระสำคัญ แล้วค่อยทำกระบวนการไล่รบกวนในสเปซนั้น เสร็จแล้วจึงคลายกลับเป็นวิดีโอที่ดูได้ วิธีนี้ประหยัดคำนวณกว่ามาก แม้อย่างไรการสร้างวิดีโอยังใช้พลังงานมากกว่าการสร้างภาพนิ่งหรือข้อความหลายเท่า

ชิ้นส่วนสำคัญอีกตัวคือ transformers ที่ช่วยให้เฟรมต่อเฟรม “คงที่” ทั้งวัตถุและแสงเงา OpenAI ทำแบบนี้ใน Sora โดยหั่นวิดีโอเป็นชิ้นเล็กๆ ทั้งตามพื้นที่และเวลา คล้ายตัดเป็นก้อนลูกบาศก์ การใช้ transformers คู่กับ diffusion ทำให้โมเดลรักษาความต่อเนื่องได้ดีขึ้น วัตถุไม่โผล่ๆ หายๆ และเพราะวิดีโอถูกหั่นเป็นชิ้น ขนาดและอัตราส่วนภาพจึงยืดหยุ่น ฝึกจากคลิปมือถือแนวตั้งไปจนถึงหนังจอไวด์ได้ ส่งผลให้คุณภาพก้าวกระโดดและรองรับหลายฟอร์แมต

ด้านเสียง Veo 3 คือก้าวใหญ่ เพราะสร้างภาพพร้อมเสียงที่ซิงก์กันได้ ทั้งบทพูด เอฟเฟกต์ และเสียงแวดล้อม ไอเดียคือบีบอัดภาพกับเสียงรวมเป็นละติเอนต์เดียว แล้วให้กระบวนการ diffusion สร้างทั้งคู่แบบก้าวต่อก้าวจึงซิงก์กันเป๊ะ ส่วนโมเดลข้อความอย่าง LLM โดยทั่วไปยังใช้สถาปัตยกรรม transformers แต่เส้นแบ่งเริ่มเบลอ Google DeepMind กำลังทดลอง LLM ที่ใช้ diffusion แทน transformers เพื่อสร้างข้อความ ซึ่งอาจประหยัดพลังงานกว่า คาดว่าเราจะเห็นบทบาทของ diffusion เพิ่มขึ้นอีกเร็วๆ นี้

ความเห็น (0)

เข้าสู่ระบบเพื่อแสดงความเห็น

เข้าสู่ระบบ

ยังไม่มีความเห็น

เป็นคนแรกที่แสดงความเห็นในบทความนี้