Google เปิดตัว VaultGemma โมเดล AI ที่เซฟข้อมูลด้วย Differential Privacy

Google โชว์ VaultGemma โมเดล LLM ที่ฝึกด้วย Differential Privacy ระดับลำดับคำ ลดการจำข้อมูลส่วนตัวแบบคำต่อคำ โดยยังรักษาความสามารถใกล้รุ่นเก่าอย่าง GPT-2 และเปิดน้ำหนักกับวิธีฝึกให้ชุมชนทดลองต่อบน HuggingFace และ Kaggle
นักพัฒนา AI เจอปัญหาเดิมมานาน ยิ่งป้อนข้อมูลเทรนเยอะ โมเดลยิ่งเก่ง แต่เสี่ยงดูดข้อมูลส่วนตัวติดมาด้วย แล้วเผลอหลุดออกมาแบบคำต่อคำ ล่าสุดทีม Google Research กับ Google DeepMind เสนอทางออกชื่อ VaultGemma โมเดลที่พยายามบาลานซ์ Utility กับ Privacy โดยไม่ทำให้ Performance พัง
หัวใจของ VaultGemma คือ Differential Privacy (DP) หรือการใส่ “digital noise” ระหว่างเทรน ที่สำคัญคือฝัง DP ในระดับลำดับของ Tokens ทำให้โมเดลไม่สามารถจำรายละเอียดของ sequence ใดๆ ได้แบบเป๊ะๆ ผลคือถึงข้อมูลอ่อนไหวจะเผลอเข้าชุดเทรน ก็ไม่ถูกโมเดลคายออกมาซ้ำตรงๆ คำของ Google คือคำตอบที่ได้จะ “สถิติใกล้เคียง” กับโมเดลที่ไม่เคยเห็น sequence นั้นเลย
ความยากคือใส่ noise แล้วต้องไม่เสียคุณภาพ ทีมงานเลยไล่หาจุดลงตัวระหว่าง Compute, Privacy, และ Utility ตัว VaultGemma สร้างบนตระกูล Gemma 2 (เปิดตัวปี 2024) มีแค่ราว 1 พันล้านพารามิเตอร์ แต่ผลเทียบ benchmark ทำได้ใกล้เคียงรุ่นเก่าอย่าง OpenAI GPT-2 บอกเป็นนัยว่าเส้นทาง Optimize แบบนี้มีอนาคต แม้ยังไกลจากโมเดลตัวท็อปในตลาด
Google สรุปว่าโมเดลที่เทรนแบบ Private วันนี้ ให้ Utility ใกล้กับโมเดล Non-Private เมื่อประมาณ 5 ปีก่อน ช่องว่างยังมีให้ไล่ตาม แต่กรอบวิธีนี้ช่วยให้วงการค่อยๆ ปิดช่องว่างได้เป็นระบบและปลอดภัยขึ้นสำหรับผู้ใช้
เพื่อเร่งชุมชนให้ช่วยกันต่อยอด Google ปล่อยน้ำหนักโมเดลและวิธีเทรนของ VaultGemma ในงานวิจัย พร้อมให้เข้าถึงได้บน HuggingFace และ Kaggle ใครสนใจลองเล่น ปรับแต่ง หรือศึกษาวิธีทำ Private LLM แบบจริงจัง ก็เริ่มได้ทันที
ความเห็น (0)
เข้าสู่ระบบเพื่อแสดงความเห็น
เข้าสู่ระบบยังไม่มีความเห็น
เป็นคนแรกที่แสดงความเห็นในบทความนี้