ข้ามไปยังเนื้อหา

ลืม RAG ไปได้เลย! Karpathy โชว์ทริคสร้าง LLM Knowledge Base ด้วย Markdown

เทคโนโลยี
1 ครั้ง
0 ความเห็น
3 นาที
ลืม RAG ไปได้เลย! Karpathy โชว์ทริคสร้าง LLM Knowledge Base ด้วย Markdown
Photo by geralt on Pixabay
By Suphansa Makpayab
TL;DR

Andrej Karpathy อดีตผู้บริหาร OpenAI เผยเทคนิค 'LLM Knowledge Bases' ใช้ AI เป็นบรรณารักษ์จัดระเบียบไฟล์ Markdown แทนการใช้ RAG และ Vector DB แบบเดิมๆ ช่วยให้ AI จำข้อมูลได้แม่นยำ ตรวจสอบง่าย และนำไปต่อยอดระดับองค์กรได้สบาย

ใครที่เคยเขียนโค้ดร่วมกับ AI น่าจะคุ้นเคยกับความเจ็บปวดเวลาที่เซสชันหมดอายุหรือ Token เต็ม จน AI เกิดอาการความจำเสื่อมกะทันหัน ล่าสุด Andrej Karpathy อดีตผู้บริหารฝ่าย AI ของ Tesla และผู้ร่วมก่อตั้ง OpenAI ได้ออกมาแชร์เทคนิคใหม่ที่เรียกว่า LLM Knowledge Bases เพื่อแก้ปัญหานี้แบบถอนรากถอนโคน

ช่วงหลายปีที่ผ่านมา วงการ AI มักจะพึ่งพาเทคนิค RAG (Retrieval-Augmented Generation) และ Vector DB ในการยัดข้อมูลส่วนตัวให้ AI อ่าน (ซึ่งเทรนด์หนี RAG กำลังมาแรง เหมือนที่ Mastra เพิ่งโชว์เทคนิค Observational Memory ไปก่อนหน้านี้) ปัญหาคือ Vector DB ทำงานเหมือนโกดังสินค้าขนาดใหญ่ที่หาของเจอเร็วก็จริง แต่ไม่รู้ว่าของชิ้นนั้นมาอยู่ตรงนี้ได้ยังไง

Karpathy เลยเสนอทางออกที่เรียบง่ายกว่านั้น คือการให้ LLM สวมบทเป็น "บรรณารักษ์" คอยจัดการไฟล์ Markdown (.md) ซึ่งเป็นฟอร์แมตที่ AI อ่านง่ายที่สุด โดยแบ่งการทำงานออกเป็น 3 ขั้นตอนหลัก:

  1. Data Ingest: โยนข้อมูลดิบทุกอย่าง (เปเปอร์วิจัย, โค้ดจาก GitHub, บทความเว็บ) ลงในโฟลเดอร์ raw/ โดย Karpathy ใช้ปลั๊กอิน Obsidian Web Clipper ช่วยดูดเนื้อหาเว็บมาเป็นไฟล์ .md
  2. The Compilation Step: แทนที่จะแค่ทำ Index ให้ไฟล์ AI จะทำหน้าที่ "คอมไพล์" ข้อมูลดิบเหล่านั้นให้ออกมาเป็น Wiki ที่มีโครงสร้างชัดเจน ทั้งเขียนสรุป ดึงใจความสำคัญ และสร้าง Backlink เชื่อมโยงไอเดียต่างๆ เข้าด้วยกัน
  3. Active Maintenance (Linting): ระบบนี้ไม่ได้ทำแล้วทิ้ง แต่ AI จะคอยสแกนหาจุดบกพร่อง ข้อมูลที่หายไป หรือเชื่อมโยงความสัมพันธ์ใหม่ๆ คล้ายกับการตรวจสุขภาพ (Health Check) ให้ระบบจัดการตัวเองได้แบบอัตโนมัติ

ข้อดีของการใช้ไฟล์ Markdown เป็นแหล่งข้อมูลอ้างอิงหลัก (Source of Truth) คือมันแก้ปัญหา Black Box ของ Vector DB ได้เด็ดขาด เพราะทุกคำตอบที่ AI พ่นออกมา มนุษย์สามารถตามไปอ่าน แก้ไข หรือลบไฟล์ .md ต้นทางได้ด้วยตัวเองทั้งหมด ตามปรัชญา "File-over-app" ที่เน้นให้ผู้ใช้งานเป็นเจ้าของข้อมูลอย่างแท้จริง

แนวคิดนี้ไม่ได้หยุดอยู่แค่โปรเจกต์ส่วนตัว Lex Fridman พอดแคสเตอร์ชื่อดังก็ออกมายืนยันว่าใช้สถาปัตยกรรมคล้ายๆ กันนี้สร้าง Wiki ชั่วคราวให้ AI สรุปข้อมูลก่อนไปวิ่งจ็อกกิ้ง ในขณะที่ระดับองค์กร นี่คือขุมทรัพย์ชั้นดี เพราะทุกบริษัทล้วนมีโฟลเดอร์เก็บข้อมูลดิบที่รอวันให้ AI เข้ามาสังคายนาให้กลายเป็น "คัมภีร์บริษัท" ที่อัปเดตแบบเรียลไทม์

ในอนาคต ข้อมูลที่ถูก AI จัดระเบียบจนสะอาดหมดจดนี้ จะกลายเป็นวัตถุดิบชั้นเลิศสำหรับการ Fine-Tuning โมเดลขนาดเล็กให้กลายเป็นผู้เชี่ยวชาญส่วนตัวได้สบายๆ... ว่าแต่โฟลเดอร์ข้อมูลดิบในเครื่องทำงานของคุณตอนนี้ รกจน AI เห็นแล้วต้องร้องขอชีวิตหรือเปล?

ความเห็น (0)

เข้าสู่ระบบเพื่อแสดงความเห็น

เข้าสู่ระบบ

ยังไม่มีความเห็น

เป็นคนแรกที่แสดงความเห็นในบทความนี้