NVIDIA เปิดตัว NVIDIA Dynamo ซอฟต์แวร์อนุมาน (Inference) แบบโอเพนซอร์ส เพื่อเร่งความเร็วและปรับขนาดโมเดล AI เชิงเหตุผล (reasoning models) ใน AI factories (ศูนย์ประมวลผล AI ขนาดใหญ่) ให้มีประสิทธิภาพสูงสุด และลดต้นทุน
การจัดการและประสานงานคำขออนุมาน AI อย่างมีประสิทธิภาพ ผ่าน GPU จำนวนมาก เป็นสิ่งสำคัญเพื่อให้ AI factories ทำงานด้วยต้นทุนที่ต่ำที่สุด เพื่อสร้างรายได้จาก token ให้ได้มากที่สุด
เมื่อ AI เชิงเหตุผลกลายเป็นกระแสหลัก ทุกโมเดล AI จะสร้าง token หลายหมื่นรายการที่ใช้ในการ “คิด” ในทุกๆ prompt การเพิ่มประสิทธิภาพการอนุมานในขณะที่ลดต้นทุนการอนุมานอย่างต่อเนื่อง จะช่วยเร่งการเติบโตและเพิ่มโอกาสในการสร้างรายได้สำหรับผู้ให้บริการ
NVIDIA Dynamo ซึ่งเป็นรุ่นต่อจาก NVIDIA Triton Inference Server™ เป็นซอฟต์แวร์ให้บริการอนุมาน AI ใหม่ ที่ออกแบบมาเพื่อเพิ่มรายได้จาก token สำหรับ AI factories ที่ใช้โมเดล AI เชิงเหตุผล โดยจะจัดการและเร่งการสื่อสารการอนุมานผ่าน GPU หลายพันตัว และใช้การให้บริการแบบแยกส่วน (disaggregated serving) เพื่อแยกขั้นตอนการประมวลผลและการสร้าง (generation) ของโมเดลภาษาขนาดใหญ่ (LLMs) บน GPU ที่แตกต่างกัน ซึ่งช่วยให้แต่ละขั้นตอนได้รับการปรับให้เหมาะสมอย่างอิสระสำหรับความต้องการเฉพาะ และรับประกันการใช้ทรัพยากร GPU สูงสุด
“อุตสาหกรรมทั่วโลกกำลังฝึกอบรมโมเดล AI ให้คิดและเรียนรู้ในรูปแบบต่างๆ ทำให้มีความซับซ้อนมากขึ้นเมื่อเวลาผ่านไป” Jensen Huang ผู้ก่อตั้งและ CEO ของ NVIDIA กล่าว “เพื่อเปิดใช้งานอนาคตของ AI เชิงเหตุผลที่กำหนดเอง NVIDIA Dynamo ช่วยให้บริการโมเดลเหล่านี้ในวงกว้าง ขับเคลื่อนการประหยัดต้นทุนและประสิทธิภาพทั่วทั้ง AI factories”
ด้วยจำนวน GPU เท่าเดิม Dynamo เพิ่มประสิทธิภาพและรายได้ของ AI factories ที่ให้บริการโมเดล Llama บนแพลตฟอร์ม NVIDIA Hopper™ เป็นสองเท่า เมื่อรันโมเดล DeepSeek-R1 บนคลัสเตอร์ขนาดใหญ่ของ GB200 NVL72 racks การเพิ่มประสิทธิภาพการอนุมานอัจฉริยะของ NVIDIA Dynamo ยังเพิ่มจำนวน token ที่สร้างขึ้นมากกว่า 30 เท่าต่อ GPU
เพื่อให้ได้มาซึ่งการปรับปรุงประสิทธิภาพการอนุมานเหล่านี้ NVIDIA Dynamo ได้รวมคุณสมบัติที่ช่วยเพิ่ม throughput และลดต้นทุน โดยสามารถเพิ่ม, ลบ และจัดสรร GPU ใหม่แบบไดนามิกเพื่อตอบสนองต่อปริมาณและประเภทคำขอที่ผันผวน รวมถึงระบุ GPU เฉพาะในคลัสเตอร์ขนาดใหญ่ที่สามารถลดการคำนวณการตอบสนองและกำหนดเส้นทางคิวรีได้ นอกจากนี้ยังสามารถถ่ายโอนข้อมูลการอนุมานไปยังอุปกรณ์หน่วยความจำและอุปกรณ์จัดเก็บข้อมูลที่มีราคาไม่แพง และเรียกคืนได้อย่างรวดเร็วเมื่อจำเป็น ซึ่งช่วยลดต้นทุนการอนุมาน
NVIDIA Dynamo เป็นโอเพนซอร์สเต็มรูปแบบ และรองรับ PyTorch, SGLang, NVIDIA TensorRT™-LLM และ vLLM เพื่อให้องค์กร, สตาร์ทอัพ และนักวิจัย สามารถพัฒนาและเพิ่มประสิทธิภาพวิธีการให้บริการโมเดล AI ผ่านการอนุมานแบบแยกส่วน ซึ่งจะช่วยให้ผู้ใช้สามารถเร่งการนำการอนุมาน AI ไปใช้ รวมถึงที่ AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI และ VAST
การอนุมานที่ทรงพลังยิ่งขึ้น
NVIDIA Dynamo จับคู่ความรู้ที่ระบบการอนุมานมีอยู่ในหน่วยความจำจากการให้บริการคำขอก่อนหน้า (เรียกว่า KV cache) กับ GPU หลายพันตัว
จากนั้นจะส่งคำขออนุมานใหม่ไปยัง GPU ที่มีความรู้ที่ตรงกันที่สุด หลีกเลี่ยงการคำนวณซ้ำที่มีค่าใช้จ่ายสูง และเพิ่ม GPU เพื่อตอบสนองต่อคำขอใหม่ที่เข้ามา
“เพื่อจัดการกับคำขอนับแสนล้านรายการต่อเดือน เราพึ่งพา GPU ของ NVIDIA และซอฟต์แวร์การอนุมานเพื่อมอบประสิทธิภาพ ความน่าเชื่อถือ และขนาดที่ธุรกิจและผู้ใช้ของเราต้องการ” Denis Yarats ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ Perplexity AI กล่าว “เราหวังว่าจะได้ใช้ประโยชน์จาก Dynamo ด้วยความสามารถในการให้บริการแบบกระจายที่ได้รับการปรับปรุง เพื่อขับเคลื่อนประสิทธิภาพการให้บริการอนุมานให้มากยิ่งขึ้น และตอบสนองความต้องการด้านการประมวลผลของโมเดล AI เชิงเหตุผลใหม่”
Agentic AI
Cohere ผู้ให้บริการ AI กำลังวางแผนที่จะขับเคลื่อนความสามารถ agentic AI ในชุดโมเดล Command โดยใช้ NVIDIA Dynamo
“การปรับขนาดโมเดล AI ขั้นสูง ต้องใช้เทคนิคการอนุมานขั้นสูงใหม่ๆ รวมถึงการให้บริการแบบแยกส่วนและการกำหนดเส้นทางตามบริบท” Saurabh Baji รองประธานอาวุโสฝ่ายวิศวกรรมของ Cohere กล่าว “เราคาดว่า NVIDIA Dynamo จะช่วยให้เรามอบประสบการณ์ผู้ใช้ระดับพรีเมียมให้กับลูกค้าองค์กรของเรา”
การให้บริการแบบแยกส่วน (Disaggregated Serving)
แพลตฟอร์มการอนุมาน NVIDIA Dynamo ยังรองรับการให้บริการแบบแยกส่วน ซึ่งกำหนดขั้นตอนการคำนวณที่แตกต่างกันของ LLMs (รวมถึงการสร้างความเข้าใจเกี่ยวกับคำถามของผู้ใช้ จากนั้นจึงสร้างการตอบสนองที่ดีที่สุด) ให้กับ GPU ที่แตกต่างกัน แนวทางนี้เหมาะสำหรับโมเดลการให้เหตุผล เช่น ตระกูลโมเดล NVIDIA Llama Nemotron ใหม่ ซึ่งใช้เทคนิคการอนุมานขั้นสูงเพื่อปรับปรุงความเข้าใจในบริบทและการสร้างการตอบสนอง การให้บริการแบบแยกส่วนช่วยให้แต่ละขั้นตอนสามารถปรับแต่งและจัดสรรทรัพยากรได้อย่างอิสระ ปรับปรุง throughput และให้การตอบสนองที่รวดเร็วขึ้นแก่ผู้ใช้
Together AI, the AI Acceleration Cloud กำลังมองหาที่จะรวม Together Inference Engine ที่เป็นกรรมสิทธิ์ของตนเข้ากับ NVIDIA Dynamo เพื่อให้สามารถปรับขนาดปริมาณงานการอนุมานในโหนด GPU ได้อย่างราบรื่น นอกจากนี้ยังช่วยให้ Together AI สามารถแก้ไขปัญหาคอขวดของการรับส่งข้อมูลในขั้นตอนต่างๆ ของไปป์ไลน์โมเดลได้อย่างมีประสิทธิภาพ
“การปรับขนาดโมเดลการให้เหตุผลอย่างคุ้มค่าต้องใช้เทคนิคการอนุมานขั้นสูงใหม่ รวมถึงการให้บริการแบบแยกส่วนและการกำหนดเส้นทางตามบริบท” Ce Zhang ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ Together AI กล่าว “Together AI มอบประสิทธิภาพระดับแนวหน้าของอุตสาหกรรมโดยใช้เอ็นจิ้นการอนุมานที่เป็นกรรมสิทธิ์ของเรา ความเปิดกว้างและความเป็นโมดูลาร์ของ NVIDIA Dynamo จะช่วยให้เราสามารถเสียบส่วนประกอบเข้ากับเอ็นจิ้นของเราได้อย่างราบรื่น เพื่อให้บริการคำขอได้มากขึ้นในขณะที่ปรับการใช้ทรัพยากรให้เหมาะสม เพิ่มการลงทุนด้านคอมพิวเตอร์แบบเร่งความเร็วของเราให้สูงสุด เรารู้สึกตื่นเต้นที่จะใช้ประโยชน์จากความสามารถที่ก้าวล้ำของแพลตฟอร์มเพื่อนำโมเดลการให้เหตุผลแบบโอเพนซอร์สมาสู่ผู้ใช้ของเราอย่างคุ้มค่า”
NVIDIA Dynamo Unpacked
NVIDIA Dynamo มีนวัตกรรมสำคัญ 4 ประการที่ช่วยลดต้นทุนการให้บริการอนุมานและปรับปรุงประสบการณ์ผู้ใช้:
- GPU Planner: เอ็นจิ้นการวางแผนที่เพิ่มและลบ GPU แบบไดนามิกเพื่อปรับให้เข้ากับความต้องการของผู้ใช้ที่ผันผวน หลีกเลี่ยงการจัดสรร GPU มากเกินไปหรือน้อยเกินไป
- Smart Router: เราเตอร์ที่รับรู้ LLM ซึ่งจะนำทางคำขอไปยัง GPU จำนวนมาก เพื่อลดการคำนวณซ้ำที่มีค่าใช้จ่ายสูงของคำขอซ้ำหรือคำขอที่ทับซ้อนกัน ทำให้ GPU ว่างเพื่อตอบสนองต่อคำขอใหม่ที่เข้ามา
- Low-Latency Communication Library: ไลบรารีที่ปรับให้เหมาะสมสำหรับการอนุมาน ซึ่งรองรับการสื่อสารระหว่าง GPU ต่อ GPU ที่ล้ำสมัย และขจัดความซับซ้อนของการแลกเปลี่ยนข้อมูลระหว่างอุปกรณ์ที่แตกต่างกัน เร่งการถ่ายโอนข้อมูล
- Memory Manager: เอ็นจิ้นที่ถ่ายโอนและโหลดข้อมูลการอนุมานไปยังและจากอุปกรณ์หน่วยความจำและอุปกรณ์จัดเก็บข้อมูลที่มีต้นทุนต่ำกว่าอย่างชาญฉลาด โดยไม่ส่งผลกระทบต่อประสบการณ์ผู้ใช้
NVIDIA Dynamo จะพร้อมใช้งานใน NVIDIA NIM™ microservices และได้รับการสนับสนุนใน NVIDIA AI Enterprise software platform รุ่นอนาคต พร้อมความปลอดภัย, การสนับสนุน และความเสถียรระดับการผลิต