Google เปิดตัว Gemma 3n (Preview): โมเดล AI ใหม่ เน้นประสิทธิภาพบนมือถือและความเป็นส่วนตัว

Share

Google ได้ประกาศเปิดตัว Gemma 3n ในรูปแบบ Early Preview ซึ่งเป็นโมเดล AI แบบเปิด (Open Model) ตัวล่าสุดในตระกูล Gemma ที่ถูกออกแบบมาโดยเน้นการใช้งานบนอุปกรณ์พกพาเป็นหลัก การเปิดตัวครั้งนี้เป็นส่วนหนึ่งของความพยายามในการผลักดันวิสัยทัศน์เรื่อง AI ที่เข้าถึงได้และสามารถทำงานได้โดยตรงบนอุปกรณ์ในชีวิตประจำวันของผู้ใช้งาน

แหล่งข่าวจาก Google ระบุว่า Gemma 3n ถูกสร้างขึ้นบนสถาปัตยกรรมใหม่ที่ล้ำสมัย ซึ่งพัฒนาขึ้นจากความร่วมมืออย่างใกล้ชิดกับผู้นำด้านฮาร์ดแวร์มือถือ เช่น Qualcomm Technologies, MediaTek และ Samsung System LSI สถาปัตยกรรมนี้ได้รับการปรับให้เหมาะสมสำหรับ AI แบบ Multimodal ที่ต้องการความรวดเร็วในการประมวลผล เพื่อสร้างประสบการณ์ที่เป็นส่วนตัวและปลอดภัยบนอุปกรณ์ของผู้ใช้โดยตรง นอกจากนี้ สถาปัตยกรรมดังกล่าวยังเป็นขุมพลังให้กับ Gemini Nano รุ่นถัดไป ซึ่งจะถูกนำไปใช้ในฟีเจอร์ต่างๆ ของแอป Google และระบบนิเวศบนอุปกรณ์ โดยคาดว่าจะพร้อมใช้งานจริงในช่วงปลายปีนี้

หนึ่งในนวัตกรรมสำคัญที่ Gemma 3n นำมาใช้คือเทคโนโลยี Per-Layer Embeddings (PLE) จาก Google DeepMind ซึ่งช่วยลดการใช้หน่วยความจำ (RAM) ลงได้อย่างมาก ทำให้โมเดลที่มีจำนวนพารามิเตอร์ดิบ 5 พันล้าน (5B) และ 8 พันล้าน (8B) สามารถทำงานบนอุปกรณ์พกพาได้โดยใช้หน่วยความจำเทียบเท่ากับโมเดลขนาด 2B และ 4B เท่านั้น (ใช้หน่วยความจำแบบไดนามิกประมาณ 2GB และ 3GB)

ความสามารถหลักที่น่าสนใจของ Gemma 3n

จากการเปิดเผยของ Google นั้น Gemma 3n ได้รับการออกแบบมาเพื่อประสบการณ์ AI ที่รวดเร็วและใช้ทรัพยากรน้อยสำหรับการทำงานบนอุปกรณ์โดยตรง โดยมีคุณสมบัติเด่นดังนี้:

  • ประสิทธิภาพและการประหยัดพลังงานบนอุปกรณ์ที่ปรับให้เหมาะสม: Gemma 3n ถูกระบุว่าเริ่มตอบสนองเร็วขึ้นประมาณ 1.5 เท่าบนอุปกรณ์พกพา และมีคุณภาพที่ดีขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับ Gemma 3 4B ทั้งยังลดการใช้หน่วยความจำลงด้วยนวัตกรรมต่างๆ
  • ความยืดหยุ่นแบบ Many-in-1: โมเดลนี้มาพร้อมความยืดหยุ่นในการปรับเปลี่ยนระหว่างประสิทธิภาพและคุณภาพได้ทันที โดยมี Submodel ขนาดเล็กซ้อนอยู่ภายใน และยังมีความสามารถ Mix’n’match เพื่อสร้าง Submodel แบบไดนามิกให้เหมาะสมกับ Use Case ต่างๆ
  • เน้นความเป็นส่วนตัวและพร้อมใช้งานออฟไลน์: การประมวลผลบนอุปกรณ์โดยตรงช่วยให้ฟีเจอร์ต่างๆ เคารพความเป็นส่วนตัวของผู้ใช้ และสามารถทำงานได้อย่างน่าเชื่อถือแม้ไม่มีการเชื่อมต่ออินเทอร์เน็ต
  • ขยายความเข้าใจแบบ Multimodal ด้วยเสียง: Gemma 3n สามารถเข้าใจและประมวลผลเสียง ข้อความ และรูปภาพ รวมถึงมีความสามารถในการเข้าใจวิดีโอที่เพิ่มขึ้น รองรับการรู้จำเสียงพูดอัตโนมัติ (ASR) และการแปลภาษาจากเสียงพูด โดยจะมีการเปิดให้ใช้งานจริงในเร็วๆ นี้
  • ความสามารถหลายภาษาที่ดีขึ้น: มีการปรับปรุงประสิทธิภาพในการทำงานหลายภาษา โดยเฉพาะภาษาญี่ปุ่น เยอรมัน เกาหลี สเปน และฝรั่งเศส ซึ่งสะท้อนจากผลการทดสอบ Benchmark ที่ดีขึ้น

ปลดล็อกประสบการณ์ใหม่ๆ สำหรับผู้ใช้งานขณะเดินทาง

Google คาดการณ์ว่า Gemma 3n จะช่วยเสริมพลังให้กับคลื่นลูกใหม่ของแอปพลิเคชันอัจฉริยะที่ใช้งานได้ทุกที่ทุกเวลา โดยจะช่วยให้นักพัฒนาสามารถสร้างประสบการณ์แบบสดๆ ที่โต้ตอบกับสิ่งแวดล้อมของผู้ใช้ได้, เสริมพลังความเข้าใจที่ลึกซึ้งและการสร้างข้อความตามบริบทโดยใช้อินพุตจากหลาย Modal (เสียง, รูปภาพ, วิดีโอ, ข้อความ) ที่ประมวลผลบนอุปกรณ์, และพัฒนาแอปพลิเคชันที่เน้นเสียงขั้นสูง เช่น การถอดเสียงพูดแบบเรียลไทม์และการแปลภาษา

การพัฒนาอย่างมีความรับผิดชอบ

Google ย้ำถึงความมุ่งมั่นในการพัฒนา AI อย่างมีความรับผิดชอบ โดยระบุว่า Gemma 3n ได้ผ่านการประเมินความปลอดภัยอย่างเข้มงวด การกำกับดูแลข้อมูล และการปรับแต่งให้สอดคล้องกับนโยบายความปลอดภัย เช่นเดียวกับโมเดล Gemma อื่นๆ

การเข้าถึง Gemma 3n (Preview)

สำหรับนักพัฒนาและผู้ที่สนใจ Google ได้เปิดให้ทดลอง Gemma 3n ในรูปแบบ Preview แล้วตั้งแต่วันนี้ โดยสามารถเข้าถึงได้ผ่านช่องทางต่อไปนี้:

  • ทดลองบนคลาวด์ด้วย Google AI Studio: ผู้ใช้สามารถทดลอง Gemma 3n ได้โดยตรงผ่านเบราว์เซอร์บน Google AI Studio โดยไม่จำเป็นต้องตั้งค่าใดๆ และสามารถสำรวจความสามารถด้านอินพุตข้อความได้ทันที
  • พัฒนาบนอุปกรณ์ด้วย Google AI Edge: สำหรับนักพัฒนาที่ต้องการผสาน Gemma 3n เข้ากับการทำงานบนอุปกรณ์โดยตรง Google AI Edge มีเครื่องมือและไลบรารีพร้อมให้ใช้งาน โดยสามารถเริ่มต้นด้วยความสามารถในการเข้าใจ/สร้างข้อความและรูปภาพได้แล้ว

การเปิดตัว Gemma 3n preview นี้ ถือเป็นอีกก้าวของ Google ในการทำให้เทคโนโลยี AI ที่ล้ำสมัยและมีประสิทธิภาพสามารถเข้าถึงได้ในวงกว้างยิ่งขึ้น

AI/ Model

เรื่องที่น่าสนใจ