Events

Multi-TW 繁體中文多模態 Benchmark

AI Benchmark
多模態
繁體中文
SC-TOP
AI Research

在 AI 極速擴張的情況下,不只做,更要「做對」。

#Multi-TW 為繁中多模態 AI 打造一把精準的尺!

在 AI 領域,評測基準 (#Benchmark) 能讓我們更清楚前進的方向。

NTUAI 發起 Multi-TW 計畫,因為我們發現,繁體中文領域長期缺少一個能同時評估「圖像+語音+文字」三種模態、並符合在地情境的標準。

很高興 Multi-TW 推出後,近期在 AI 社群受到廣泛迴響,也被收錄於「台灣 LLM Benchmark 收藏牆」。

我們想藉此分享 Multi-TW 的三個關鍵設計:

  1. 權威的語料來源:與 #SC-TOP 合作

為確保評測的公信力與難度,我們與「華語文能力測驗推動工作委員會 (SC-TOP)」合作,導入 900 題官方華語能力測驗試題,這是目前繁中多模態領域罕見的高品質語料。

  1. 獨特的評測指標:納入「推論延遲 (Inference Latency)」

AI 應用不能只談準確,更要實用。Multi-TW 是少數將「延遲」納入指標的 benchmark,它能幫助開發者客觀比較 E2E(端到端)與 #VLM + #ASR(串接)兩種架構在效能上的真實差異,這對即時應用至關重要。

  1. 專注「理解力」:全選擇題的多模態測試

Multi-TW 中 900 題均為「圖像+文字」與「音訊+文字」的多選題,能評測模型的「綜合理解力」,而非單純的生成能力,更貼近真實的語言學習情境。

我們邀請所有致力於繁中 AI 的夥伴,實際使用 Multi-TW 並給予我們反饋,也期待更多夥伴加入繁中多模態的生態系,推動台灣 AI 發展。

快速透過 Podcast 了解 Multi-TW : bit.ly/ntuai-Multi-TW-podcast

詳細了解 Multi-TW 與研究結果 : bit.ly/ntuai-Multi-TW-arxiv

Hugging Face : bit.ly/ntuai-Multi-TW-datasets