AI研究論文速讀 | 比較多語言LLM Prompting效益●

ChatGPT 我地用得多 但你有冇都曾經諗過

用中文prompt 問佢野 vs 用英文prompt問佢野 佢既準確性會有幾大分別?

//

一路以黎我都比較執著用英文問LLM 野, 然後叫佢「response in Traditional Chinese」

因為我主觀覺得,用英文問 先最直接觸及到佢訓練知識源 , aka 最準

為左證實呢樣野, 我搵左D 有關呢方面既LLM research paper 黎睇

Dataset

//

Spoiler / tl;dr :

  1. 英文 vs 中文 performance 的確存在差距,但並唔係十分大,一般用家可以不用特別理會 而且呢篇係4月publish,即係未有4o,

模型能力愈出愈強, 差距必然會愈黎愈細 所以養成使用習慣,比追求高精確率更重要

//

  1. 論文只包含ChatGPT, Gemini 同其他幾個open source model 無 Claude 模型,建議先相信自己使用體驗同直覺去使用。 我自己個人感覺Claude 用起上黎就算用中文問都冇咩大分別

但商用,開發,或者對專業度,精確度有要求既話,建議首選英文input

//

以下技術向內容 for 有興趣朋友參考 :

呢個係Microsoft research team 做, 有關不同LLM 模型對於不同語言input / output 既performance benchmarking research 語言

sample : 有83種語言, 對應唔同類型既Dataset , 總共 22個

LLM sample : 下圖一 個12個

測試面向cover 唔同場境,例如translation, summarization, 情感分析, 圖像分析之類, 下圖二

llm-models !llm-mindmap

//

Result takeaways :

  • OpenAI 系列係對應不同語言場境performance 最好, 可能因為pre-train dataset 夠足,但基本上都係英文壟斷晒第一位,偶而有一兩個evaluation 意大利文同法文跟到

  • (佢中文只分簡體繁,廣東話冇被考慮在內)

  • 比起拉丁語家族,中文 (Sino-Tibetan) 係多個測試dataset類別,都被歸類為low scores candidates , 尤其 XM-3600 dataset 測vision 能力時 , 分數同日文 / 泰文一樣都係最低分組。雖然分數差別都係大概十分咁上下

  • 較小型開源模型清一色以英文為主導,完全無得比

  • Research team 測試用既prompt 值得參考 (You are a helpful NLP assistant solving XXXX)

  • 我個人覺得如果佢以而家呢個model market , i.e. 包埋GPT4o , Sonnet 3.5 , Gemini Pro 1.5 1M , Llama 3 之類再做一次 , 參考性會再大D

//

所以我個人黎講

如果唔係快問快答,而係有structure 既prompts 我都係會傾向用返英文同LLM 溝通

不過用LLM最緊要原則都係

按返大家自己既使用習慣,同實際需求出發

//