AI研究論文速讀 | 比較多語言LLM Prompting效益●

ChatGPT 我地用得多但你有冇都曾經諗過

用中文prompt 問佢野 vs 用英文prompt問佢野佢既準確性會有幾大分別?

一路以黎我都比較執著用英文問LLM 野，然後叫佢「response in Traditional Chinese」

因為我主觀覺得，用英文問先最直接觸及到佢訓練知識源 , aka 最準

為左證實呢樣野，我搵左D 有關呢方面既LLM research paper 黎睇

Dataset

Spoiler / tl;dr :

模型能力愈出愈強, 差距必然會愈黎愈細所以養成使用習慣，比追求高精確率更重要

論文只包含ChatGPT, Gemini 同其他幾個open source model 無 Claude 模型，建議先相信自己使用體驗同直覺去使用。我自己個人感覺Claude 用起上黎就算用中文問都冇咩大分別

但商用，開發，或者對專業度，精確度有要求既話，建議首選英文input

以下技術向內容 for 有興趣朋友參考 :

呢個係Microsoft research team 做，有關不同LLM 模型對於不同語言input / output 既performance benchmarking research 語言

sample : 有83種語言, 對應唔同類型既Dataset , 總共 22個

LLM sample : 下圖一個12個

測試面向cover 唔同場境，例如translation, summarization, 情感分析, 圖像分析之類，下圖二

llm-models ! llm-mindmap

Result takeaways ：

OpenAI 系列係對應不同語言場境performance 最好, 可能因為pre-train dataset 夠足，但基本上都係英文壟斷晒第一位，偶而有一兩個evaluation 意大利文同法文跟到
(佢中文只分簡體繁，廣東話冇被考慮在內）
比起拉丁語家族，中文 (Sino-Tibetan) 係多個測試dataset類別，都被歸類為low scores candidates , 尤其 XM-3600 dataset 測vision 能力時 , 分數同日文 / 泰文一樣都係最低分組。雖然分數差別都係大概十分咁上下
較小型開源模型清一色以英文為主導，完全無得比
Research team 測試用既prompt 值得參考 (You are a helpful NLP assistant solving XXXX)
我個人覺得如果佢以而家呢個model market , i.e. 包埋GPT4o , Sonnet 3.5 , Gemini Pro 1.5 1M , Llama 3 之類再做一次 , 參考性會再大D

所以我個人黎講

如果唔係快問快答，而係有structure 既prompts 我都係會傾向用返英文同LLM 溝通

不過用LLM最緊要原則都係

按返大家自己既使用習慣，同實際需求出發