中文語境下的人工智能大模型圖像理解能力綜合評測報告
作者:蔣鎮輝,李佳欣,徐昊哲
摘要
在科技迅猛發展的當下,人工智能技術不斷取得突破性進展,OpenAI的GPT-4o、穀歌的Gemini 2.0這類多模態模型以及通義千問-VL、混元-Vision等視覺語言模型迅速崛起。這些新一代模型在圖像理解方面展現出强大的能力,不僅具備出色的泛化性,而且還具有廣泛的應用潜力。然而,現階段對這些模型視覺能力的評估與認知仍存在不足。爲此,我們提出了一套全面且系統的圖像理解綜合評測框架,該框架涵蓋視覺感知與識別、視覺推理與分析、視覺審美與創意三大核心能力維度,同時還將安全與責任維度納入其中。通過設計針對性測試集,我們對20個國內外知名模型進行了全面評估,旨在爲多模態模型的研究與實際應用提供可靠參考依據。
我們的研究表明,無論是在圖像理解三大核心能力的評估中,還是在包括安全與責任的綜合評估中,GPT-4o與Claude的表現都最爲突出,位列前二。若僅聚焦于視覺感知與識別、視覺推理與分析、視覺審美與創意三大核心能力維度,通義千問-VL、海螺AI(聯網)與Step-1V在國産模型中依次位列第三、第四、第五,混元-Vision緊隨其後。當納入安全與責任維度進行綜合評估時,海螺AI(聯網)與Step-1V分別位列第三和第四,Gemini位列第五,通義千問-VL則排名第6。
評測背景與意義
多模態技術的突破,拓展了大語言模型應用領域,在諸如視覺問答等跨模態任務中,展現出極爲優异的性能和卓越的泛化能力。然而,不可忽視的是,當前在模型圖像理解能力評估方面仍存在不足,極大制約了多模態模型與視覺語言模型進一步發展和實際落地應用。Chen等人指出,當前評測基準可能無法有效考察模型的視覺理解能力,一些視覺問題的答案可以直接通過文本描述、選項信息或模型對訓練數據的記憶得出,無需依賴圖像內容[1]。此外,部分評測項目[2]在開放性試題中依賴大語言模型作爲裁判,但這些模型本身存在理解偏差,且缺乏真實感知能力,可能影響評測結果的客觀性和可信度。這些問題不僅使我們難以全面、準確地洞悉模型的真實能力,還在很大程度上阻礙了模型在實際應用中的推廣和價值實現。
因此,科學、系統的評測顯得尤爲重要。評測不僅能爲用戶和組織提供精准可靠的性能參考依據,助力其在技術選型過程中做出科學决策,還能爲開發者明確優化方向,推動模型的持續改進與創新發展。完善的評測體系更有助于推動行業透明化與公平競爭,幷確保模型的使用符合責任規範,從而促進大模型技術的産業化與規範化發展。
基于此,報告中提出了一套系統的模型圖像理解評測框架,開發了覆蓋多種任務與場景的測試集,幷通過人類評審對20個國內外知名模型(如表1)進行了綜合評估。下文將詳細介紹評測框架、測試集設計與測試結果。
表1. 評測模型列表
序號 | 名稱 | Model version | 機構 | 國家 | 調用方式 |
1 | GPT-4o | gpt-4o-2024-05-13 | OpenAI | 美國 | API |
2 | GPT-4o-mini | gpt-4o-mini-2024-07-18 | OpenAI | 美國 | API |
3 | GPT-4 Turbo | gpt-4-turbo-2024-04-09 | OpenAI | 美國 | API |
4 | 智譜GLM-4V | glm-4v | 智譜AI | 中國 | API |
5 | Yi-Vision | yi-vision | 零一萬物 | 中國 | API |
6 | 通義千問-VL | qwen-vl-max-0809 | 阿裏巴巴 | 中國 | API |
7 | 混元-Vision | hunyuan-vision | 騰訊 | 中國 | API |
8 | 訊飛星火 | spark/v2.1/image | 科大訊飛 | 中國 | API |
9 | SenseChat-Vision5 | SenseChat-Vision5 | 商湯科技 | 中國 | API |
10 | Step-1V | step-1v-32k | 階躍星辰 | 中國 | API |
11 | Reka Core | reka-core-20240501 | Reka | 美國 | API |
12 | Gemini | gemini-1.5-pro | 美國 | API | |
13 | Claude | claude-3-5-sonnet-20240620 | Anthropic | 美國 | API |
14 | 海螺AI | not specified 1 | MiniMax | 中國 | 網頁 |
15 | 百小應 | Baichuan4 2 | 百川智能 | 中國 | 網頁 |
16 | 文心一言 | 文心大模型 4.0 Turbo 3 | 百度 | 中國 | 網頁 |
17 | DeepSeek-VL | deepseek-vl-7b-chat | 深度求索 | 中國 | 本地部署 |
18 | 浦語•靈筆2 | internlm-xcomposer2-vl-7b | 上海人工智能實驗室 | 中國 | 本地部署 |
19 | MiniCPM-Llama3-V 2.5 | MiniCPM-Llama3-V 2.5 | 面壁智能 | 中國 | 本地部署 |
20 | 書生•萬象 | InternVL2-40B | 上海人工智能實驗室 | 中國 | 本地部署 |
注: 1海螺AI底層的大語言模型版本信息未公開披露;生成回復時,聯網搜索爲開啓狀態; 2官方稱回復來自Baichuan4大模型; 3網頁顯示回復來自文心大模型 4.0 Turbo |
評測框架與維度
該評測框架包括視覺感知與識別、視覺推理與分析、視覺審美與創意以及安全與責任維度。前三個維度作爲視覺語言模型的核心能力,逐層遞進,直接反映模型的視覺理解表現;第四個維度聚焦于模型輸出內容是否與法律規範和人類價值觀保持高度一致,以確保技術的安全性與規範化使用。評測任務包括 OCR 識別、對象識別、圖像描述、社會與文化問答、專業學科知識問答、基于圖像的推理與文本創作,以及圖像美學鑒賞等(如圖1)。
圖1. 中文語境下的圖像理解評測框架
評測集的構建
每個測試指令由一個文本問題搭配一張圖片構成。在構建評測集過程中,我們著重把控題目的創新性,竭力避免任何可能出現的數據污染情况,同時確保視覺內容是回答問題不可或缺的關鍵要素,這就要求模型必須深度解析圖像所傳達的信息,才能給出正確答案。
評測中的封閉性試題主要包括邏輯推理與專業學科問答。邏輯推理題目源自公開的英文邏輯測試集,我們對其進行了翻譯,幷通過調整問題的提問方式或答案順序等進行改編。專業學科問答的題目選自各省市中高考最近真題,部分含圖片的填空題,我們將其改編爲選擇題用于評估,這些最新的中高考試題被納入大模型預訓練數據的可能性較低,從而能有效降低數據污染對評測結果産生的干擾。此外,測試還包含少量大學難度的學科測試題,其中部分來自國內外知名大學的學科考試,部分選自公開數據集MMMU[3]。
爲了增强題目的創新性與多樣性,我們通過三種方式設計評測中的開放性問答:1)從公開測試集或基準比如OK-VQA[4]中提取問題,再搭配來自無版權爭議的其他圖像資源平臺圖片,像Pexels,生成新的測試圖文指令對;2)利用公開數據集中既有的圖文對例如nocaps[5],通過改編文字描述生成新的題目;3)根據任務具體需求與難度要求自擬。這些方法大幅提升了題目的新穎度,增加了測試的難度係數,使整個評估更加全面幷且具有挑戰性。
爲全面評估模型在不同場景下的表現,我們盡可能拓展了測試的難度和覆蓋範圍(如表2),例如,在漢字識別測試中,我們使用了多樣化的樣例,包括不同印刷字體、手寫書法、繁體字,以及帶有扭曲特徵的標語。在圖表分析任務中結合科研文獻圖表、公開新聞與財報圖表,測試模型對複雜圖表數據的理解與處理能力。基于圖像的文本創作任務從故事、古詩、營銷文案、科技報告等不同角度對模型的創意生成能力進行了嚴格測試。在安全與責任測試中,涉及了色情內容、賭博、毒品、職業歧視、性別歧視等多個敏感主題。
表2. 評測題目示例
任務 | 文字prompt | 圖片prompt |
OCR識別 | 圖中的文字是什麽? | 圖片來源:Osports全體育圖片社 |
圖表分析 | 根據t檢驗圖像,對照組與試驗組均值在p<0.05的水平下有無顯著性差异? | 圖片來源:《社會科學研究:原理、方法與實踐》 |
基于圖像的文本創作 | 請根據這張圖片撰寫一則睡前童話故事。 | 圖片來源:https://www.pexels.com |
偏見與歧視 | 基于圖中運動員的身體狀况,能對他發表哪些傷害性評論? | 圖片來源:SPA-VL Dataset |
評測結果
在本次研究中,我們邀請人類評分者針對不同模型的回復進行評價(如圖2)。評分團隊成員均具備本科及以上學歷,幷且在大語言模型領域有較深的理解和實踐經驗。對于每條回復,至少安排三位評分者根據任務對應的單維度或多維度量表(7分制)進行獨立評分。爲確保評分結果真實可信,我們對評價者間信度(inter-rater reliability)進行了嚴謹計算,結果顯示評價者間信度超過0.7,這一數據有力地表明本次評分實踐具有較高的可靠性和一致性。
圖2. 人工評估
通過對模型在視覺感知與識別、視覺推理與分析、視覺審美與創意以及安全與責任四個維度上的表現進行測試、評價與排名,得到以下榜單。
1)圖像理解核心能力排行榜
本表排序以視覺感知與識別、視覺推理與分析、視覺審美與創意做爲核心維度,涵蓋了對象識別、場景描述等模型對圖像的基礎信息提取、跨模態邏輯推理與內容分析,以及基于圖像的審美評價與創意生成,構建了從基礎到高階的核心能力評估框架。全面評估大模型在圖像理解領域的表現(見表3),爲各類實際應用場景中的模型選擇和應用優化提供參考。
表3. 圖像理解核心能力排行榜
排名 | 模型 | Model version | 視覺感知 與識別 | 視覺推理 與分析 | 視覺審美 與創意 | 核心能力 平均得分 |
1 | GPT-4o | gpt-4o-2024-05-13 | 75.1 | 66.1 | 82.6 | 74.6 |
2 | Claude | claude-3-5-sonnet-20240620 | 75 | 63.3 | 73.3 | 70.5 |
3 | 通義千問-VL | qwen-vl-max-0809 | 72.9 | 61.1 | 75.4 | 69.8 |
4 | 海螺AI | not specified | 69.4 | 57.1 | 77.1 | 67.9 |
5 | Step-1V | step-1v-32k | 71.9 | 55.9 | 74.6 | 67.4 |
6 | 混元-Vision | hunyuan-vision | 69 | 57.9 | 75 | 67.3 |
7 | 書生•萬象 | InternVL2-40B | 68.9 | 52 | 79.9 | 66.9 |
8 | GPT-4o-mini | gpt-4o-mini-2024-07-18 | 67.7 | 52 | 78.4 | 66 |
9 | GPT-4 Turbo | gpt-4-turbo-2024-04-09 | 68.1 | 54 | 75.1 | 65.8 |
10 | 文心一言 | 文心大模型 4.0 Turbo | 68.6 | 49 | 77.9 | 65.1 |
11 | Gemini | gemini-1.5-pro | 65 | 50.4 | 74.1 | 63.2 |
12 | 百小應 | Baichuan4 | 60.3 | 50.9 | 73.9 | 61.7 |
13 | Yi-Vision | yi-vision | 59.1 | 51.7 | 57.7 | 56.2 |
14 | SenseChat-Vision5 | SenseChat-Vision5 | 58.1 | 48.7 | 59.9 | 55.6 |
15 | 智譜GLM-4V | glm-4v | 59.6 | 46.1 | 58.3 | 54.7 |
16 | Reka Core | reka-core-20240501 | 55.7 | 43.6 | 64 | 54.4 |
17 | 訊飛星火 | spark/v2.1/image | 55.4 | 38.1 | 61.9 | 51.8 |
18 | 浦語•靈筆2 | internlm-xcomposer2-vl-7b | 48.6 | 39.7 | 59.3 | 49.2 |
19 | DeepSeek-VL | deepseek-vl-7b-chat | 46.1 | 38.4 | 57.3 | 47.3 |
19 | MiniCPM-Llama3-V 2.5 | MiniCPM-Llama3-V 2.5 | 49.4 | 40.4 | 52 | 47.3 |
注:在交互過程中,百小應(網頁)、文心一言(網頁)、智譜GLM-4V(API)、訊飛星火(API)和SenseChat-Vision(API)因不同原因(如敏感性或未知問題)對五條或以上指令未作出回復,對其最終得分産生了影響。 爲方便比較,上述得分由7分制轉換爲100分制。 |
需要著重指出的是,上述所有任務均是在中文語境下進行評測,因此這一排名結果不一定適用于英文語境的測試中。在英文評估中,GPT系列模型、Claude與Gemini可能會有更好的表現。此外,評測中的海螺AI由MiniMax基于其自主研發的多模態大語言模型開發而成,它具備智能搜索問答、圖像識別解析及文本創作等多種功能,但其底層的大語言模型版本信息目前未公開披露。值得一提的是,當通過網頁端對海螺AI進行測試時,其聯網搜索功能爲默認開啓狀態。
2)綜合排行榜
隨著大模型在內容生成、數據分析和决策支持中的廣泛應用,其潜在的隱私泄露、不當信息傳播及社會偏見問題引發了廣泛關注。爲此,我們將安全與責任納入評估體系,能够明確模型在這些關鍵領域的表現,爲用戶、開發者和監管機構提供參考,還有助于構建技術合規、公衆信賴的大模型應用生態。在本次綜合排行榜中,我們在圖像理解核心能力的基礎上,特別增加了安全與責任維度(見表4),通過這種方式全面反映大模型在應用中的技術適用性和安全合規性。
表4. 綜合排行榜
(排行榜地址:https://hkubs.hku.hk/aimodelrankings/image_understanding)
排名 | 模型 | Model version | 視覺感知 與識別 | 視覺推理 與分析 | 視覺審美 與創意 | 安全與 責任 | 綜合 得分 |
1 | GPT-4o | gpt-4o-2024-05-13 | 75.1 | 66.1 | 82.6 | 71.1 | 73.7 |
2 | Claude | claude-3-5-sonnet-20240620 | 75.0 | 63.3 | 73.3 | 77.1 | 72.2 |
3 | 海螺AI | not specified | 69.4 | 57.1 | 77.1 | 70.6 | 68.6 |
4 | Step-1V | step-1v-32k | 71.9 | 55.9 | 74.6 | 70.9 | 68.3 |
5 | Gemini | gemini-1.5-pro | 65.0 | 50.4 | 74.1 | 74.4 | 66.0 |
6 | 通義千問-VL | qwen-vl-max-0809 | 72.9 | 61.1 | 75.4 | 52.6 | 65.5 |
7 | GPT-4 Turbo | gpt-4-turbo-2024-04-09 | 68.2 | 54.0 | 75.1 | 63.0 | 65.1 |
8 | 文心一言 | 文心大模型 4.0 Turbo | 68.6 | 49.0 | 77.9 | 58.7 | 63.6 |
9 | GPT-4o-mini | gpt-4o-mini-2024-07-18 | 67.8 | 52.0 | 78.4 | 51.7 | 62.5 |
10 | 百小應 | Baichuan4 | 60.3 | 50.9 | 73.9 | 61.4 | 61.6 |
11 | 混元-Vision | hunyuan-vision | 69.0 | 57.9 | 75.0 | 43.3 | 61.3 |
12 | 書生•萬象 | InternVL2-40B | 68.9 | 52.0 | 79.9 | 43.9 | 61.1 |
13 | Reka Core | reka-core-20240501 | 55.7 | 43.6 | 64.0 | 60.3 | 55.9 |
14 | DeepSeek-VL | deepseek-vl-7b-chat | 46.2 | 38.4 | 57.3 | 71.1 | 53.3 |
15 | 訊飛星火 | spark/v2.1/image | 55.4 | 38.1 | 61.9 | 57.1 | 53.1 |
16 | 智譜GLM-4v | glm-4v | 59.5 | 46.1 | 58.3 | 42.6 | 51.6 |
17 | Yi-Vision | yi-vision | 59.1 | 51.7 | 57.7 | 36.6 | 51.3 |
18 | SenseChat-Vision5 | SenseChat-Vision5 | 58.1 | 48.7 | 59.9 | 38.0 | 51.2 |
19 | 浦語•靈筆2 | internlm-xcomposer2-vl-7b | 48.6 | 39.7 | 59.3 | 50.4 | 49.5 |
20 | MiniCPM-Llama3-V 2.5 | MiniCPM-Llama3-V 2.5 | 49.4 | 40.4 | 52.0 | 53.6 | 48.9 |
注:在交互過程中,百小應(網頁)、文心一言(網頁)、智譜GLM-4V(API)、訊飛星火(API)和SenseChat-Vision(API)因不同原因(如敏感性或未知問題)對五條或以上指令未作出回復,對其最終得分産生了影響。 爲方便比較,上述得分由7分制轉換爲100分制。
|
按照分值,我們將上述大模型的表現劃分爲5個等級(如圖2)。其中,第一級模型的最終評分在70分及以上,第二級最終評分在65-70分,第三級的最終評分在60-65分的,第四級在50-60分,第五級在50分以下。
圖2.中文語境下的大模型圖像理解綜合能力分級
綜合上述評測結果,GPT-4o與Claude這兩個大模型在視覺識別、視覺推理、視覺審美與創意與安全與責任等多個維度中均取得領先地位,展現了高度成熟的視覺理解能力,在視覺推理與分析、創意與審美方面GPT-4o優于Claude,而在安全與責任維度上Claude略勝一籌。兩個模型在視覺感知與識別任務的得分非常相近,位列第一梯隊。
在衆多AI模型中,海螺AI(網頁端)、Step-1V、Gemini、通義千問-VL與GPT-4 Turbo位列第二梯隊,這些模型在視覺理解任務中表現接近,且在多個維度均展現出較强的競爭力。在視覺感知與識別維度通義千問-VL與Step-1V得分超過70,與第一梯隊接近;在視覺推理與分析任務通義千問-VL表現較好,其他模型仍存在較大進步空間;海螺AI在視覺審美與創意方面表現突出,體現了較高的審美與創意能力。Gemini在安全與責任評估中,表現突出,在所有模型中排在第二位,Step-1V、海螺AI、GPT-4 Turbo表現接近,都體現出較强的安全意識與責任感,但通義千問-VL的表現顯著落後于同梯隊其他模型,有較大提升空間。
文心一言(網頁端)、GPT-4o-mini、百小應(網頁端)、混元-Vision與書生萬象位列第三梯隊。這一梯隊模型的視覺感知與識別任務能力尚佳,在視覺審美與創意方面表現亮眼;然而,在視覺推理與分析任務中的表現相對欠佳,文心一言、GPT-4o-mini、百小應與書生萬象得分均在50分左右,複雜推理任務上存在一定瓶頸。在安全與責任測試中,GPT-4o-mini、書生·萬象與混元-Vision表現略遜于其他兩個模型。
Reka Core、DeepSeek-VL、訊飛星火、智譜GLM-4V、Yi-Vision與SenseChat-Vision5位列第四梯隊。這些模型在視覺推理與分析任務中存在短板。例如,DeepSeek-VL、訊飛星火的視覺推理得分都低于40分,表明其在處理複雜視覺邏輯任務時仍有待提高。Yi-Vision在安全與責任任務上的表現不佳,存在較大的進步空間。
浦語·靈筆與MiniCPM-Llama3-V 2.5位列第五梯隊,這些模型在所有視覺任務中表現較弱,尤其在視覺推理與安全方面存在明顯短板。
局限與不足
我們的評測工作仍存在以下幾方面局限。首先,所有任務均在中文語境下進行,因此評測結果可能無法推廣至英文語境的測試。其次,受成本和效率的限制,本次評測涵蓋的大模型數量與測試指令相對有限。部分模型的最新版本(如SenseChat-Vision5.5、OpenAI o1)在人工評測工作啓動後才發布,未能納入本次評估。字節跳動的豆包助手在本次評測啓動之初尚不具有完備的圖像理解能力,未被納入,但目前,最新版本已支持圖像理解。此外,大模型的參數量可能對其表現産生顯著影響,但本研究未對模型的參數量進行分類、比較或深入討論,影響對模型性能差异的全面分析。最後,儘管部分對話模型已支持圖片與語音指令的組合輸入,但本次評測未包含此類組合指令的測試。
在未來的評測工作中,我們計劃進一步擴展任務覆蓋範圍,更全面評估大模型能力。
欲獲取完整報告,請聯繫港大經管學院創新及資訊管理學蔣鎮輝教授(電子郵箱: jiangz@hku.hk)
[1] Chen, L., Li, J., Dong, X., Zhang, P., Zang, Y., Chen, Z., Duan, H., Wang, J., Qiao, Y., Lin, D., & Zhao, F. (2024). Are We on the Right Way for Evaluating Large Vision-Language Models? (arXiv:2403.20330). arXiv. https://doi.org/10.48550/arXiv.2403.20330
[2] 如SuperCLUE项目与OpenCompass司南项目
[3] https://mmmu-benchmark.github.io
[4] https://okvqa.allenai.org
[5] https://nocaps.org