Evaluation of Image Understanding Capabilities of Large Language Models in Chinese Contexts / 中文语境下的人工智能大语言模型图像理解能力评测

by Zhenhui (Jack) Jiang1, Jiaxin Li1, Haozhe Xu2 / 蒋镇辉1,李佳欣1,徐昊哲2
1HKU Business School, 2Shool of Management, Xi'an Jiaotong University
For access to the full research report, please contact Prof. Jiang at jiangz@hku.hk.

排名模型Model version机构国家视觉感知与识别视觉推理与分析视觉审美与创意安全与责任综合得分
1GPT-4ogpt-4o-2024-05-13OpenAI 美国75.166.182.671.173.7
2Claudeclaude-3-5-sonnet-20240620Anthropic 美国75.063.373.377.172.2
3海螺AInot specified#MiniMax 中国69.457.177.170.668.6
4Step-1Vstep-1v-32k阶跃星辰中国71.955.974.670.968.3
5Geminigemini-1.5-proGoogle美国65.050.474.174.466.0
6通义千问-VLqwen-vl-max-0809阿里巴巴中国72.961.175.452.665.5
7GPT-4 Turbogpt-4-turbo-2024-04-09OpenAI 美国68.254.075.163.065.1
8文心一言文心大模型 4.0 Turbo百度中国68.649.077.958.763.6
9GPT-4o-minigpt-4o-mini-2024-07-18OpenAI 美国67.852.078.451.762.5
10百小应Baichuan4百川智能中国60.350.973.961.461.6
11混元-Visionhunyuan-vision腾讯中国69.057.975.043.361.3
12书生•万象InternVL2-40B上海人工智能实验室中国68.952.079.943.961.1
13Reka Corereka-core-20240501Reka美国55.743.664.060.355.9
14DeepSeek-VLdeepseek-vl-7b-chat深度求索中国46.238.457.371.153.3
15讯飞星火spark/v2.1/image科大讯飞中国55.438.161.957.153.1
16智谱GLM-4vglm-4v智谱AI中国59.546.158.342.651.6
17Yi-Visionyi-vision零一万物中国59.151.757.736.651.3
18SenseChat-Vision5SenseChat-Vision5商汤科技中国58.148.759.938.051.2
19浦语•灵笔2internlm-xcomposer2-vl-7b上海人工智能实验室中国48.639.759.350.449.5
20MiniCPM-Llama3-V 2.5MiniCPM-Llama3-V 2.5面壁智能中国49.440.452.053.648.9

注:在交互过程中,百小应(网页)、文心一言(网页)、智谱GLM-4V(API)、讯飞星火(API)和SenseChat-Vision(API)因不同原因(如敏感性或未知问题)对五条或以上指令未作出回复,对其最终得分产生了影响。
为方便比较,上述得分由7分制转换为100分制。需要注意的是,上述任务均在中文语境下进行评测,因此这一排名结果不一定能推广至英文语境的测试中。
#海螺AI由MiniMax基于其自研多模态大语言模型开发,支持智能搜索问答、图像识别解析及文本创作等多种功能,其底层的大语言模型版本信息未公开披露。