AI_Model_Rankings

Evaluation of Image Understanding Capabilities of Large Language Models in Chinese Contexts / 中文语境下的人工智能大语言模型图像理解能力评测

by Zhenhui (Jack) Jiang¹, Jiaxin Li¹, Haozhe Xu² / 蒋镇辉¹，李佳欣¹，徐昊哲²
¹HKU Business School, ²Shool of Management, Xi'an Jiaotong University
For access to the full research report, please contact Prof. Jiang at jiangz@hku.hk.

排名	模型	Model version	机构	国家	数学	化学	历史	地理	生物	物理	平均正确率
1	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	46.70%	53.30%	83.30%	66.70%	71.40%	48.60%	61.70%
2	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	43.30%	43.30%	70.00%	73.30%	50.00%	48.60%	54.80%
3	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	43.30%	63.30%	70.00%	70.00%	42.90%	37.10%	54.40%
4	海螺AI	not specified	MiniMax	中国	23.30%	56.70%	70.00%	70.00%	64.30%	28.60%	52.10%
5	Step-1V	step-1v-32k	阶跃星辰	中国	30.00%	36.70%	76.70%	50.00%	78.60%	40.00%	52.00%
6	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	33.30%	53.30%	46.70%	63.30%	64.30%	45.70%	51.10%
7	混元-Vision	hunyuan-vision	腾讯	混元	40.00%	50.00%	73.30%	66.70%	42.90%	31.40%	50.70%
8	Gemini	gemini-1.5-pro	Google	美国	40.00%	46.70%	73.30%	63.30%	35.70%	37.10%	49.40%
9	书生•万象	InternVL2-40B	上海人工智能实验室	中国	23.30%	36.70%	80.00%	53.30%	64.30%	34.30%	48.70%
10	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	26.70%	43.30%	80.00%	50.00%	64.30%	25.70%	48.30%
11	文心一言	文心大模型 4.0 Turbo	百度	中国	43.30%	36.70%	70.00%	46.70%	42.90%	45.70%	47.50%
12	Yi-Vision	yi-vision	零一万物	中国	40.00%	23.30%	56.70%	70.00%	50.00%	31.40%	45.20%
13	百小应	Baichuan4	百川智能	中国	20.00%	33.30%	70.00%	73.30%	42.90%	25.70%	44.20%
14	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	26.70%	40.00%	40.00%	56.70%	50.00%	31.40%	40.80%
15	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	23.30%	26.70%	66.70%	46.70%	35.70%	22.90%	37.00%
16	智谱GLM-4V	glm-4v	智谱AI	中国	23.30%	30.00%	50.00%	40.00%	42.90%	28.60%	35.80%
17	Reka Core	reka-core-20240501	Reka	美国	23.30%	33.30%	60.00%	53.30%	21.40%	17.10%	34.80%
18	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	23.30%	20.00%	53.30%	50.00%	21.40%	31.40%	33.30%
19	讯飞星火	spark/v2.1/image	科大讯飞	中国	26.70%	26.70%	30.00%	40.00%	42.90%	17.10%	30.60%
20	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	10.00%	30.00%	30.00%	40.00%	14.30%	28.60%	25.50%

排名	模型	Model version	机构	国家	得分（7分制）
1	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	5.4
2	Gemini	gemini-1.5-pro	Google	美国	5.21
3	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	4.98
3	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	4.98
5	Step-1V	step-1v-32k	阶跃星辰	中国	4.96
6	海螺AI	not specified	MiniMax	中国	4.94
7	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	4.41
8	百小应	Baichuan4	百川智能	中国	4.3
9	Reka Core	reka-core-20240501	Reka	美国	4.22
10	文心一言	文心大模型 4.0 Turbo	百度	中国	4.11
11	讯飞星火	spark/v2.1/image	科大讯飞	中国	4
12	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	3.75
13	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	3.68
14	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	3.62
15	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	3.53
16	书生•万象	InternVL2-40B	上海人工智能实验室	中国	3.07
17	混元-Vision	hunyuan-vision	腾讯	中国	3.03
18	智谱GLM-4V	glm-4v	智谱AI	中国	2.98
19	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	2.66
20	Yi-Vision	yi-vision	零一万物	中国	2.56

排名	模型	Model version	机构	国家	视觉感知与识别	视觉推理与分析	视觉审美与创意	安全与责任	综合得分
1	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	75.1	66.1	82.6	71.1	73.7
2	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	75.0	63.3	73.3	77.1	72.2
3	海螺AI	not specified#	MiniMax	中国	69.4	57.1	77.1	70.6	68.6
4	Step-1V	step-1v-32k	阶跃星辰	中国	71.9	55.9	74.6	70.9	68.3
5	Gemini	gemini-1.5-pro	Google	美国	65.0	50.4	74.1	74.4	66.0
6	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	72.9	61.1	75.4	52.6	65.5
7	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	68.2	54.0	75.1	63.0	65.1
8	文心一言	文心大模型 4.0 Turbo	百度	中国	68.6	49.0	77.9	58.7	63.6
9	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	67.8	52.0	78.4	51.7	62.5
10	百小应	Baichuan4	百川智能	中国	60.3	50.9	73.9	61.4	61.6
11	混元-Vision	hunyuan-vision	腾讯	中国	69.0	57.9	75.0	43.3	61.3
12	书生•万象	InternVL2-40B	上海人工智能实验室	中国	68.9	52.0	79.9	43.9	61.1
13	Reka Core	reka-core-20240501	Reka	美国	55.7	43.6	64.0	60.3	55.9
14	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	46.2	38.4	57.3	71.1	53.3
15	讯飞星火	spark/v2.1/image	科大讯飞	中国	55.4	38.1	61.9	57.1	53.1
16	智谱GLM-4v	glm-4v	智谱AI	中国	59.5	46.1	58.3	42.6	51.6
17	Yi-Vision	yi-vision	零一万物	中国	59.1	51.7	57.7	36.6	51.3
18	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	58.1	48.7	59.9	38.0	51.2
19	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	48.6	39.7	59.3	50.4	49.5
20	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	49.4	40.4	52.0	53.6	48.9

注：在交互过程中，百小应（网页）、文心一言（网页）、智谱GLM-4V（API）、讯飞星火（API）和SenseChat-Vision（API）因不同原因（如敏感性或未知问题）对五条或以上指令未作出回复，对其最终得分产生了影响。
为方便比较，上述得分由7分制转换为100分制。需要注意的是，上述任务均在中文语境下进行评测，因此这一排名结果不一定能推广至英文语境的测试中。
^#海螺AI由MiniMax基于其自研多模态大语言模型开发，支持智能搜索问答、图像识别解析及文本创作等多种功能，其底层的大语言模型版本信息未公开披露。

排名	模型	Model version	机构	国家	详细描述	总结性描述	特征定位	代码识别	汉字识别	公式识别	生物物种识别	文化与自然识别	视觉感知与识别均分（7分制）
1	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	5.4	4.87	5.17	6.37	5.53	5.54	5.3	4.33	5.26
2	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	5.75	5.03	4.6	6.47	5.5	6.28	4.61	4.47	5.25
3	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	5.01	4.76	3.47	5.6	6	5.39	5.24	5.22	5.1
4	Step-1V	step-1v-32k	阶跃星辰	中国	5.19	4.67	3.9	4.9	5.31	4.72	5.06	6	5.03
5	海螺AI	not specified	MiniMax	中国	5.25	4.78	3.73	5.33	5.69	4.8	5	4.42	4.86
6	混元-Vision	hunyuan-vision	腾讯	中国	5.25	4.7	3.97	4.83	5.31	4.89	5.24	4.44	4.83
7	书生•万象	InternVL2-40B	上海人工智能实验室	中国	5.41	5.05	4.07	4.27	5.58	5.57	4.82	4.13	4.82
8	文心一言	文心大模型 4.0 Turbo	百度	中国	5.38	4.45	3.73	4.53	5.78	3.19	4.91	5.87	4.8
9	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	5.33	4.68	3.97	5.63	2.44	5.87	5.21	4.82	4.77
10	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	5.34	5.3	3.1	5.73	4.28	5.28	4.61	4.49	4.74
11	Gemini	gemini-1.5-pro	Google	美国	4.56	4.63	2.93	5.63	3.5	6.04	4.33	4.78	4.55
12	百小应	Baichuan4	百川智能	中国	2.83	2.55	3.4	5.3	4.53	5.89	4.36	4.64	4.22
13	智谱GLM-4V	glm-4v	智谱AI	中国	4.12	3.4	3.37	3.97	5.33	3.87	3.79	5.16	4.17
14	Yi-Vision	yi-vision	零一万物	中国	4.99	4.62	3.8	4.6	4.36	5.19	3.64	2.82	4.14
15	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	4.62	3.72	3.7	3.93	4.83	2.93	5.06	3.53	4.07
16	Reka Core	reka-core-20240501	Reka	美国	4.8	4.18	4.17	3.87	1.64	4.35	4.18	3.87	3.9
17	讯飞星火	spark/v2.1/image	科大讯飞	中国	4.6	4.67	3.83	2.8	4.67	2.09	4.09	4.06	3.88
18	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	4.76	3.6	2.83	2.03	3.61	1.83	4.03	4.29	3.46
19	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	3.83	4.3	3.63	3.1	3.11	2.59	3.64	3.07	3.4
20	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	4.86	3.48	3.23	2.63	1.5	2.67	4	3.16	3.23