Evaluation of Image Understanding Capabilities of Large Language Models in Chinese Contexts / 中文语境下的人工智能大语言模型图像理解能力评测
by Zhenhui (Jack) Jiang1 , Jiaxin Li1 , Haozhe Xu2 / 蒋镇辉1 ,李佳欣1 ,徐昊哲2 1 HKU Business School, 2 Shool of Management, Xi'an Jiaotong University
For access to the full research report, please contact Prof. Jiang at jiangz@hku.hk .
图像理解综合排名
图像理解核心能力排名
视觉感知与识别任务排名
视觉分析与推理任务排名
专业学科能力排名
视觉审美与创意任务排名
安全与负责任的图像理解
排名 模型 Model version 机构 国家 数学 化学 历史 地理 生物 物理 平均正确率 1 通义千问-VL qwen-vl-max-0809 阿里巴巴 中国 46.70% 53.30% 83.30% 66.70% 71.40% 48.60% 61.70% 2 GPT-4o gpt-4o-2024-05-13 OpenAI 美国 43.30% 43.30% 70.00% 73.30% 50.00% 48.60% 54.80% 3 Claude claude-3-5-sonnet-20240620 Anthropic 美国 43.30% 63.30% 70.00% 70.00% 42.90% 37.10% 54.40% 4 海螺AI not specified MiniMax 中国 23.30% 56.70% 70.00% 70.00% 64.30% 28.60% 52.10% 5 Step-1V step-1v-32k 阶跃星辰 中国 30.00% 36.70% 76.70% 50.00% 78.60% 40.00% 52.00% 6 GPT-4 Turbo gpt-4-turbo-2024-04-09 OpenAI 美国 33.30% 53.30% 46.70% 63.30% 64.30% 45.70% 51.10% 7 混元-Vision hunyuan-vision 腾讯 混元 40.00% 50.00% 73.30% 66.70% 42.90% 31.40% 50.70% 8 Gemini gemini-1.5-pro Google 美国 40.00% 46.70% 73.30% 63.30% 35.70% 37.10% 49.40% 9 书生•万象 InternVL2-40B 上海人工智能实验室 中国 23.30% 36.70% 80.00% 53.30% 64.30% 34.30% 48.70% 10 SenseChat-Vision5 SenseChat-Vision5 商汤科技 中国 26.70% 43.30% 80.00% 50.00% 64.30% 25.70% 48.30% 11 文心一言 文心大模型 4.0 Turbo 百度 中国 43.30% 36.70% 70.00% 46.70% 42.90% 45.70% 47.50% 12 Yi-Vision yi-vision 零一万物 中国 40.00% 23.30% 56.70% 70.00% 50.00% 31.40% 45.20% 13 百小应 Baichuan4 百川智能 中国 20.00% 33.30% 70.00% 73.30% 42.90% 25.70% 44.20% 14 GPT-4o-mini gpt-4o-mini-2024-07-18 OpenAI 美国 26.70% 40.00% 40.00% 56.70% 50.00% 31.40% 40.80% 15 浦语•灵笔2 internlm-xcomposer2-vl-7b 上海人工智能实验室 中国 23.30% 26.70% 66.70% 46.70% 35.70% 22.90% 37.00% 16 智谱GLM-4V glm-4v 智谱AI 中国 23.30% 30.00% 50.00% 40.00% 42.90% 28.60% 35.80% 17 Reka Core reka-core-20240501 Reka 美国 23.30% 33.30% 60.00% 53.30% 21.40% 17.10% 34.80% 18 MiniCPM-Llama3-V 2.5 MiniCPM-Llama3-V 2.5 面壁智能 中国 23.30% 20.00% 53.30% 50.00% 21.40% 31.40% 33.30% 19 讯飞星火 spark/v2.1/image 科大讯飞 中国 26.70% 26.70% 30.00% 40.00% 42.90% 17.10% 30.60% 20 DeepSeek-VL deepseek-vl-7b-chat 深度求索 中国 10.00% 30.00% 30.00% 40.00% 14.30% 28.60% 25.50%
排名 模型 Model version 机构 国家 得分(7分制) 1 Claude claude-3-5-sonnet-20240620 Anthropic 美国 5.4 2 Gemini gemini-1.5-pro Google 美国 5.21 3 GPT-4o gpt-4o-2024-05-13 OpenAI 美国 4.98 3 DeepSeek-VL deepseek-vl-7b-chat 深度求索 中国 4.98 5 Step-1V step-1v-32k 阶跃星辰 中国 4.96 6 海螺AI not specified MiniMax 中国 4.94 7 GPT-4 Turbo gpt-4-turbo-2024-04-09 OpenAI 美国 4.41 8 百小应 Baichuan4 百川智能 中国 4.3 9 Reka Core reka-core-20240501 Reka 美国 4.22 10 文心一言 文心大模型 4.0 Turbo 百度 中国 4.11 11 讯飞星火 spark/v2.1/image 科大讯飞 中国 4 12 MiniCPM-Llama3-V 2.5 MiniCPM-Llama3-V 2.5 面壁智能 中国 3.75 13 通义千问-VL qwen-vl-max-0809 阿里巴巴 中国 3.68 14 GPT-4o-mini gpt-4o-mini-2024-07-18 OpenAI 美国 3.62 15 浦语•灵笔2 internlm-xcomposer2-vl-7b 上海人工智能实验室 中国 3.53 16 书生•万象 InternVL2-40B 上海人工智能实验室 中国 3.07 17 混元-Vision hunyuan-vision 腾讯 中国 3.03 18 智谱GLM-4V glm-4v 智谱AI 中国 2.98 19 SenseChat-Vision5 SenseChat-Vision5 商汤科技 中国 2.66 20 Yi-Vision yi-vision 零一万物 中国 2.56
排名 模型 Model version 机构 国家 视觉感知与识别 视觉推理与分析 视觉审美与创意 安全与责任 综合得分 1 GPT-4o gpt-4o-2024-05-13 OpenAI 美国 75.1 66.1 82.6 71.1 73.7 2 Claude claude-3-5-sonnet-20240620 Anthropic 美国 75.0 63.3 73.3 77.1 72.2 3 海螺AI not specified# MiniMax 中国 69.4 57.1 77.1 70.6 68.6 4 Step-1V step-1v-32k 阶跃星辰 中国 71.9 55.9 74.6 70.9 68.3 5 Gemini gemini-1.5-pro Google 美国 65.0 50.4 74.1 74.4 66.0 6 通义千问-VL qwen-vl-max-0809 阿里巴巴 中国 72.9 61.1 75.4 52.6 65.5 7 GPT-4 Turbo gpt-4-turbo-2024-04-09 OpenAI 美国 68.2 54.0 75.1 63.0 65.1 8 文心一言 文心大模型 4.0 Turbo 百度 中国 68.6 49.0 77.9 58.7 63.6 9 GPT-4o-mini gpt-4o-mini-2024-07-18 OpenAI 美国 67.8 52.0 78.4 51.7 62.5 10 百小应 Baichuan4 百川智能 中国 60.3 50.9 73.9 61.4 61.6 11 混元-Vision hunyuan-vision 腾讯 中国 69.0 57.9 75.0 43.3 61.3 12 书生•万象 InternVL2-40B 上海人工智能实验室 中国 68.9 52.0 79.9 43.9 61.1 13 Reka Core reka-core-20240501 Reka 美国 55.7 43.6 64.0 60.3 55.9 14 DeepSeek-VL deepseek-vl-7b-chat 深度求索 中国 46.2 38.4 57.3 71.1 53.3 15 讯飞星火 spark/v2.1/image 科大讯飞 中国 55.4 38.1 61.9 57.1 53.1 16 智谱GLM-4v glm-4v 智谱AI 中国 59.5 46.1 58.3 42.6 51.6 17 Yi-Vision yi-vision 零一万物 中国 59.1 51.7 57.7 36.6 51.3 18 SenseChat-Vision5 SenseChat-Vision5 商汤科技 中国 58.1 48.7 59.9 38.0 51.2 19 浦语•灵笔2 internlm-xcomposer2-vl-7b 上海人工智能实验室 中国 48.6 39.7 59.3 50.4 49.5 20 MiniCPM-Llama3-V 2.5 MiniCPM-Llama3-V 2.5 面壁智能 中国 49.4 40.4 52.0 53.6 48.9
注:在交互过程中,百小应(网页)、文心一言(网页)、智谱GLM-4V(API)、讯飞星火(API)和SenseChat-Vision(API)因不同原因(如敏感性或未知问题)对五条或以上指令未作出回复,对其最终得分产生了影响。 为方便比较,上述得分由7分制转换为100分制。需要注意的是,上述任务均在中文语境下进行评测,因此这一排名结果不一定能推广至英文语境的测试中。# 海螺AI由MiniMax基于其自研多模态大语言模型开发,支持智能搜索问答、图像识别解析及文本创作等多种功能,其底层的大语言模型版本信息未公开披露。
排名 模型 Model version 机构 国家 基于图像的文本创作 图像美学
鉴赏 视觉审美与创意均分(7分制) 1 GPT-4o gpt-4o-2024-05-13 OpenAI 美国 5.48 6.07 5.78 2 书生•万象 InternVL2-40B 上海人工智能实验室 中国 4.97 6.2 5.59 3 GPT-4o-mini gpt-4o-mini-2024-07-18 OpenAI 美国 5.32 5.65 5.49 4 文心一言 文心大模型 4.0 Turbo 百度 中国 4.9 6 5.45 5 海螺AI not specified MiniMax 中国 5.1 5.69 5.4 6 通义千问-VL qwen-vl-max-0809 阿里巴巴 中国 4.77 5.78 5.28 7 GPT-4 Turbo gpt-4-turbo-2024-04-09 OpenAI 美国 5.03 5.48 5.26 8 混元-Vision hunyuan-vision 腾讯 中国 4.55 5.94 5.25 9 Step-1V step-1v-32k 阶跃星辰 中国 5.07 5.37 5.22 10 Gemini gemini-1.5-pro Google 美国 4.5 5.87 5.19 11 百小应 Baichuan4 百川智能 中国 4.93 5.41 5.17 12 Claude claude-3-5-sonnet-20240620 Anthropic 美国 4.68 5.57 5.13 13 Reka Core reka-core-20240501 Reka 美国 4.28 4.67 4.48 14 讯飞星火 spark/v2.1/image 科大讯飞 中国 3.73 4.93 4.33 15 SenseChat-Vision5 SenseChat-Vision5 商汤科技 中国 3.57 4.8 4.19 16 浦语•灵笔2 internlm-xcomposer2-vl-7b 上海人工智能实验室 中国 3.78 4.52 4.15 17 智谱GLM-4V glm-4v 智谱AI 中国 3.83 4.33 4.08 18 Yi-Vision yi-vision 零一万物 中国 3.55 4.52 4.04 19 DeepSeek-VL deepseek-vl-7b-chat 深度求索 中国 3.43 4.59 4.01 20 MiniCPM-Llama3-V 2.5 MiniCPM-Llama3-V 2.5 面壁智能 中国 2.93 4.35 3.64
排名 模型 Model version 机构 国家 详细描述 总结性描述 特征定位 代码识别 汉字识别 公式识别 生物物种识别 文化与自然识别 视觉感知与识别均分(7分制) 1 GPT-4o gpt-4o-2024-05-13 OpenAI 美国 5.4 4.87 5.17 6.37 5.53 5.54 5.3 4.33 5.26 2 Claude claude-3-5-sonnet-20240620 Anthropic 美国 5.75 5.03 4.6 6.47 5.5 6.28 4.61 4.47 5.25 3 通义千问-VL qwen-vl-max-0809 阿里巴巴 中国 5.01 4.76 3.47 5.6 6 5.39 5.24 5.22 5.1 4 Step-1V step-1v-32k 阶跃星辰 中国 5.19 4.67 3.9 4.9 5.31 4.72 5.06 6 5.03 5 海螺AI not specified MiniMax 中国 5.25 4.78 3.73 5.33 5.69 4.8 5 4.42 4.86 6 混元-Vision hunyuan-vision 腾讯 中国 5.25 4.7 3.97 4.83 5.31 4.89 5.24 4.44 4.83 7 书生•万象 InternVL2-40B 上海人工智能实验室 中国 5.41 5.05 4.07 4.27 5.58 5.57 4.82 4.13 4.82 8 文心一言 文心大模型 4.0 Turbo 百度 中国 5.38 4.45 3.73 4.53 5.78 3.19 4.91 5.87 4.8 9 GPT-4 Turbo gpt-4-turbo-2024-04-09 OpenAI 美国 5.33 4.68 3.97 5.63 2.44 5.87 5.21 4.82 4.77 10 GPT-4o-mini gpt-4o-mini-2024-07-18 OpenAI 美国 5.34 5.3 3.1 5.73 4.28 5.28 4.61 4.49 4.74 11 Gemini gemini-1.5-pro Google 美国 4.56 4.63 2.93 5.63 3.5 6.04 4.33 4.78 4.55 12 百小应 Baichuan4 百川智能 中国 2.83 2.55 3.4 5.3 4.53 5.89 4.36 4.64 4.22 13 智谱GLM-4V glm-4v 智谱AI 中国 4.12 3.4 3.37 3.97 5.33 3.87 3.79 5.16 4.17 14 Yi-Vision yi-vision 零一万物 中国 4.99 4.62 3.8 4.6 4.36 5.19 3.64 2.82 4.14 15 SenseChat-Vision5 SenseChat-Vision5 商汤科技 中国 4.62 3.72 3.7 3.93 4.83 2.93 5.06 3.53 4.07 16 Reka Core reka-core-20240501 Reka 美国 4.8 4.18 4.17 3.87 1.64 4.35 4.18 3.87 3.9 17 讯飞星火 spark/v2.1/image 科大讯飞 中国 4.6 4.67 3.83 2.8 4.67 2.09 4.09 4.06 3.88 18 MiniCPM-Llama3-V 2.5 MiniCPM-Llama3-V 2.5 面壁智能 中国 4.76 3.6 2.83 2.03 3.61 1.83 4.03 4.29 3.46 19 浦语•灵笔2 internlm-xcomposer2-vl-7b 上海人工智能实验室 中国 3.83 4.3 3.63 3.1 3.11 2.59 3.64 3.07 3.4 20 DeepSeek-VL deepseek-vl-7b-chat 深度求索 中国 4.86 3.48 3.23 2.63 1.5 2.67 4 3.16 3.23
排名 模型 Model version 机构 国家 常识问答 Meme理解与分析 专业学科知识问答 图表分析 逻辑推理 视觉推理与分析均分(7分制) 1 GPT-4o gpt-4o-2024-05-13 OpenAI 美国 5.87 5.45 54.80% 4.71 4.1 4.63 2 Claude claude-3-5-sonnet-20240620 Anthropic 美国 5.56 5.05 54.40% 4.71 3.67 4.43 3 通义千问-VL qwen-vl-max-0809 阿里巴巴 中国 5.04 4.17 61.70% 4.38 3.46 4.28 4 混元-Vision hunyuan-vision 腾讯 中国 5.94 4.3 50.70% 4.67 2.28 4.05 5 海螺AI not specified MiniMax 中国 4.89 4.68 52.10% 4.38 2.77 4 6 Step-1V step-1v-32k 阶跃星辰 中国 5.9 4.4 52.00% 3.62 2.28 3.91 7 GPT-4 Turbo gpt-4-turbo-2024-04-09 OpenAI 美国 5.34 3.73 51.10% 4.04 2.44 3.78 8 书生•万象 InternVL2-40B 上海人工智能实验室 中国 5.13 4.75 48.70% 3.33 1.82 3.64 9 GPT-4o-mini gpt-4o-mini-2024-07-18 OpenAI 美国 5.32 3.7 40.80% 4.36 2.74 3.64 10 Yi-Vision yi-vision 零一万物 中国 4.73 4.23 45.20% 4.29 2.13 3.62 11 百小应 Baichuan4 百川智能 中国 5.26 3.68 44.20% 4.02 2.23 3.56 12 Gemini gemini-1.5-pro Google 美国 4.74 3.63 49.40% 3.84 2.08 3.53 13 文心一言 文心大模型 4.0 Turbo 百度 中国 5.37 3 47.50% 4.13 1.41 3.43 14 SenseChat-Vision5 SenseChat-Vision5 商汤科技 中国 4.56 3.97 48.30% 3.6 1.56 3.41 15 智谱GLM-4V glm-4v 智谱AI 中国 5.25 3.65 35.80% 4 1.44 3.23 16 Reka Core reka-core-20240501 Reka 美国 5.14 3.23 34.80% 3.36 1.72 3.05 17 MiniCPM-Llama3-V 2.5 MiniCPM-Llama3-V 2.5 面壁智能 中国 4.67 2.87 33.30% 2.67 2.1 2.83 18 浦语•灵笔2 internlm-xcomposer2-vl-7b 上海人工智能实验室 中国 4.21 2.85 37.00% 2.56 1.85 2.78 19 DeepSeek-VL deepseek-vl-7b-chat 深度求索 中国 4.73 2.8 25.50% 2.73 2.33 2.69 20 讯飞星火 spark/v2.1/image 科大讯飞 中国 4.49 3.15 30.60% 2.44 1.67 2.67
排名 模型 model version 机构 国家 视觉感知与识别 视觉分析与推理 视觉审美与创意 综合得分 1 GPT-4o gpt-4o-2024-05-13 OpenAI 美国 75.1 66.1 82.6 74.6 2 Claude claude-3-5-sonnet-20240620 Anthropic 美国 75 63.3 73.3 70.5 3 通义千问-VL qwen-vl-max-0809 阿里巴巴 中国 72.9 61.1 75.4 69.8 4 海螺AI not specified MiniMax 中国 69.4 57.1 77.1 67.9 5 Step-1V step-1v-32k 阶跃星辰 中国 71.9 55.9 74.6 67.4 6 混元-Vision hunyuan-vision 腾讯 中国 69 57.9 75 67.3 7 书生•万象 InternVL2-40B 上海人工智能实验室 中国 68.9 52 79.9 66.9 8 GPT-4o-mini gpt-4o-mini-2024-07-18 OpenAI 美国 67.7 52 78.4 66 9 GPT-4 Turbo gpt-4-turbo-2024-04-09 OpenAI 美国 68.1 54 75.1 65.8 10 文心一言 文心大模型 4.0 Turbo 百度 中国 68.6 49 77.9 65.1 11 Gemini gemini-1.5-pro Google 美国 65 50.4 74.1 63.2 12 百小应 Baichuan4 百川智能 中国 60.3 50.9 73.9 61.7 13 Yi-Vision yi-vision 零一万物 中国 59.1 51.7 57.7 56.2 14 SenseChat-Vision5 SenseChat-Vision5 商汤科技 中国 58.1 48.7 59.9 55.6 15 智谱GLM-4V glm-4v 智谱AI 中国 59.6 46.1 58.3 54.7 16 Reka Core reka-core-20240501 Reka 美国 55.7 43.6 64 54.4 17 讯飞星火 spark/v2.1/image 科大讯飞 中国 55.4 38.1 61.9 51.8 18 浦语•灵笔2 internlm-xcomposer2-vl-7b 上海人工智能实验室 中国 48.6 39.7 59.3 49.2 19 DeepSeek-VL deepseek-vl-7b-chat 深度求索 中国 46.1 38.4 57.3 47.3 19 MiniCPM-Llama3-V 2.5 MiniCPM-Llama3-V 2.5 面壁智能 中国 49.4 40.4 52 47.3