在科技迅猛发展的当下,人工智能技术不断取得突破性进展,OpenAI的GPT-4o、谷歌的Gemini 2.0这类多模态模型以及通义千问-VL、混元-Vision等视觉语言模型迅速崛起。这些新一代模型在图像理解方面展现出强大的能力,不仅具备出色的泛化性,而且还具有广泛的应用潜力。然而,现阶段对这些模型视觉能力的评估与认知仍存在不足。为此,我们提出了一套全面且系统的图像理解综合评测框架,该框架涵盖视觉感知与识别、视觉推理与分析、视觉审美与创意三大核心能力维度,同时还将安全与责任维度纳入其中。通过设计针对性测试集,我们对20个国内外知名模型进行了全面评估,旨在为多模态模型的研究与实际应用提供可靠参考依据。