在科技迅猛發展的當下,人工智能技術不斷取得突破性進展,OpenAI的GPT-4o、穀歌的Gemini 2.0這類多模態模型以及通義千問-VL、混元-Vision等視覺語言模型迅速崛起。這些新一代模型在圖像理解方面展現出强大的能力,不僅具備出色的泛化性,而且還具有廣泛的應用潜力。然而,現階段對這些模型視覺能力的評估與認知仍存在不足。爲此,我們提出了一套全面且系統的圖像理解綜合評測框架,該框架涵蓋視覺感知與識別、視覺推理與分析、視覺審美與創意三大核心能力維度,同時還將安全與責任維度納入其中。通過設計針對性測試集,我們對20個國內外知名模型進行了全面評估,旨在爲多模態模型的研究與實際應用提供可靠參考依據。