如今,人工智能领域的前沿模型技术已经从文本处理拓展至视觉信息的深度理解与生成。这些模型既能精准解读图像语义,又能根据文字描述创作出兼具真实感与艺术性的视觉内容,展现出令人惊叹的跨模态理解与创作能力。本研究聚焦全新图像的生成和基于现有图像的图像修改两大核心任务,提出了一套系统性的人工智能模型图像生成能力评测框架。我们基于多维测试集的构建与专家评审,对15个专业文生图模型和7个多模态大语言模型的图像生成能力进行了全面评估。结果显示,字节跳动的即梦AI和豆包以及百度的文心一言在新图像生成的内容质量与修改任务中表现突出,位列第一梯队。对比不同类型的AI模型,我们发现,相对于专业文生图模型,多模态大语言模型整体表现更佳。