如今,人工智能領域的前沿模型技術已經從文本處理拓展至視覺信息的深度理解與生成。這些模型既能精准解讀圖像語義,又能根據文字描述創作出兼具真實感與藝術性的視覺內容,展現出令人驚嘆的跨模態理解與創作能力。本研究聚焦全新圖像的生成和基于現有圖像的圖像修改兩大核心任務,提出了一套系統性的人工智能模型圖像生成能力評測框架。我們基于多維測試集的構建與專家評審,對15個專業文生圖模型和7個多模態大語言模型的圖像生成能力進行了全面評估。結果顯示,字節跳動的即夢AI和豆包以及百度的文心一言在新圖像生成的內容質量與修改任務中表現突出,位列第一梯隊。對比不同類型的AI模型,我們發現,相對于專業文生圖模型,多模態大語言模型整體表現更佳。