KAUST计算机科学助理教授Mohamed Elhoseiny与加利福尼亚州斯坦福大学和法国ÉcolePolytechnique(LIX)合作开发了一个大规模数据集,用于训练AI在与艺术品一起呈现时重现人类情感。
最终论文“ ArtEmis:视觉艺术的情感语言”将在2021年6月19日至25日举行的计算机视觉和模式识别会议(CVPR)上发表,这是最重要的年度计算机科学会议。
被描述为“视觉艺术的情感语言”,ArtEmis的用户界面平均每幅图像有七个情感描述,使人类对WikiArt的81K件艺术品的情感解释归因总数超过了439K。
“在该项目之前,大多数机器学习模型都是基于事实描述数据集的,” Elhoseiny解释说。他补充说:“例如,以'一只鸟栖息在椅子上',阿耳emi弥斯扩展了图像描述,要求人们在观察艺术品时也要增加他们感受到的情感,其中包含了复杂的隐喻语言和抽象思想。”
最初的设计灵感来自东北大学心理学教授丽莎·费尔德曼·巴雷特(Lisa Feldman Barrett),并在她的《如何产生情感:大脑的秘密生活》一书中进行了解释。在她的书中,巴雷特(Barrett)展示了刻板印象的面孔如何帮助人们更好地识别所构造的情绪。“我们特意在界面中使用了表情符号,因为巴雷特的实验证明,即使对于人类来说,识别情感也是一个具有挑战性的问题。” ArtEmis生成的数据使AI系统的构建超越了基于面部表情识别的情感AI工业产品中当前采用的经典的传统情感观。基于类似ArtEmis的数据的情感图像描述模型可以通过更好地与艺术品联系并欣赏艺术品来帮助人们获得更积极的体验。与Barret的观点一致,这也可能为使用情感AI缓解心理健康问题打开了大门。
然后,研究人员进行了人体研究,以显示ArtEmis数据集的独特功能。例如,与完善的视觉和语言数据集相比,ArtEmis需要更多的情感和认知成熟度。这项研究还通过一项用户研究得到了验证,在该研究中,参与者被问及描述是否与相关的艺术品有关。
“但是,我们并没有止步于此。为了展示情感神经说话者的潜力,我们还在ArtEmis数据集上训练了地面版本和非地面版本的图像字幕模型。图灵测试表明生成的描述与人类的描述非常相似,” Elhoseiny说。
ArtEmis始于Elhoseiny博士与Guibas教授一起担任斯坦福大学的客座教授。作为与斯坦福大学博士Panos Achlioptas的合作项目,Elhoseiny与斯坦福大学的计算机科学教授,计算机视觉和图形学的领先权威之一的保罗·皮格特(Paul Pigott)合作,共同构建了一个大规模的艺术和语言数据集。Guibas教授的学生,他采纳了该建议,并为使该项目成为现实而做出了巨大的努力。MS / Ph。Kilich Hydarov也支持该项目的实施。KAUST Vision-CAIR组的候选人。这项合作还得益于LIX Ecole Polytechnique的计算机科学教授,领先的图形和视觉研究人员之一的Maks Ovsjanikov的专业知识。
“我们的数据集是新颖的,因为它涉及计算机视觉中尚未充分探索的问题:基于视觉的情感语言解释的形成。具体来说,ArtEmis揭示了情绪,感觉,个人态度和抽象概念,例如自由或爱情,是由各种各样的人引起的。范围的复杂视觉刺激。” Elhoseiny总结道。