这次,百度文心跨模态大模型让你的创意「飞起来」!
在近年来的AI领域,随着NLP和CV的日益融合,多模态学习越来越受到学界和业界的重视,其中文本生成图像更是成为现象级研究方向。输入一段语言描述,AI即能输出对应的图像,兼具速度与质量。
在这股以文生图风潮中,AI底蕴深厚的国外大厂纷纷推出多模态文生图模型,比如DALL-E2、GauGAN2和DiscoDiffusion等。这些AI模型生成的图像都给人留下了深刻的印象,在逼真度、趣味性、风格等方面各有特点。
DALL-E2(左)和DiscoDiffusion(右)的不同画风。
国内AI巨头在中文多模态特别是文生图这一赛道也颇有建树,尤以百度基于知识增强的文心跨模态大模型语义理解技术为代表,其中的跨模态生成大模型ERNIE-ViLG可以根据用户输入的语言描述自动创作不同风格(水彩、粉笔画、卡通、油画、蜡笔画、儿童画)的图像。前段时间,百度数字人度晓晓更是创作出了引发热议的「无界」系列画作,被专业美院教授评价为「已经达到了本科美术生的基本要求」。
不过,百度并没有满足于此,想要在文生图领域更专、更快,让生成的图像打破风格的桎梏,同时更
转载请注明地址:http://www.1xbbk.net/jwbrc/3750.html