相关文章
AI生图可“量身定制”了,华为&清华联手打造个性化多模态生成方法PMG
2024-11-10 18:50

星海 投稿

AI生图可“量身定制”了,华为&清华联手打造个性化多模态生成方法PMG

量子位 | 公众号 QbitAI

苹果OpenAI官宣合作,GPT-4o加持Siri,让AI个性化生成赛道热度飙升。

其实,国内已有相关研究,一项基于大模型的个性化多模态内容生成技术,直接可让AI学会为用户“量身定制”输出。

例如在聊天软件中生成表情包,输入都是:

我通过了,很开心!

配备了个性化生成技术的聊天软件可以识别当前用户想表达的情绪并考虑用户的个性化偏好,自动生成表情库里没有的多个笑脸猫表情候选供用户点击使用:

△图1 个性化生成能够生成符合用户偏好的表情包

相比而言,非个性化生成不会考虑每个用户之前的行为偏好,对用户无差别对待,就没那么懂用户了。

这项最新技术名为PMG(Personalized Multimodal Generation),由华为与清华大学联手打造。

PMG不仅限于即时通信软件,还可以广泛应用于电商、在线广告、游戏、创作辅助等领域,实现个性化背景、人体形态、颜色、表情、角色等内容的生成。

比如根据用户历史偏好提取关键词,生成T恤设计图:

PMG是如何做到个性化生成的?

PMG长啥样?

以个性化生成《泰坦尼克号》电影海报为例,下图展示了PMG的模型结构。

△图2 PMG的模型结构

用户的观影和对话历史作为用户历史行为,电影泰坦尼克号真实的电影海报作为目标物品。研究团队利用大语言模型的推理能力,从用户历史行为中提取用户偏好。

具体包括两部分:

通过冻结的大语言模型生成自然语言的显式关键词表达用户偏好,称为“显式(硬)用户偏好”,例如图中用户喜欢灾难、惊悚片;

通过可训练的大语言模型生成的隐式向量,称为“隐式(软)用户偏好”,用来补充表达难以用少数关键词描述的偏好。

同时,他们将目标物品也通过大模型转换为显式关键词(称为“目标物品关键词”)作为目标项的描述信息。

最终,生成器(例如扩散模型或多模态大语言模型)通过整合和加权用户偏好和目标项关键词来生成既反映用户个性偏好、又符合目标物品的多模态内容,例子中为更具有灾难、惊悚风格的泰坦尼克号电影海报。

整个过程中有三个关键技术点:关键词生成、隐式向量生成、用户偏好和目标项的平衡。

下面我们逐一来看。

关键词生成

首先需要构造提示词指导大模型将用户偏好提取为关键词,该提示词主要包含三个组成部分:任务指令p、属性ai和任务示例e。

这些组件是针对每个场景人工设计的。

其中,任务指令p描述了需要大语言模型执行的任务,即“提取用户偏好”。

属性a=[a1,a2…]针对每个场景进行了定制,例如对于服装可以是“颜色、材质、形状”,对于电影可以是“类型、地区、导演”等等。

在每个问题中,大语言模型被指派回答与特定属性相关的用户偏好,并将这些答案进行组合。

示例e提供了期望的输出格式和示例关键词(例如“可爱”、“卡通”等),不仅有助于指导模型的回答,还使其遵循了标准化的输出格式,从而便于从生成的输出中提取关键词。利用这个提示,可以将模型为属性ai生成的用户偏好关键词kpi表示为:

接下来,将每个属性的输出组合起来,并消除重复项,得到用户偏好关键词kp:

生成目标项目关键词kt的过程类似,但只有一个目标交互物品ht和相应的总结信息xt,同时在这种情况下,没有涉及到对话,其生成过程可以表示为:

隐向量生成

利用提取出的用户偏好关键词kp和目标项关键词kt,已经可以用于后续多模态内容生成,然而,作为一种离散化形式,自然语言表达能力有限。

另一方面,利用连续的隐向量能提供更丰富和精确的表示却需要大量的训练资源。因此我们采取以关键词为主,隐向量为辅两者结合的方式表征用户偏好,这些用户偏好向量有助于解决自然语言与实际用户偏好之间的不匹配问题,其训练过程如图3所示。

△图3 用户偏好向量训练流程

在用户行为与提示词的基础上,研究团队引入P-Tuning V2微调的偏差校正大模型,在其中使用额外长度为L的多模态表征M=[m1,m2…mL]来学习多模态生成能力。

这些多模态表征会被传递给大语言模型,并且它们在向量层中的对应参数是可训练的。

同时按照P-Tuning V2的方法,在每个Transformer层的自注意力机制中,将S个可训练的前缀向量t=[t1,t2…tS]前置到向量序列中。偏差校正大模型正向传播操作的结果输出向量可以表示为:

其中Eprompt和Em表示大语言模型的两部分输出,其中多模态表征的输出Em被作为偏好隐向量用于后续多模态内容的生成过程。生成器结合偏好隐向量、用户关键词生成的多模态内容会与监督信号计算MSE损失,并反向传播到偏差校正大模型中的可训练参数中进行训练。

用户偏好和目标项的平衡

在生成推理过程中,需要同时结合用户偏好和目标项。

然而,生成器往往具有较大的随机性,简单地组合可能导致对某一个条件的过度侧重,而忽略了另一个条件。为了解决这一问题,研究团队使用生成内容与偏好关键词之间的相似度来衡量个性化程度,称之为“个性化水平”。

同样地,生成结果与目标项关键词的相似度称为“准确度”,即目标契合指标。

通过这两个指标,可以从两个角度量化衡量生成效果。

这两个指标的计算方式为利用预训练的多模态网络(如CLIP),将生成结果M和关键词kp、kt转换为向量eM、ep、et,计算它们之间的余弦相似度,作为个性化水平dp和准确度dt。

最后,优化目标为最大化dp和dt的加权和:

超参数α通常设置为0.5,可以根据使用场景和需求进行调整,以实现不同程度的个性化。

考虑到当前多模态生成器具有强大的并行生成能力,研究团队使用多个预定义的权重集合wp、wt进行生成,并选择得分z最高的一个作为最终生成结果。

PMG效果如何?

研究团队通过以下三个应用场景来验证PMG:

在电商应用中以服装图片生成为例,根据用户历史点击的产品,生成服装的个性化图像。研究团队采用了一个多模态的时尚服装数据集POG,用于训练和评估。

在电影海报场景,根据用户观影历史,生成个性化电影海报。采用MovieLens数据集进行训练和评估。

在表情生成应用中,根据用户的对话和表情使用历史,生成个性化表情符号。

使用Llama2-7B作为基础的大模型进行了实验,生成效果如下图所示。

在每个场景中,PMG都能够生成反映用户偏好的个性化内容。

它可以为男性和女性生成不同风格的服装图片:

△图4 服装场景生成效果

为喜欢卡通片的观众生成卡通版电影海报:

△图5 电影海报场景生成效果

为喜欢小动物的用户生成小猫表情包:

△图6 表情包场景生成效果

研究人员使用POG和MovieLens数据集对服装和电影海报这两个场景进行了量化评估。

评估方式是通过图像相似度指标LPIPS和SSIM计算生成结果与用户交互历史以及与目标物品图像之间的相似度,从而衡量其个性化程度以及与目标物品的符合程度。

PMG在这两个指标上都表现出色,测试结果如下表:

此外,研究人员展示了对偏好隐向量的Case Study分析。

当只提供关键词“鞋子,卡通”时,有一定可能形生成鞋子的卡通风格画。然而,在加入偏好隐向量后,模型始终生成带有卡通图案的逼真鞋子。

如下,左图为仅使用关键词生成,右图为同时使用关键词和隐向量进行生成。

△图7 偏好隐向量的Case Study

研究团队通过用户调研对该技术进行了评估,结果显示,PMG生成的内容得分远高于非个性化生成内容。

最后,团队表示,个性化多模态生成技术目前处于早期探索阶段,近期重量级的OpenAI与苹果Siri合作的核心竞争力之一就是通过Siri的用户数据来让AI生成加入个性化,个性化多模态生成技术将成为AI的关键热点趋势。

我们相信这项技术将在未来拥有广阔的应用前景和巨大的商业潜力,很快迎来爆发式增长。

论文链接:https://arxiv.org/abs/2404.08677

代码链接:https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG

    以上就是本篇文章【AI生图可“量身定制”了,华为&清华联手打造个性化多模态生成方法PMG】的全部内容了,欢迎阅览 ! 文章地址:http://dh99988.xhstdz.com/news/6439.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://dh99988.xhstdz.com/mobile/ , 查看更多   
最新文章
99%亚马逊运营都不知道的“以图找同款”功能!
亚马逊已与各大社交媒体平台达成了合作,在社媒平台的分享按钮中,多了一个亚马逊图标。大家可以理解为:从社媒平台到亚马逊平台
如何通过百度网站链接提交提升企业在搜索引擎中的知名度与排名
目前,数字化新时代盛行之际,网络的广泛应用使得网站成为企业展现自身、招揽顾客及拓展市场的重要载体。然而,仅有网站并非万能
电脑磁盘分区格式GPT和MBR哪个好 电脑磁盘分区格式GPT和MBR对比【详解】
  最近不少用户在安装电脑的时候经常会安装新的电脑硬盘,在新的电脑硬盘安装的时候,电脑都会提示用户需要进行初始化磁盘,并
百度seo排名优化是什么?
在当今这个数字化和信息化的时代,搜索引擎已经成为人们获取信息、寻找服务的重要工具。百度,作为中国非常大的搜索引擎,其排名
永州SEO优化,企业品牌腾飞的关键策略
永州SEO推广排名,助力企业品牌崛起。通过优化关键词、提升网站质量、布局搜索引擎算法,提高企业网站在搜索引擎中的排名,吸引
百度新网站收录揭秘:内容质量决定速度,SEO优化引爆排名
百度新网站收录情况近期,公众重点关注了百度搜索引擎针对新型网站的收录状况。作为网站主与网络市场推广从业者,网站于搜索引擎
SEO营销咨询,企业互联网转型的高效秘籍
SEO营销咨询,企业互联网转型的得力助手!我们提供专业的SEO策略,提升网站排名,增强网络曝光,助力企业高效转型,抢占市场先机
电商seo做法 电商SEO优化实战技巧揭秘
电商SEO:解锁流量与转化的秘密武器在当今这个数字化时代,电子商务已成为全球经济不可或缺的一部分随着市场竞争的日益激烈,如
2024年最顶尖的AI驱动SEO工具|TodayAI
在当今数字营销的竞争环境中,获得搜索引擎的高排名至关重要,因为它直接关联到网站的有机流量和品牌的在线影响力。
AI在创造还是毁掉音乐?深度学习时代的音乐变革
近一个月来,音乐界迎来了一场由人工智能主导的变革。随着多个音乐大模型的相继亮相,AI技术一举将音乐创作的门槛降
相关文章