(资料图片仅供参考)
在AIGC取得举世瞩目成就的背后,基于大模型、多模态的研究范式也在不断地推陈出新。微软研究院作为这一研究领域的佼佼者,与图灵奖得主、深度学习三巨头之一的Yoshua Bengio一起提出了AIGC新范式——Regeneration Learning。这一新范式究竟会带来哪些创新变革?本文作者将带来他的深度解读。
作者 | 谭旭
AIGC(AI-Generated Content)在近年来受到了广泛关注,基于深度学习的内容生成在图像、视频、语音、音乐、文本等生成领域取得了非常瞩目的成就。不同于传统的数据理解任务通常采用表征学习(Representation Learning)范式来学习数据的抽象表征,数据生成任务需要刻画数据的整体分布而不是抽象表征,需要一个新的学习范式来指导处理数据生成的建模问题。
为此,微软研究院的研究员和深度学习/表征学习先驱Yoshua Bengio一起,通过梳理典型的数据生成任务以及建模流程,抽象出面向数据生成任务的学习范式Regeneration Learning。该学习范式适合多种数据生成任务(图像/视频/语音/音乐/文本生成等),能够为开发设计数据生成的模型方法提供新的洞见和指导。
论文:Regeneration Learning: A Learning Paradigm for Data Generation 链接: https://arxiv.org/abs/2301.08846 为什么是Regeneration Learning? 什么是数据理解与数据生成? 机器学习中一类典型的任务是学习一个从源数据X到目标数据Y的映射,比如在图像分类中X是图像而Y是类别标签,在文本到语音合成中X是文本而Y是语音。根据X和Y含有信息量的不同,可以将这种映射分成数据理解(Data Understanding)、数据生成(Data Generation)以及两者兼有的任务。图1显示了这三种任务以及X和Y含有的相对信息。 图1:机器学习中常见的三种任务类型以及X和Y含有的相对信息量 X和Y的信息差异导致了采用不同的方法来解决不同的任务: 对于数据理解任务,X通常比较高维、复杂并且比Y含有更多的信息,所以任务的核心是从X学习抽象表征来预测Y。因此,深度学习中非常火热的表征学习(Representation Learning,比如基于自监督学习的大规模预训练)适合处理这类任务。 对于数据生成任务,Y通常比较高维、复杂并且比X含有更多的信息,所以任务的核心是刻画Y的分布以及从X生成Y。 对于数据理解和生成兼有的任务,它们需要分别处理两者的问题。 数据生成任务面临的独特挑战 数据生成任务面临独特的挑战包括: 因为Y含有很多X不含有的信息,生成模型面临严重的一对多映射(One-to-Many Mapping)问题,增加了学习难度。比如在图像生成中,类别标签“狗”对应不同的狗的图片,如果没有合理地学习这种一对多的映射,会导致训练集上出现过拟合,在测试集上泛化性很差。 对于一些生成任务(比如文本到语音合成,语音到说话人脸生成等),X和Y的信息量相当,会有两种问题,一种是X到Y的映射不是一一对应,会面临上面提到的一对多映射问题,另一种是X和Y含有虚假关联(Spurious Correlation,比如在语音到说话人脸生成中,输入语音的音色和目标说话人脸视频中的头部姿态没有太大关联关系),会导致模型学习到虚假映射出现过拟合。 为什么需要Regeneration Learning 深度生成模型(比如对抗生成网络GAN、变分自编码器VAE、自回归模型AR、标准化流模型Flow、扩散模型Diffusion等)在数据生成任务上取得了非常大的进展,在理想情况下可以拟合任何数据分布以实现复杂的数据生成。但是,在实际情况中,由于数据映射太复杂,计算代价太大以及数据稀疏性问题等,它们不能很好地拟合复杂的数据分布以及一对多映射和虚假映射问题。类比于数据理解任务,尽管强大的模型,比如Transformer已经取得了不错的效果,但是表征学习(近年来的大规模自监督学习比如预训练)还是能大大提升性能。数据生成任务也迫切需要一个类似于表征学习的范式来指导建模。 因此,我们针对数据生成任务提出了Regeneration Learning学习范式。相比于直接从X生成Y,Regeneration Learning先从X生成一个目标数据的抽象表征Y’,然后再从Y’生成Y。 这样做有两点好处: X→Y’ 相比于X → Y的一对多映射和虚假映射问题会减轻; Y’ → Y的映射可以通过自监督学习利用大规模的无标注数据进行预训练。 Regeneration Learning的形式 Regeneration Learning的基本形式/Regeneration Learning的步骤 Regeneration Learning一般需要三步,包括: 将Y转化成抽象表征Y’。转换方法大体上可分为显式和隐式两种,如表1中Basic Formulation所示:显式转换包括数学变换(比如傅里叶变换,小波变换),模态转换(比如语音文本处理中使用的字形到音形的变换),数据分析挖掘(比如从音乐数据抽取音乐特征或者从人脸图片中抽取3D表征),下采样(比如将256*256图片下采样到64*64图片)等;隐式转换,比如通过端到端学习抽取中间表征(一些常用的方法包括变分自编码器VAE,量化自编码器VQ-VAE和VQ-GAN,基于扩散模型的自编码器Diffusion-AE)。 表1:Y→Y’转换的不同方法 步骤2:从X生成Y’。可以使用任何生成模型或者转换方法,以方便做X → Y’映射。 步骤3:从Y’生成Y。通常采用自监督学习,如果从Y转化为Y’采用的是隐式转换学习比如变分自编码器,那可以使用学习到的解码器来从Y’生成Y。 如表1中Extended Formulation所示,一些方法可以看成是Regeneration Learning的扩展版本,比如自回归模型AR,扩散模型Diffusion,以及迭代式的非自回归模型等。在自回归模型中,Y_{在AIGC取得举世瞩目成就的背后,基于大模型、多模态的研究范式也在不断地推陈出新。微软研究院作为这一...
04-05 06:08:57
4月5日电,英国央行批准瑞银和瑞士信贷在英国的收购交易。
04-05 03:04:09
1、1、2、1、微商各个公司的代理级别都不一样的。比如说市代理,省代理都是不一样的。总代理下面还有最...
04-04 22:56:25
36氪获悉,集邦咨询发布报告称,3月锂离子电池上游原料价格继续大幅回落,均价跌幅进一步扩大。集邦咨询...
04-04 20:08:30
中低档手机能拥有旗舰处理器就已经很不错了,一般就不用指望它能拥有出色的屏幕和影像能力了,因为处理...
04-04 19:00:20
朱中山副主任医师湖南省第二人民医院病情分析:免疫治疗肺癌的效果
04-04 18:16:44
短视频,红红火火。火爆背后难免有一些别人用心之人、出乎意外之事。“28岁没工作,处了7年还没结婚就当...
04-04 17:02:59
走在大李庄村向南一条弯曲的水泥路,路东侧白色、紫色的萝卜花与西侧绿色油麦苗、黄色油菜花相互交映、...
04-04 16:05:04
经济增长、生活方式的改变和人口老龄化推动我国医疗器械市场的持续增长。其中,作为全人类头号死因的血...
04-04 15:12:49
天眼查App显示,近日,金开新能(本溪)分布式光伏发电有限公司成立,法定代表人为何昕,注册资本100万...
04-04 14:42:07
李易鑫:黄金重回震荡循环如何操作,黄金原油最新走势操作建议人与人之间,开始让人舒服的也许是你的言...
04-04 13:52:15
继上周五A股人工智能板块高潮后,昨天AI继续高潮,由于AI的带动,两市成交额放大到1 25万亿再创新高,...
04-04 12:24:34
中国证券网讯(记者郑俊婷)天润乳业在4月4日披露的调研纪要中表示,现如今消费者逛超市逛便利店的频次有...
04-04 11:47:55
多家房地产企业因无法于2023年3月31日或之前刊发2022年年度业绩而发布停牌公告。据港交所上市规则,发行...
04-04 10:43:06
俗话说:“牙好,胃口就好,身体倍儿棒,吃嘛嘛香”。幼儿时期是长身体的重要时期,做好儿童口腔保健,...
04-04 10:12:03
近年来如火如荼的氢能产业,现状如何?未来趋势又在哪里?近日,首届北京氢能产业大会暨京津冀氢能产业...
04-04 09:25:25
3元以内送的礼品,送闺蜜一个精致的礼物,既可以表达你的祝福,又不失时间和她的性格,所以礼品一定要有...
04-04 09:23:35
为建设好家庭、传承好家教、弘扬好家风,省妇联从即日起开展2023年海南省“最美家庭”寻找推荐活动。
04-04 08:57:03
拆开“茅台”“五粮液”“剑南春”等名酒的外包装,一瓶接一瓶地把酒倒进污水池中……4月3日,南宁市市...
04-04 07:46:56
【苹果公司CEO库克:自己对虚拟现实头显态度发生转变人们需要该产品】财联社4月3日电,苹果首席执行官库...
04-04 06:07:57
旅游的意义是什么,也许是身心的放松,也许是浏览名胜古迹时的增长阅历,也许是实现心中的一种愿望,当...
04-04 03:03:09
概述:1季度初,原油价格延续22年12月以来的震荡行情,宏观情绪相对稳定,供需两端矛盾不大,油价基本维...
04-03 22:48:47
22岁中国留学生在泰国被3名中国男子绑架杀害案有了最新进展。
04-03 21:44:13
今天,大学路小编为大家带来了高职院校排行榜最新高职大专院校排行榜,希望能帮助到广大考生和家长,一...
04-03 20:25:24
直播吧4月3日讯据TheAthletic记者MarioCortegana报道,皇马后卫吕迪格已经进行了单独训练。M
04-03 19:13:31
PC构件制造业务去年实现营收20 238亿元“装配式建筑龙头”远大住工将重回增长2023-04-0317:12来源:证...
04-03 18:11:39
1、g20时间没有c20峰会,只有G20峰会,2022年G20峰会的主办国是印度尼西亚,将于11月在巴厘岛举行。G20...
04-03 17:10:36
近年来,神木市持续推进农业产业结构调整,坚持党建引领产业发展,推动农业转型升级,通过产业帮扶、资...
04-03 16:38:19
继供地首日2宗地块底价成交后,4月3日,广州今年首批集中供地再次出让1宗宅地,经过14轮竞价,最终达到...
04-03 16:10:16
杭州多地开展城市更新试点,划重点杭州网发布时间:2023-04-0315:02为推动城市结构优化、功能完善、品质...
04-03 15:04:53
爱玛科技(603529)04月03日在投资者关系平台上答复了投资者关心的问题。
04-03 14:25:48
4月13日至16日,由横琴粤澳深度合作区经济发展局主办的“青春向未来·纵‘琴’欢乐音乐节”系列线下活动...
04-03 13:21:30
在日常学习、工作或生活中,大家总少不了接触作文或者范文吧,通过文章可以把我们那些零零散散的思想,...
04-03 13:01:41
有了ChatGPT,人类懒得思考了,语法,书面语言,chatgpt
04-03 12:40:26
格格不入的天才《第五人格》象牙塔系列时装“囚徒”-怪咖即将上线是天才,也是怪咖。网易首款1V4非对称...
04-03 11:30:09
原标题:海南周刊|鸟类摄影师陈志刚:走遍海南追鸟十年点击查看更多视频白腰勺鹬。早春时节,昌江霸王岭...
04-03 11:08:44
目前文昌市在哪买房气候好,文昌房价今年是涨了还是跌了?关于文昌房价,短期看政策,中期看土地,长期...
04-03 10:33:23
1、文案本意是指放书的桌子,后来指在桌子上写字的人。2、现在指的是公司或企业中从事文字工作的职位,...
04-03 09:26:45
欢迎观看本篇文章,小勉来为大家解答以上问题。酸辣土豆丝家常做法步骤,酸辣土豆丝怎么做很多人还不知...
04-03 09:16:12
1、《英美文学文库》是2006年9月1日剑桥大学出版社出版的图书,作者是(美国)休姆(Hume K )(美国)金惠
04-03 09:02:29
对于宁静的颜值有多么的高,不用小编多讲,相信大家通过照片也都能看得到,到底是好是坏,每个人的心里...
04-03 08:32:54
据央视新闻,当地时间3月31日,巴西央行发布的一份报告显示,人民币已取代欧元,成了巴西外汇储备中第二
04-01 12:13:21
央视网消息(新闻联播):中国物流与采购联合会、国家统计局今天(3月31日)公布,3月份中国制造业采购...
04-01 10:23:25
新华社明斯克3月31日电(记者鲁金博)白俄罗斯总统卢卡申科3月31日在首都明斯克发表国情咨文时强调,对...
04-01 09:04:52
3月31日,潍柴动力发布2022年业绩报告,报告期内实现营业收入1751 58亿元,同比下降20 46%;实现归属...
04-01 07:46:14
1、最近国家在整顿机房和域名,许多网站都受影响了。2、推一把论坛和网站为了自身更好的发展,积极配合...
04-01 06:02:28
马苏这位女艺人,大家也是非常的熟悉,早期出道的她也出演了很多经典的作品,而且她也可以称得上是一位...
04-01 02:47:00
据中国载人航天工程办公室消息,北京时间2023年3月30日,神舟十五号航天员乘组进行了第三次出舱活动。在...
03-31 22:56:04
工业和信息化部、国家发展改革委等十一部门近日联合印发《关于培育传统优势食品产区和地方特色食品产业...
03-31 21:55:01
格隆汇3月31日丨新天地产集团(00760 HK)公布截至2022年12月31日止年度业绩,2022年综合收益及毛利分别
03-31 20:54:58
在AIGC取得举世瞩目成就的背后,基于大模型、多模态的研究范式也在不断地推陈出新。微软研究院作为这一...
2023-04-05
4月5日电,英国央行批准瑞银和瑞士信贷在英国的收购交易。
2023-04-05
1、1、2、1、微商各个公司的代理级别都不一样的。比如说市代理,省代理都是不一样的。总代理下面还有最...
2023-04-04
36氪获悉,集邦咨询发布报告称,3月锂离子电池上游原料价格继续大幅回落,均价跌幅进一步扩大。集邦咨询...
2023-04-04
中低档手机能拥有旗舰处理器就已经很不错了,一般就不用指望它能拥有出色的屏幕和影像能力了,因为处理...
2023-04-04
Copyright © 2015-2022 大众纤维网版权所有 备案号:豫ICP备20014643号-14 联系邮箱: 905 14 41 07@qq.com