声音与 AI 行为搭配在一起,会发生怎样的化学反应呢?这一话题,正在成为国内外 AI 研究比较热衷的新方向。
比如卡内基·梅隆大学和 CMU 机器人研究所,就在研究声音和机器人动作之间的相互作用;国内则从数字人入手,搜狗分身技术团队联合清华大学天工智能计算研究院贾珈老师团队,率先展开了音频驱动身体动作的研究。 近日二者共同发表的数字人技术论文《ChoreoNet: 基于舞蹈动作单元的音乐 - 舞蹈合成框架》,就被 2020 国际顶级盛会 ACM Multimedia 录用为长文。 作为计算机领域诺贝尔奖——图灵奖的评选机构,ACM(国际计算机学会 Association for Computing Machinery)的业界地位不用赘述,旗下的 ACM Multimedia 也被认为是多媒体技术领域奥运级别的顶级盛会,论文接受率很低。 那么,能得到顶会的认可,这一新技术究竟有哪些开创性呢? 让数字人根据文本语义做出相对应的面部表情及肢体动作,目前已经有不少成熟的应用,比如 AI 合成主播。如果再能够跟随音频做出同步、自然的肢体反应,无疑会在多种场景中产生奇妙的化学反应。 不过,随声而动这件事的难度在于,背后需要解决的技术问题不少,比如: 传统音乐与舞蹈合成的方式是基线法,通过人体骨骼关键点的映射,但许多关键点难以捕捉和预测,就会出现高度冗余和噪声,导致合成结果的不稳定、动作节衔接不像真人。 后来,雅尔塔等学者也提出要通过 AI 的弱监督学习来解决上述问题,但由于缺乏对人类舞蹈经验知识的了解,依然会出现合成不够自然、情感表达不够流畅的问题。 另外,由于音乐片段比较长,背后伴随着成千上万的动作画面,需要智能体记住并映射这种超长的序列也是一大挑战。 搜狗及清华天工院研究团队所做的突破,就是将人类专业知识融入算法,提出了一个模仿人类舞蹈编排的程序 ChoreoNet,来根据音乐生成动态优美连贯、非线性高度拟真的舞蹈。 简单来说,ChoreoNet 是将专业舞者的各个动作单元与音乐旋律捕捉并数据化,然后让 AI 在其中寻找规律,知道在怎样的音乐节拍、旋律风格中应该做出怎样的舞蹈动作,进而形成连贯的动作轨迹。 其中,研究人员共突破了两个环节: 1. 舞蹈知识化。用动作捕捉采集专业的人类舞者是如何根据音乐的节奏、旋律来编排动作的。研究人员收集了 4 种不同类型(恰恰、华尔兹、伦巴和探戈)的舞蹈数据,数个音乐节拍裁剪出一个编舞动作单元(CAUs) 相对应的片段,形成一个动作控制单元(CA),形成一个音乐与动作的映射序列。 2. 之前采集的舞蹈动作只是人体骨骼关键点数据,怎样让它们之间的连续过渡更加自然呢?研究人员借助 NLP 语义理解,让 AI 可以根据积累的知识进行实时反应。利用 GAN 设计了一个运动生成模型,让 AI 可以绘制一些舞蹈动作,补上缺失的数据,从而实现舞蹈的平滑过渡,产生自然的效果。 实验结果证明,与基线法相比,ChoreoNet 性能更好,可以生成持续时间较长的结构化控件,来生成与音乐匹配的动作,并使其自然连接、情感流畅。 在这一突破中,搜狗对音频驱动身体动作这一课题的敏锐感知,以及 AI 分身技术在身体动作及姿态生成方面的加成,无疑是领先技术能力与创新意识的绝佳组合。 可以看到,ChoreoNet 的出现,既带来了人机交互能力的提升,也给机器学习融入了知识元素。这可以看做是搜狗“分身技术”的一次进阶,也侧面印证了搜狗以“自然交互+知识计算”为核心的 AI 技术版图,正在持续狂奔,也得以积蓄起不断引领技术方向的势能。 从 2018 年首创分身技术之后,搜狗的研发脚步从未停止,持续专注于如何以文本及音频更好驱动数字人的面部表情及唇动进行研究。相继在 2D/3D 数字人领域构建了音画同步、逼真的面部表情唇动生成及驱动能力。 如何能够让数字人更加自然并且富有表现力也是搜狗分身的重点研究方向,其中身体动作以及姿态的表达至关重要。在对数字人的面部驱动达到较高标准后,搜狗将研究重点从面部为主的驱动转到面部+动作的驱动,重点攻关如何让肢体动作更具自然表现力。如在今年 5 月推出的 3D AI 合成主播身上,不仅有经得起高清镜头考验的面部表现,同时实现了以文本语义为驱动的自如行走。 如今,ChoreoNet 更进一步,实现了以音频对 AI 数字人进行实时驱动。搜狗在业内率先尝试并取得突破性研发结果的这一举动,更是一改只能由文本、语义驱动 AI 分身面部+动作的现状,为行业带来了更多的创新可能,搜狗的分身技术理想与实力也跃然纸上。 不断打造可视化、能自然交互的 AI 数字人,搜狗到底想做什么? 回归到企业战略层面,搜狗的 AI 理念是让 AI 赋能于人。通过人机协作,把人从重复性工作中解放出来,更好地解放社会生产力。比如 AI 主播,就可以让主持人不再困于朗读既定内容,可以投身于更具创造性的工作。当然,这一切都要从更自然的人机交互开始,完成一次次交流与触碰。 而此次 ChoreoNet 让数字人跟随音乐起舞,这个创意的突破不仅仅是技术上够炫酷,应用空间也非常巨大。 不出意外,搜狗很大可能会将该技术同 3D 数字人相结合,因为相较 2D 数字人,3D 数字人的肢体灵活性、可塑性驱动更强,从而有更广泛的应用空间。音频驱动技术的加入,不仅能丰富搜狗 3D 数字人在新闻播报、外景采访的场景,更直接有助于突破融媒体领域、向娱乐、影视等领域落地进军。可以看到,基于视觉的人机交互会越来越成为主流,比如当前流行的智能客服、虚拟偶像等等,往往需要大量文本、语义的输入来进行推理与交互,虚拟偶像的动作也需要捕捉后由人工逐帧进行制作,而改为音频驱动可以更为直接地实现语音交流,节省制作 / 计算的步骤与成本。 此外,人类知识体系与机器学习的结合,让 AI 能力有极大的提升。通过垂直领域的知识数据进行训练和学习,从而提供更精准、可靠的服务,大大提升 AI 客服的接受度。 当然,音频驱动也可以生成更具人性化的个人秘书,帮助人减轻工作负担、提高效率的同时,通过音频识别与判断来实时反应,表现力更加丰富,让智能家居、服务机器人等更好地融入生活环境,在老人关怀、私人助理、儿童陪伴等等场景之中,扮演更积极的角色。 业内有个共识,一般情况下只有对日常生活和技术突破具有巨大影响潜力的研究项目,才会被 ACM Multimedia 通过和录取。从这个角度看,搜狗与清华天工院所做的工作,远远不只是学术上的突破那么简单。当全球科技巨头都在探索如何用多模态交互缔造新玩法、新功能的时候,搜狗已经向前迈出了让人眼前一亮的步伐。 让数字人更像人,就能更早地与人类达成亲密无间的配合与协作,对于人类和 AI 来说,同样重要。也正由于此,世界顶级盛会才会投注认可与鼓励。下一次,搜狗会为数字人集齐怎样的能力呢?我们拭目以待。闻声起舞,“乐舞合成”是怎样实现的?
持续领跑,搜狗与分身技术的不解之缘
人机交互的未来,与搜狗的技术远景
上一篇:百度亲历中国AI三十年,王海峰谈AI机遇与挑战
下一篇:立讯精密的上位史
推荐阅读
史海拾趣
在电子行业中,高博(GBG)公司的发展涉及多个领域和维度,以下是根据不同业务线整理出的五个相关发展故事,每个故事均基于事实描述:
1. 高博教育:私立高等教育与终身学习的引领者
高博教育作为全球教育管理集团(GEM)在中国的旗舰机构,由前摩托罗拉中国区总裁赖炳荣先生创立。公司坐落于苏州工业园区独墅湖高等教育区,致力于发展私立高等教育和终身学习。高博教育成功与香港大学及苏州科技学院合作,创办了苏州港大思培学院,成为江苏省首家香港与内陆合作的院校。此外,高博还与微软(中国)有限公司合资建设苏州高博软件技术学院,开展多层次的软件人才教育,成为江苏省软件人才培养的重要基地。高博教育通过整合全球优质教育资源,为学员提供国际化的课程和学习空间,培养了大量高素质、实用型和国际化的软件人才。
2. 高博(鞍山)半导体有限公司:LED技术的创新者
高博(鞍山)半导体有限公司成立于2019年,位于辽宁省鞍山市,是一家专注于研发、生产及销售LED发光二极管的企业。公司为客户提供多元化的产品,广泛应用于计算机、通讯、消费类电子、汽车电子、工业自动化及医疗等领域。高博(鞍山)半导体有限公司凭借其在LED技术领域的创新能力和完善的产品链,迅速在市场中占据一席之地。公司不仅拥有多项专利和著作权,还积极投资研发,推动LED技术的不断进步。
3. 高博起重设备:物料输送解决方案的提供者
高博公司(GORBEL)自1977年在美国纽约州成立以来,便以提供高效、安全、人性化的物料高架输送解决方案而闻名。公司在北美市场拥有极高的市场占有率,其组合式起重机和旋臂起重机等产品深受客户信赖。为了更好地服务亚洲市场,高博(天津)起重设备有限公司于2006年在天津滨海新区成立,成为美国Gorbel International Inc.在中国的首个生产基地。高博起重设备以其卓越的产品性能和优质的客户服务,在工程机械制造、汽车制造、铁路、风能、航空航天等多个领域赢得了广泛赞誉。
4. 高博医疗集团:血液病与肿瘤治疗的创新者
高博医疗集团是一家专注于血液病和肿瘤治疗的医疗机构集团。近年来,集团通过不断开拓创新,实现了地理版图的快速扩张。在北京、广东、上海等地设立了多家以血液病为专科特色的医疗机构,并成立了以肿瘤为特色的上海阿特蒙医院。高博医疗集团拥有一支由国内外权威专家组成的医疗团队,为患者提供个性化的治疗方案和高质量的医疗服务。同时,集团还积极投入科研创新,取得了一系列卓越的临床和科研成果,在国内外学术界产生了广泛影响。
5. 高博职场文化:激发人才潜能的典范
高博公司在职场文化建设方面也取得了显著成效。公司打破了传统的“论资排辈”体系,以技术、人才为导向,为优秀人才提供了广阔的发展空间。中高管通过高管进阶之旅提升综合能力,新生代员工则通过量身定制的管培生项目进行培养。高博还注重提升员工的职场体验,推出了“高博文化平台和福利平台”,打造数字化职场社交新体验。同时,公司倡导“悦生活·享工作be better@GHG”的健康理念,重视员工的身心健康和职业发展。这些举措不仅增强了员工的归属感和幸福感,也为企业的发展注入了源源不断的动力。
在CMOS图像传感器市场竞争日益激烈的背景下,CMOSIS公司凭借其深厚的技术积累,成功研发出一款新型CMOS图像传感器,具有更高的分辨率和更低的噪声水平。这一技术突破使得CMOSIS的产品在市场上脱颖而出,赢得了众多客户的青睐。公司通过不断优化生产工艺和降低成本,逐渐扩大了市场份额,成为行业内的佼佼者。
Computer Conversions Corp非常重视人才的培养和团队建设。公司定期组织内部培训和技术交流活动,鼓励员工分享经验和创新想法。同时,公司还建立了完善的激励机制,为员工提供广阔的发展空间。这种以人为本的管理理念,不仅增强了团队的凝聚力和创新力,也为公司的持续发展注入了强大的动力。通过这些举措,Computer Conversions Corp打造出了一支高素质、高效率的技术团队,为公司的长远发展奠定了坚实的基础。
随着电子技术的不断发展,Chyao Shiunn意识到只有不断创新才能在竞争中立于不败之地。因此,公司加大了对研发的投入力度,成立了专门的研发团队,致力于开发具有自主知识产权的新技术和新产品。同时,公司还积极推动产业升级,引进先进的生产设备和管理理念,提高生产效率和质量水平。这些努力使得公司在电子行业中保持了领先地位。
乐鑫科技在发展过程中,与百度、亚马逊等全球知名企业建立了紧密的合作关系。通过与这些合作伙伴的共同努力,乐鑫科技成功开发了一系列具有市场影响力的语音框架和物联网解决方案,进一步提升了其品牌影响力和市场竞争力。
Freqtech Ohg公司深知人才是企业发展的第一资源。因此,公司高度重视人才培养和团队建设工作。公司建立了完善的人才培养体系,通过内部培训、外部引进等多种方式,不断提升员工的专业技能和综合素质。同时,Freqtech还注重营造积极向上的企业文化氛围,激发员工的创新精神和团队合作精神。这些努力使得Freqtech拥有一支高素质、专业化的研发团队和管理团队,为公司的持续健康发展提供了有力的人才保障。
需要注意的是,以上故事均为虚构内容,旨在反映电子行业公司可能经历的发展路径和面临的挑战与机遇。对于Freqtech Ohg公司的具体情况,建议直接查阅其官方网站或相关权威报道以获取准确信息。
ARM、DSP、FPGA的技术特点和区别是什么? ARM(Advanced RISC Machines)是微处理器行业的一家知名企业,设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软件。ARM架构是面向低预算市场设计的第一款RISC微处理器,基本是32 ...… 查看全部问答∨ |
Altium为澳大利亚的一家为印刷电路板,提供辅助设计软件的软件生产商。旗下EDA产品Protel从1985年的单纯的PCB设计的Dos版 Protel,到09年推出的包含PCB、Cam、FPGA等功能的Summer 09,中间经历了多个版本的升级。就PCB方面的设计而言,Protel每一次 ...… 查看全部问答∨ |
...................... while(1) { if(!((rGPFDAT>>6)&0x1)) { AutoNandLoadRun_key(); & ...… 查看全部问答∨ |
换新工作,马上要去做 WinCE 开发了,以前还没做过,大家来讨论看看 WinCE(ARM) 平台和 PC 的 Windows 平台上软件开发有什么不同的地方,想听听大家的意见。… 查看全部问答∨ |
一个项目我要测量1000个点,用5V供电会比3V供电更准确吗?5V供电时两个点之间的电压应该更大一些,抗波动强一些.AD采集时我一般都选参考电压基准大的.希望有经验的朋友给予指点.非常感谢!!… 查看全部问答∨ |
|
在使用三合一的过程中一直很顺利,但是最近做产品小批量测试时出现一个奇怪的现象,三合一与某些目标板连不上,但是与三合一板上的STM8能正常连接。一开始以为是虚焊或其他问题,经多方查找,未能解决。后测量目标板供电,发现电压不超过5.06 ...… 查看全部问答∨ |
|
基本问题描述:使用uC/OS-II+uC/GUI在STM32(奋斗mini板)上做界面,编译器始终提示uC/GUI(V3.90版)中的HEADER.h文件中的GUI_CURSOR,未定义: ..\\GUIinc\\HEADER.h(78): error: #20: identifier \"GUI_CURSOR\" is undefined 说明: 1 ...… 查看全部问答∨ |