企业培训资讯_企业培训干货

当前位置:首页 > 新闻中心

亚马逊首席科学家:揭秘Alexa语音识别技术|AINEXT

发布时间:2021-03-21    来源:软件入口90983

本文摘要:点击:本月18日,由美中科技创新协会(ATI)主办的首届“AI NEXT”大会在西雅图召开。

点击:本月18日,由美中科技创新协会(ATI)主办的首届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾还包括:微软公司首席AI科学家、微软公司院士黄、优步深度自学负责人等。

除了中国人,还有亚马逊首席科学家尼克斯特罗姆(Nikko Strom)、微软公司驻小娜的建筑师萨瓦斯帕拉斯特迪斯(Savas Parastatidis)等业界知名专家。会议主题为“挖掘AI的潜力,将AI技术应用于简单的项目和服务”,并就CV、NLP、智能助手、深度自学框架等做了专题报道。其中,亚马逊首席科学家Nikko Strom再次以“Alexa是怎样炼丹的”为主题描述了Alexa深度自学基础架构、声学模型、语音合成等内容,组织如下:现任亚马逊首席科学家Nikko Strom是Echo和Alexa项目的创始成员。

他在语音识别技术领域有资深研究和经验:1997年获得瑞典皇家理工学院语音通信实验室博士学位,后在麻省理工学院计算机科学实验室担任研究员。2000年,他重新加入语音技术初创公司Tellme Networks;2007年,随着Tellme Networks被微软收购,重新加入微软,推进商业语音识别技术的前沿研究;2011年,他重新加入亚马逊,担任首席科学家,领导相关领域的语音识别和深度自学项目。

以下是Nikko Strom在本次大会上的发言。(微信官方账号:)在不改变不情愿的基础上删除补充。再次非常简要地解释我们的产品。

如果你买了亚马逊Echo,就意味着你可以控制它,通过Alexa语音识别系统和它通话,不用拿遥控器。左边(右边)是假日季,是我们新加的白色Echo和Dot。

我们坚信,很多人应该喜欢白色电子产品。Echo还可以连接没有内置Alexa系统的家电,比如灯、咖啡机、恒温器等。只有苏醒的Alexa需要让这些家电继续执行一些命令。

此外,开发人员可以通过Alexa技能工具包创建个性化功能。如今,Echo已经被转移到数百万用户的家中,每天都在大量使用,这也给了我们难以想象的数据量。|深度自学基本框架其实人耳并不是一直在收集语音信息,“听”的时间只有10%左右。因此,当一个人茁壮成长到16岁时,他/她听到的声音的训练时间约为14016小时。

回到Alexa,我们在S3存储了数千小时的真实语音训练数据,并在EC2云上的分布式GPU集群中使用它来训练深度自学习模型。在训练模型的过程中,发现MapReduce方法的效果并不理想,因为节点必须频繁维护实时修订,不可能通过减少更好的节点来加快运算速度。

苹果彩票官网

也可以解释为:GPU集群修订模型的计算速度极其缓慢,每秒会修订几次,每次修订都是模型本身的大小左右。也就是说,每一个线程(Worker)都要和其他线程实时修改几百兆字节,一秒钟内发生多次。

所以MapReduce方法不是很有效。我们在Alexa中对问题的解决方案是使用几个约计来增加修订尺度,并传送三个数量级。

这是我们2015年论文中的图表。可以看出,随着GPU线程的减少,训练速度变慢。当GUP线程数达到40个时,直线完全下降,然后增长率略有上升。80个GPU线程对应55万帧/秒左右的速度,每一秒语音包含100帧左右,也就是说此时一秒可以处理90分钟左右的语音。

我前面提到一个人自学14000个小时的发音需要16年,但是以我们的系统,自学大概3个小时就可以完成。这是Alexa的一般深度自学基础设施。|声学模型大家告诉我们,语音识别系统的框架主要包括四大块:信号处理、声学模型、解码器和后处理。首先,我们不会对从麦克风采集的声音进行一些信号处理,而是将语音信号变换到频域,每10毫秒从语音中明确提出一个特征向量,并为后面的声学模型得到它。

声学模型负责管理音频到不同音素的分类。接下来是解码器,可以得到结论概率最低的一串单词。最后一步是后处理,即将单词组合成更容易加载的文本。在这些步骤中,一定程度上使用了机器学习和深度自学。

今天我主要讲一下声学模型。声学模型是一个分类器,它输出向量并输入语音类别的概率。这是典型的神经网络。底部是输出信息,隐藏层将矢量转化为最后一层的音素概率。

软件入口

这里有一个美式英语的Alexa语音识别系统,所以美式英语的每个音素都不会被输入。Echo刚出版的时候,我们记录了几千个小时的美式英语发音来训练神经网络模型,成本很高。

当然,世界上还有很多其他语言。比如我们在2016年9月发布了德语版的Echo。如果重新来过,用几千个小时的德语发音训练,成本会很高。

所以这种神经网络模型有趣的一个方面就是可以“移向自学”。可以保持原网络其他层不变,只把最后一层换成德语。

两种不同的语言有很多不同的音素,但还是有很多相同的部分。所以只能用少量的德语训练数据,在稍微改变的模型上,最终可以得到很好的德语效果。

|“主播映射”在一个满是人的空间里,Alexa必须找出是谁在说。第一部分很简单。

当用户说出一个苏醒单词“Alexa”时,Echo上对应方向的麦克风不会被打开,但下一部分更难。举个例子,在一个鸡尾酒会上,一个人说“Alexa,来点爵士乐”,但是如果他/她和他/她的同伴说话,而且说话时间很短,那么就更难发现是谁在接受指令。这个问题的解决方案来自2016年的一篇论文《锚定语音检测》(锚定语音检测)。

首先,我们得到了苏醒单词“Alexa”,我们在RNN使用它来提取“锚嵌入”,这意味着苏醒的单词包含语音特征。接下来,我们使用另一种不同的RNN从先前的敦促声明中提取语音特征,然后得出结论,做出终点决定。这是我们解决鸡尾酒会问题的办法。| Alexa中的语音合成技术在Polly中也有使用。

语音合成的步骤一般包括:第一步是对文本进行归一化。如果忘了,这一步是“语音识别”中最后一步的逆算子。第二步,将语素转换为音素,从而得到音素串。

第三步是关键的一步,也是最好的一步,就是把音素分解成波形,也就是实际的声音。最后,你可以播放音频。

Alexa喜欢交互式语音合成。我们把人的自然发音的音频录了几个小时,然后切成非常小的片段,就形成了一个数据库。这些切分片段称为“迪音段”,由一个音素的后半部分和另一个音素的前半部分组成。当声音最终融合在一起时,声音可以听得更清楚。

在创建这个数据库时,应该非常详细,以确保整个数据库中片段的一致性。另一个重要环节是算法,如何选择最佳的片段序列并融合在一起形成最终的波形。首先要搞清楚目标函数是什么,才能保证我们能得到合适的“双音节段”,以及如何从一个可观的数据库中搜索到这些段。

例如,我们不会用属性来标记这些剪辑。今天遇到了三个属性,音高,时长,强度。我们还将使用RNN找到这些功能的目标值。

之后我们在数据库里搜索最佳的段群序列,然后播出。本文为独占编译器,不允许发表。经许可,禁止发表有版权的文章。

以下是发布通知。


本文关键词:苹果彩票官网,软件入口

本文来源:苹果彩票官网-www.london-biscuit.com

分享到:
海洋之神官网登录网址天津:25个商贸旅游项目打造城市“副中心”:软件入口 井柏然《黄飞鸿》英雄养成记  帅得任性温柔热血:软件入口
热门文章
当心!喝酒3阶段最易酒精中毒【软件入口】
【软件入口】我也想被阿一下是什么梗阿我一下是啥意思介绍
百度IDL杰出科学家徐伟宣布加盟地平线,与余凯曾同登《福布斯》榜单|软件入口
洞察OTT行业,视连通详述场景化AI的运营价值:苹果彩票官网
子宫内膜增厚的原因有哪些?|苹果彩票官网
解读|苹果推出iPadOS的真正用意是什么?|苹果彩票官网
中国的零团费旅行社已将这种做法修炼为一门“艺术”
新零售时代到来 地产商重新布局传统商业:苹果彩票官网
“毁掉”女人一生的七句话_苹果彩票官网
王者荣耀国庆节回来的皮肤吗_苹果彩票官网
软件入口:金山云Q1入账8.93亿:财报里的“稳健因子”
大姨妈总是走得不干脆怎么办?|软件入口
软件入口|三星可折叠手机面世,要价1.3万人民币;美团回应「大众点评将消失」;“阿里女高管”正式致歉|雷锋早报
【苹果彩票官网】2018年极米投影机以57.5万台出货量居中国第一
南行实验幼儿园中期积极开展交通安全主题活动-苹果彩票官网
客户案例
×