企业培训资讯_企业培训干货

当前位置:首页 > 核心课程

西北工业大学教授谢磊:IoT时代,智能语音面临许多新的挑战|CCF-GAIR2018:亚搏电子竞技

发布时间:2021-08-21    来源:亚搏电子竞技官方网站77572

本文摘要:(公共编号:2018全球人工智能和机器人峰会(CCF-GAIR)在深圳召开会议,峰会由中国计算机学会(CCF)主办,由香港中文大学(深圳)主办,深圳市宝安区政府大力指导,是国内人工智能和机器人学术界、工业界和投资界三大领域的顶级交流盛会第三天,IoT专业场馆聚集在一起,名人工智能和云平台副社长崔宝秋同台公开发表了关于名人IoT布局和AI战略布局的报告,之后,与名人在语音识别领域深入合作的西北工业大学谢磊教授公开发表了以庆祝IoT时代智能语音的新挑战为主题的精彩演说。

(公共编号:2018全球人工智能和机器人峰会(CCF-GAIR)在深圳召开会议,峰会由中国计算机学会(CCF)主办,由香港中文大学(深圳)主办,深圳市宝安区政府大力指导,是国内人工智能和机器人学术界、工业界和投资界三大领域的顶级交流盛会第三天,IoT专业场馆聚集在一起,名人工智能和云平台副社长崔宝秋同台公开发表了关于名人IoT布局和AI战略布局的报告,之后,与名人在语音识别领域深入合作的西北工业大学谢磊教授公开发表了以庆祝IoT时代智能语音的新挑战为主题的精彩演说。谢磊指出,现在是智能语音互动发展的黄金期,但语音人才相当紧缺,语音人才在市场上价格很高。同时,学校科研具有前瞻性,但缺乏大数据和大计算能力,谢磊明确提出了学校企业加强深入合作、产学研融合的建议。

随着IoT时代的到来,语音识别领域也进入了许多新的挑战。例如,声学场景从近距离谈到近距离谈话的转变,给语音交流的鲁棒性带来了前所未有的挑战,语音显示使用了大量的人工,花费了时间,新场景的模型训练成本相当高,而且口音和小语言的识别也是基于少量数据的模型适应环境以下是谢磊教授在CCF-GAIR骁龙2018中的大会报告内容,展开了不改变本意的小编整理。今天我演讲的主题是庆祝IoT时代智能语音的新挑战,现在是智能语音的黄金期,我们必须与校企合作融合产学。同时,由于IoT时代的到来,许多挑战仍然需要学术来解决问题。

最后,说明我们最近和谷子合作的几个成果。据说智能家庭和智能家庭是物联网的典型场景,在这个场景下各种设备都上网了。以名为例,我们必须与智能硬件交流。语音是最重要的自然入口。

一句话就能超越目的。在万物网络、大数据的时代,每个人都有很多大数据。学校面临着在这样大的数据时代背景下如何研究的问题。学校主要面向人才培养,射击前瞻研究,但令人失望的是我们缺乏大数据和大计算能力。

亚搏电子竞技

与行业相比,学校更多的数据不能是小数据。人是西瓜,我们是芝麻。公司射击可靠的技术,最后的目的多落地,将技术应用于产品。

只有企业才有确实意义上的大数据和大计算力。在这个大背景下,大学如何研究,我认为校企合作,产学融合,构筑三胜(企业、学校和学生)是个好办法。公司通过校企合作储备人才,学生通过与公司的合作和培训,磨练真正的实力,找到好工作。对于学校来说,在缺乏大数据、大计算能力的现实情况下,利用行业能力,让我们的技术得到更可靠的检测,论文最后得到实际价值的构建。

我指出校企合作是非常有意义的,我们从2010年开始到现在,和很多公司合作,包括名字这样的大公司。在IoT时代,智能场景发生了变化。以前我们在手机上交流,手机的声音是最重要的入口。在IoT时代,又一个语音互动语音互动场景。

以智能家居为例,这种情况给语音技术带来了新的挑战。在IoT语音交互时代,我们面临的问题是远程语音识别,其稳健性是最重要的挑战。从近距离谈近距离,声学场景再次发生各种变化,包括声学脉冲、目标移动、房间混响、背景噪声、阻碍声源等。别人同时说的话,不会造成障碍,也不会因为说的人的切换而改变干扰源。

这些将给语音识别带来巨大挑战。以后不说明如何利用深刻的自学技术解决问题房间混响影响语音识别的问题。

另一个是数据和资源计算不足的挑战,我们称之为低资源的场景。业内人士经常听到人工智能有多少人工智能。我们必须完成各种机械学习任务,包括语音识别。

数据显示需要时间和精力。能否进一步增加人工,能否增加模式培训所用的标识数据,防止许多人工是一个关键问题。

另一方面,在IoT时代,很多运算从云到终端,例如语音觉醒任务,但终端资源可能非常有限,模型越小越好,计算越少,同时也可能满足低功耗的市场需求。以后说明轻量级的语音觉醒方案。口音也是个问题,口音特别轻,语音识别效果不俗。

口音轻的话,语音识别效果不会大幅度降低。语言的夹杂也是一个问题。如果你对机器说我今天买了一个苹果,你很可能会识别它。

现有技术通过大量的数据复盖面积解决问题,提高模型的鲁棒性。另一个问题是小语言。

如果小米想扩大国际市场,许多外国语言必须进行语音识别,但我们可能没有这么多标记数据,甚至一些语言缺乏语音语言专家的科学知识。起初,也可能没有发音字典。在这些低资源的情况下,基于现有模型,基于少量数据适应模型,解决问题的语言没有数据,没有专家科学知识的语音交流也是一个稍微探索的问题。

之后,根据少量的人的数据展开适应模型的工作,说明提高每个人的语音识别体验。当然,这个方案可以扩展到小语种。接下来,我将重点说明我们为了应对上述明确提出的挑战,最近与美国合作的三个研究成果:一是用深度自学解决问题语音识别中的混响问题,二是基于注意力机制的轻量级语音觉醒,三是制作个性化的语音认识。

基于三项工作的论文由语音研究的旗舰会议Interspeech2018使用。第一,去混音。语音交互从入场到远场,房间混响成为影响语音识别性能的重要问题,我们试图通过现在非常热的分解来解决网络(GAN)的问题来解决混响问题。

在语音互动的过程中,我的声音除了直接到达对方的耳朵外,还有各种反射面产生的光线,共同转换在对方的耳朵里。声音包括直达声、早期光和晚期混响。声音的传输和传播,从听声源传来,不会在房间里等待非常宽的时间。从这张动画可以看出,每个小点都是声音粒子。

混响对语音识别性能有相当大的影响。右图是语谱图,清洁时共振峰清晰,右图是混响污染的语谱,可以看到共振峰相当严重的拉尾现象,共振峰对语音识别非常重要,这种共振峰污染不会严重影响语音识别的准确性。在某个中文测试集中,清洁时字符错误率为7.86%,混响时字符错误率提高到23.85%,即使使使用多条件训练(MCT),也会在训练数据中添加带混响的声音,错误率也不会下降到16.02%,但与清洁的声音相比今天,我们试着用深度自学的方法解决问题。

深度自学混响是非常直观的解决方案。深度神经网络的特点是具有多层非线性自学能力,通过返回任务,可以自学从混音的声音输入到无混音清洁的声音输入之间的同构。我们可以通过清洁声音结构的混响声音数据来训练这样的同一网络。

在使用深度神经网络混响的过程中,我们试解对付网络来提高效果。拆解对付网络一般由两个网络组成,一个是生成器,二个是判断器。根据假币制造商和警察之间的游戏论,分解对付网络是特别直观的。左边是假货人(即生成器),他生产假货的右边是警察(即判断器),警察负责管理辨别真货还是假货。

假币伪造者生产的假币交给警察,警察根据自己的经验识别假币,将Loss交给假币伪造者,假币伪造者进一步改善。经过多次回归游戏论的过程,假币最后可以更真实地看穿警察。这种想法可以解决混响问题。

通过生成器混生成器混响,转移判断器判断是清洁的声音还是混响声,通过类似于上述递归游戏论的过程,训练的生成器最后超过了非常好的混响效果。以前也有相关的工作,我们的工作更细致。

我们的结论是,首先,与其他网络类型相比,生成器网络与LSTM网络效果相结合,其本身具有较强的时序建模能力,混响和时间有关。如果网络层数相对较浅,再次添加残差网络可以进一步提高效果。另外,在网络训练过程中,用同一个迷你数据改版两个网络(G和D)取得良好效果是很重要的。根据实验数据集中的语音识别,GAN需要比全然DNN混响提高14-19%的比较字错误率。

最后在MCT多条件培训的场景下,进一步把字错率从16%降到13%,大家有兴趣可以关注我们的论文,获得更好的细节。第二,唤醒一切。

以小爱同学为例,它现在无处不在大家都习惯用小爱同学唤醒美国的手机和扬声器。在觉醒任务中,我们必须确保觉醒率非常低,同时减少虚警率。我说小爱同学,没有醒来是错误的拒绝接受的我没有说小爱同学,但是设备醒来了,这是虚假的警察。

亚搏电子竞技

在语音觉醒任务中,我们的目的是使这个指标越低越好。同时,我们往往在端上和设备上醒来,需要非常小的模型,计算量少。因为计算能力有限,存储能力有限。

我们试着用注意力机制的末端到末端神经网络来解决问题。这不是我们第一次用于基于注意力机制的模型来解决问题。

以前,我们与小米合作,在小米电视语音搜索中超过了非常低的准确性,也是因为我们使用了这个模型,我们可以关注我们在ICASP2018上发表的论文。这次我们将注意力机制用于觉醒任务,也是非常直观的想法。例如,当我们听到别人的名字时,我们的注意力被切换到这个人的演讲中。注意力机制模型在机械翻译、语音识别、语音合成中已经顺利应用。

我们顺利地将其用于语音唤醒任务。其优点是去模块化,一个网络需要输入觉醒识别,二是模型参数少,同时需要其他觉醒方案中的简单图搜索,计算量进一步减少,三是模型训练需要偏移。使用基于注意力机制的语音觉醒模型,通过编码器、注意力机制和Softmax的融合,可以直接判断是否是觉醒语。

在小爱同学的内部测试集中进行了实验检查。对于编码器来说,CRNN网络比GRU和LSTM更优秀。最后,在一小时一次的虚假警察条件下,我们的方案错误地拒绝上升6次,同时计算量减少了4倍。第三项工作是尝试低资源场景,为每个人制作个性化的语音识别模型,提高每个人的语音识别体验。

右图可以看到这是某个测试集中的10个人实现语音水平的错误率,大家都说普通话,但是语音识别性能非常不平衡。错误率低于100个字符,错误率低于3个字符,错误率高达40%甚至56%。

这些低错误率通常是由口音问题引起的。我国各地区方言和口音不同。现有标准化的语音识别声学模型通常通过不同的口音数据覆盖面积来减轻这个问题。

但是,注定是平均值模型,不可能为每个人提供最佳的语音识别性能。我们比较了一些不同的说话者适应的方法。神经网络非常灵活,可以做很多工作,对网络开展有不同的手术,通过平均值模型方案的改建,超过了兼容性不同人的适应能力。

第一种方法是LIN,在传统语音水平大的网络声学模型的前提下,可以特别改变线性网络,将不同人的语音输入标准化特征,完整的网络参数不会改变。也就是说,一个人可以在线转换网络,这个小网络可以放在每个人的手机上。第二种方法是LHUC,为每个人自学一组个性化参数,用于调节大网络声学模型参数的幅度。

第三种方法是俞栋先生论文的做法,需要用每个人的数据改版大网络声学模型参数,即每个人的网络。为了防止数值问题,使用KLD标准在模型适应过程中受到约束,适应环境后模型的后检概率分布与说明者有关的大型网络模型的后检生产越相似越好。

我们自由选择了10个带湖北口音的普通话发音人,每个人用5-300句适应模型,用100句测试。上图显着,无论用于上述任何方法,语音识别错误率都稳步上升。总的来说,我们找到了KLD方法,LHUC,LIN很差。我们工作的另一个特点是分类口音程度,仔细观察不同方法的表现。

我们根据刚才的10名测试者的标准化模型语音识别错误率,对他们进行了口音程度的区别,分为轻度口音、中度口音和轻度口音,仔细观察这3种人的语音识别性能。我们发现,在轻度口音中,LHUC的效果最差,其他两种方法表现出不稳定,有时好坏。这是因为轻度口音和标准化模型之间的差距不同。

特别显着,在训练标准化模型时,只引进了口音数据。在这种情况下,用其他方法大幅度调整网络不会产生负面影响。LHUC这种暗的调整参数方法反而效果最差。在重度口音上,KLD和LHUC的效果非常好,可以超过哈密的效果。

亚搏电子竞技

如果存储或内存闲置是必须考虑的因素,可以自由选择更简洁的LHUC方法,为每个人打开神经网络,为每个人存储一组调节大网络参数。对于重度口音,目标发音人与标准化模型之间存在着非常大的差距,因此需要用于目标发音人的数据调整标准化模型参数,获得与目标发音人兼容的模型,效果最差。所以模式轻训RSI和KLD可以超过这个目的,而KLD效果比较好,即图上黑线平稳在下面,错误率低。在我报告的最后,我们将展示我们最近深入自学语音减震的最近结果。

我们告诉大家,语音减震和语音强化是一个研究历史非常广泛的研究课题,一般都是通过信号处理的方来解决问题。手机上也有各种减震方案和减震算法。

传统统统计数据信号处理的方法优势是信号统计数据特性到达解决问题,对稳定噪音有良好的引导能力。但是,对于不稳定类型的噪音,例如在喧闹的酒吧里有很多不稳定的噪音。

我们将深度自学应用于语音强化,融合信号处理的科学知识,领先减震。这是我们在喧闹的酒吧记住对手机说话的声音,用深度自学特信号处理的方法展开减震。

大家也听说过,喧嚣的背景噪音基本上被抹去了,这是深刻的自学能力语音减震超过的新水平。(演说全文结束)会议结束后,听说现在的智能扬声器在简单的任务持续下去没有很多问题,技术不成熟的时期是否会马上进入市场,谢磊的问题是智能扬声器是最重要的入口,IoT的入口和流量的入口。所以,大家都在配置扬声器,市场上经常出现百箱光明日报的情况,但是大家都在配置新的流量经济夺取入口。在技术方面,智能扬声器可能是公司技术综合实力的反映,最适合训练士兵。

因为麦克风阵列技术、语音强化技术、远场语音识别技术、语音解读和对话技术、知识库、语音合成等,是否有输入内容的实力。每项技术都是最重要的研究课题,必须研磨和优化。但是,对于用户来说,只是感觉交互体验好,需要必要的内容。

技术的发展有一个阶段,现阶段可以超越的能力,但是包括智能扬声器在内的各种智能硬件已经超过了可以使用的阶段,但是离使用方便还需要一定的技术发展。基于智能扬声器的远程语音交互,语音识别的准确性必须进一步提高。这需要前端方案的因素和前端和后端的领导优化。语音合成也必须更加自然和个性化,每个人对语音的市场需求都不同。

此外,对于深度解读用户来说,这需要语义解读和对话技术的进一步突破。本来语义解读就有很多歧义。例如,你想穿多少,这句话只与环境有关。

冬天,当你特别冷的时候,你希望穿得特别多,但是当你到了夏天,你想穿多少,也就是说,当我感到冷的时候,我不能再做了。因此,这实质上与语境有关,语义解读困难。口语交流更加困难。例如,我们在聊天过程中,说话可能是语速快、吞声少、语序逆转、不遵守规则的ATENU。

说话的时候,我的语序逆转了你也能理解,中途挂了很多东西也不能理解,但是机器解读的时候可能是个大问题。因此,这一部分必须通过各种技术突破和各模块的领导优化解决问题。但是,我相信声音的入口没有被批评。这也是为什么各家庭布局的原因。

原始文章允许禁止发布。下一篇文章发表了注意事项。


本文关键词:亚搏电子竞技,亚搏电子竞技官方网站,亚搏电子竞技

本文来源:亚搏电子竞技-www.caronimo.com

分享到:
相关推荐MORE+
09-25 亚搏电子竞技官方网站-中铁六院通号院中标青岛地铁通信、信号系统设计项目

本文摘要:伴随着公示栏一纸红榜的贴到——青岛地铁六号线一期工程项目通讯、通信系统设计方案新项目合同月落地式,“通号人”以这一与众不同的方法传递着金鸡烈火雄心3时的觉得情绪,也为中铁六院通号院地铁站业务

09-25 2019年全国传统项目学校篮球联赛男子组决赛 (内蒙古赤峰赛区)补充通知-亚搏电子竞技官方网站

本文摘要:各比赛企业:今年全国各地传统式新项目院校篮球赛直播男子组总决赛(内蒙古赤峰赛区)订于今年8月18日-8月24日在内蒙古自治区赤峰市举行。各比赛企业:今年全国各地传统式新项目院校篮球赛直播男子

09-25 赵继伟谈划伤周鹏:并不是成心 赛后发信息致歉

本文摘要:北京市时间3月26日,CBA决赛辽宁省VS广东省的第二场比赛将在今夜拉响,早上,辽宁男篮离开辽宁体育馆中止热身运动训炼,北京男篮控球后卫赵继伟在承受采访时答复,自己射杀周鹏并并不是成心。北京

09-25 《永无止境》IOS上架 初心团队惊喜之作_亚搏电子竞技官方网站

本文摘要:以前报道过的那一款《永无止境》,在10月24日下架了,比意料的远比更为早于一些,现阶段仅有在国区苹果商店下架,为多次重复使用12元收费,无内购买。以前报道过的那一款《永无止境》,在10月24

瓷砖美缝剂知名品牌都是哪些? 肥胖女性最易患子宫内膜癌_亚搏电子竞技官方网站
热门文章
瓷砖美缝剂知名品牌都是哪些?
肥胖女性最易患子宫内膜癌_亚搏电子竞技官方网站
搞好公婆关系 3招让公公婆婆都围着你转
北京:禁止产业用地擅自改居住_亚搏电子竞技
风筝发电!英国人民将用上450m高空送来的电力
苹果、Google、亚马逊、Facebook,遭“强势”反垄断调查
滚筒洗衣机和波轮洗衣机哪个好用?|亚搏电子竞技官方网站
亚搏电子竞技|那些可以提升幸福感的厨房设计,后悔装修时没注意
亚搏电子竞技官方网站:虐杀夏威夷土著“神鸟” 美国大学生进监狱
亚搏电子竞技_霉菌性阴道炎的分类哪些比较常见
亚搏电子竞技官方网站_发膜哪个牌子好用 编辑诚意推荐平价好用护发膜
权志龙还是时尚的宠儿,他穿黑色西装的瞬间真的很有魅力【亚搏电子竞技】
亚搏电子竞技:中国银行保险监督管理委员会党委传达学习贯彻全国两会精神
有地区放宽贷款期限:亚搏电子竞技
从连接到赋能,腾讯助医者解决信任、效率和价值三大问题【亚搏电子竞技】
客户案例
×