如图,将强势进军智能语音,与微软联合发布语音开放云平台,与华为联合发布软硬件一体化的智能语音联合解决方案。根据图,世界上语音识别算法的单词错误率最大的开源中文数据库AISHELL-2只有3.71%,比原来的行业老大高出20%左右,大大刷新纪录。比较各种语音识别算法,今天智能语音战场,英雄只有讯飞和伊图?
2018年末,智能语音市场意外杀入一匹黑马。
依图科技,一直被认为是人脸识别独角兽3354,或者更广义地说,是计算机视觉独角兽,公布了他们在中文语音识别技术上的最新突破和令人瞩目的产业布局。
技术上,在全球最大的中文开源数据库AISHELL-2中,根据图片进行短语音听写的单词错误率(CER)达到3.71%[1],比原来的行业领先水平高出20%左右,大大刷新了现有纪录。
在业界,Ettu与微软联合推出了基于Azure云服务的语音开放平台,与华为联手发布了智能语音联合解决方案软硬件一体化,向第三方应用开发者提供Ettu语音识别技术。
首席创新官鲁浩博士表示
"语音一直是据图关注的话题。作为一家对人工智能有深刻理解、推广和应用的公司,我们自然进入语音识别领域。"依图首席创新官鲁浩博士表示,依图是一个人工智能公司。
"作为新生在语音行业,我们还有很多要学习的老学生但我们决心推动行业的创新发展,做世界上最好的中文普通话语音识别技术。"
智能语音大赛还没有还没开始,要按图做世界上最好的中文语音识别。
万物互联,语音为先。
语音识别是人工智能最重要的部分对世界的理解,也是AI能够很好的听、说、理解的必要条件。
近年来,深度学习的爆发带动了语音识别技术的快速发展,催生了一大批智能语音创业公司,其中不乏强劲的竞争对手。
除了中国智能语音一个兄弟百度、阿里、腾讯、JD.COM等企业推出了智能语音产品,亚马逊、谷歌、微软等处于国际战略顶端.的烟雾百箱大战2017年底开始的智能音箱热潮仍未消退。为什么选择这个时间点按图进入游戏?
"我不I don’我认为比赛还没有开始,也不存在入场的问题。"易图科技联合创始人林辰唏在2018年1月接受新智元采访时表示。
智能语音市场似乎充满了巨头,但林辰唏认为初创公司很有前途。根据图片,它们不仅要做语音和自然语言处理,还要像人脸识别一样超越人类水平。
图数科技相关负责人表示,虽然有机构宣传自己的语音识别已经达到甚至超过了人类的水平,但在大多数情况下,这些结果都来自于安静、近场等有限的场景。
"在语音环境比较理想的情况下,机器可以识别一些生僻字,或者在专有名词的识别上比人强。然而,人们的鲁棒性仍然强于机器和人在熟人和熟悉领域的语音识别显然可以做算法。"
目前语音识别还存在很多瓶颈,比如如何结合更强的上下文语义信息,在发音不清晰的情况下给出准确的语音识别;在语音识别的整个环节中,如何优化远场识别的性能;特殊情况的处理,如人称代词、语气词;还有鸡尾酒问题(多人同时发言时,一个人可以准确地识别用户的语音)和电话场景识别(语音识别
如图,未来6到12个月,语音识别技术的算法性能将呈指数级增长,解锁更多场景,为行业应用带来更大价值。
科大讯飞和易图属于第一梯队,BAT就差远了。
作为进入智能语音的第一步,我们发布了听写大会微信小程序按图,可将时长不超过60秒的语音转换成文字,支持普通话,兼容各种口音。
"听写大会微信小程序:业内也是第一次公开透明的比较各种算法的水平差异。
然而,我们希望你不要不要只关注API本身。依图科技首席创新官鲁浩说。"我们希望有了这个API,你可以关注整个语音识别行业的发展。"
鲁浩说,语音识别行业还没有公开透明的语音识别对比。通过听写大会微信小程序,用户可以直观感受到各种语音识别技术的真实表现,在业内首次公开透明的对比各种算法的水平差异。
讯飞易图蝙蝠美国的算法差别很大,讯飞易图排在第一阵营。
"目前,语音识别行业存在两个认知误区鲁浩说。"一种是极好的,即所有家庭没有区别;一个是极端的差异,我认为它可以我解决不了这个问题。"
实际上,科大讯飞的语音识别能力遥遥领先于BAT 在现场测试中,除了依图和科大讯飞,大多数厂商的错误率算法波动大,意味着场景的通用性差。"
此次推出的中文语音识别算法,相比于业界原有的领先者,不仅识别准确率大幅提升,而且在单一算法模型上,具有出色的多场景适用性表现。
一般来说,中文语音识别的误字率在3%以下不会影响可读性,超过15%就会不可读。这是语音识别的两条红线。在不同的场景下,不同算法的性能可能会有很大差异。
在世界的三个测试子集中最大的中文开源数据库AISHELL-2[2],以及来自第三方的近场重音测试集(Accent)、近场安静聊天测试集(Chat)、语音程序测试集、电话测试集、远场测试集等测试场景,易图处于行业领先水平,单词错误率几乎都在15%以下。
其中,在AISHELL2的-2018A-EVAL数据集上,图像的识别准确率高达96.29%,单词错误率仅为3.71%,领先第二名约20%。
这意味着Etsu在语音领域已经达到了第一梯队(甚至领先)的水平,在多场景的应用上也显示出显著的优势。
左边有微软,右边有华为,用技术想象力撬动语音市场。
"Eto s语音API产品和语音开放平台刚刚上线。我们欢迎越来越多的开发者和客户使用Eto s产品,共同提升产品性能,探索更多突破性的应用场景。"鲁浩说。
对于未来有望推出的语音产品及其功能,鲁浩表示实际上,我们认为技术和场景是比产品和功能更关键的元素,它们促进了技术的发展和进步,让我们体会到了更多以前看不到的可能性,解决了很多以前无法想象的问题。时至今日,语音识别与人的能力仍有巨大差距。依图希望与业界携手,推动行业进步。"
发布会上,易图宣布与微软Azure云服务联合发布语音开放平台,向第三方应用开发者开放业界领先的语音识别技术能力。此外,依图还将与微软在智能语音领域开展更深层次的合作,构建AI生态圈。
2018年4月,微软全球执行副总裁沈向洋(右)到访依图。易图科技的联合创始人兼首席执行官朱思溢(左)曾在微软亚洲研究院(MSRA)开发人脸识别算法,他的导师是沈向洋。林辰唏,易图科技联合创始人,吴敏,副总裁
同时,依图与华为联合发布了智能语音联合解决方案、基于依图语音开放平台的华为面向数据中心侧的s全栈全场景Ascend系列芯片和Atlas 300 AI加速卡。它将双方强大的技术研发能力与生态服务能力深度结合,形成软硬件一体化的联合解决方案,进一步帮助提升开发效率。
自2016年成为合作伙伴以来,依图与华为形成了全方位的联动。今年3月,双方共同发布了华为-Etu文章云人像大数据布局全球城市级公共安全的解决方案。10月,2018华为全连接大会期间,依图作为大会安保唯一AI合作伙伴,与华为共同发布了分会场文章云联合解决方案、智慧警务云解决方案、智慧园区解决方案,并在平安城市、智慧警务、大数据应用等方面持续深化合作。
10月9日,华为轮值董事长徐志军(左二)、华为安平系统部总裁岳坤、华为BG行业营销与解决方案总裁俞栋(左三)到访易图。来源:依图科技
此前有传言称,微软Azure云服务将使用华为该公司在中国的数据中心是一颗冉冉升起的芯片。这一消息尚未得到证实。但是,微软和华为这个按图串联起来的合作链条,可以不能不让人思考。
根据2018中国语音产业联盟年会上周发布的《2017-2018中国智能语音产业白皮书》,全球智能语音产业规模持续增长。2014-2018年,中国智能语音产业规模从30亿元增长到159.7亿元。
微软左,华为右,加上自己的技术,易图在智能语音之初就拿到了一手好牌。
最后,我想谈谈依图科技首席创新官鲁浩。鲁浩于今年2月加入Etu。他之前是谷歌的研究科学家。据易图科技官方介绍,鲁浩在谷歌期间负责孵化安卓APP启动推荐系统,这是世界的第一个移动应用程序启动推荐系统和世界首款基于机器学习的Android产品。他将带领依图和华为孵化出怎样的智能语音联合解决方案?
林辰唏曾经说过,优秀的人才需要对未来充满想象,朱思溢也在文章中写道,他认为——基本上是按图口号。
"99%识别率的算法和99.99%识别率的算法区别在于可解锁的应用场景。对技术商业价值的想象将回答人工智能场景将在哪里以及多快到来。"
"我们认为语音识别仍处于发展的初级阶段。Etsu将始终保持对技术的投入,通过技术突破解锁更多可能性,欢迎合作伙伴与我们一起探索语音技术的产业应用。"鲁浩说。
给…作注解
[1]英语语音识别一般采用单词错误率(WER),因为最小单位是单词;中文语音识别一般使用单词错误率(CER),因为最小单位是单词。
[2] AISHELL-2是由AISHELL基金会和Hill Shell创建的开源数据库。它包含1000小时的中文语音数据,由来自中国不同口音地区的1991名说话者记录。经过专业语音校对人员的转录和标注,通过了严格的质量检查。数据库文本的正确率达到96%以上。录制的文字涵盖唤醒词、声控词、智能家居、无人驾驶、工业生产等12个领域。
标签:语音图智能