6月11日,百度 新声出道新品发布会在北京百度科技园K6张雄报告厅举行,新品小型智能音箱正式出道后厂村C,早尝价89元。这款百元AI实力产品—— 小型智能音箱猴场村C出道最近变成了三好学生智能音箱行业的特点是好听,易用,有趣!
这款售价89元的小型智能音箱是如何成为三好学生智能音箱会议?作为小度智能音箱的技术合作伙伴,声科技将带你解锁小度智能音箱的背后的秘密武器!
尼斯:世界首创3麦克风阵列设计,硬件不妥协!
作为一款售价89元的智能音箱,小度智能音箱拥有百元最佳跨级音质体验。小度智能音箱音质出众,但体积小巧,拥有不折不扣的远场语音交互体验。它是如何平衡ID、音质设计和产品体验之间的矛盾的?
作为支持远场语音交互的智能音箱,必然离不开麦克风阵列。麦克风的主要作用是帮助机器适应更复杂的场景。麦克风阵列是由一定数量的声学传感器组成的系统,用于对声场的空间特性进行采样和处理。会影响真实环境下的语音唤醒和识别率,是决定用户体验的关键因素。
但目前市面上的麦克风阵列方案中,常见的队形多为4麦、6麦、8麦阵元的直线、圆环、菱形阵列方案。亚马逊Echo也采用了6 1麦方案,亚马逊主流产品依然使用6麦环和8麦跑道方案。从技术原理上来说,麦克风较多的阵列方案在远场语音交互效果上更有优势,但多麦克风阵列也限制了ID设计的想象空间,对扬声器设计提出了更苛刻的要求,包括ID和成本。
图为麦克风阵列模块
世界首款由Sonic Technology为小型智能音箱量身打造的3扩音器麦克风阵列,很好地平衡了ID、成本、音质设计和产品体验之间的矛盾。这个世界首创3麦克风阵列,配置灵活,打破音腔设计的限制,释放ID设计的无限空间,平衡成本与效果的矛盾。
世界声波科技推出的首款3环麦克风阵列,内置了通话降噪、混响抑制、回声消除、噪声抑制、语音增强、波束形成、增益控制、语音识别等远场语音交互技术。在5米范围内的嘈杂环境下,仍能拥有出色的远场语音唤醒性能和精准的近场语音识别,实现轻松唤醒,无惧环境。想说就用心说,保证远场语音交互。此外,与4麦、6麦和8麦阵列方案相比,3麦阵列方案的价格更加亲民,与2麦阵列方案相比具有效果优势。
不仅如此,为了释放ID设计的无限空间,音速科技针对小度智能音箱的尺寸特点进行了独家技术优化。小型智能音箱的麦克风阵列和扬声器的位置和ID结构有限,特别是麦克风阵列和扬声器的距离近,给语音交互技术带来了很大的压力,尤其是自噪声抑制和远场信号处理的难度大大增加。为了在如此特殊的结构设计中实现更好的语音交互效果,音速科技独家设计优化,采用抗强噪声唤醒技术(AKS技术)、垂直抗强噪声识别技术(VAN技术)和OpenAEC技术,提升远场语音交互体验。
(2)使用方便:完整的远场语音唤醒和识别服务,快速准确!
为了让小度智能音箱更好的使用,提高产品的净推荐值NPS,音速科技通过SoundAI语音套件(以下简称
SVK是一款智能语音交互开发套件,集成了声波分布网络、波束形成、声源测向、定向拾音、噪声抑制、混响消除、回声消除、语音唤醒、端点检测、语音识别、语义理解、语音合成、双工通话等所有环节。兼容主流智能语音硬件架构,支持DuerOS、AliGenies、萧艾平台、腾讯丁当、亚马逊Alexa等主流AI平台
什么样的响应时间才能带来完美的语音交互体验?人机交互就是让机器模拟人类的行为,让机器适应人类的交互习惯。大多数情况下,生活中人与人之间的对话,快速的回答会给用户一种轻浮和匆忙的感觉,而缓慢的回答会给用户一种呆滞和沉闷的感觉。所以智能音箱的响应时间对于用户体验非常重要。
这一次,小度智能音箱采用了音速科技SVK完整的远场语音唤醒和远场语音识别(FAR-FIASR)服务。准确的远场语音唤醒技术和远场语音识别技术声学技术的针对垂直领域进行了深度优化,平均准确率达到96%以上。而且不仅识别率大幅提升,还带来了更加人性化的语音交互速度体验,让小度智能音箱从唤醒到内容的全链条响应速度达到世界之最极限在1.4S以内,用户唤醒后的机器响应时间是400 ~ 500ms的极限速度。
什么样的语音唤醒体验才能带来完美的语音交互体验?语音唤醒是智能音箱用户的第一体验。通过宽场景、高灵敏度的唤醒技术,声学技术在唤醒率和误唤醒率之间有很好的平衡。众所周知,唤醒率和假唤醒是一对跷跷板。唤醒效果好的时候,误唤醒通常是很高的,智能音箱没有预警的突然唤醒也很麻烦。为了解决这个矛盾,声波科技的技术不走讨教路线,而是采用全新的唤醒模式来保证用户先体验一下。在此基础上降低了误唤醒率,同时提高了嘈杂环境下的唤醒率。
当然,不同麦克风设备的选择带来了不同的语音交互效果。信噪比在70 dB以上的麦克风比信噪比在60DB的麦克风有更好的远场和抗噪效果,但是如果选用高信噪比的麦克风成本会高很多。完全屏蔽硬件差异化,针对低成本高失真产品,努力帮助客户降低成本,声波科技推出了低成本高容错的唤醒技术。即使一致性和失真非常大,保证用户体验的效果也是音速科技对所有客户的不变承诺。
怎样的语音识别体验才能带来完美的语音交互体验?由于远场智能产品场景的特殊性,远场语音识别相对更垂直。比如智能音箱的识别侧重于音乐和百科领域,智能汽车的识别侧重于地图和音乐领域。对于区域覆盖,远场语音识别侧重于此。不能简单的把方言归为一个技术系列,尤其是消费电子领域高度标准化的思维,它更注重远场语音识别的场景兼容性。所以音速科技的远场ASR不得不考虑更多垂直领域的场景。不仅如此,为了保证云服务的稳定性和并发性,音速科技采用端到端云强耦合的技术架构,在端云中合理分配计算能力,采用与亚马逊AWS、阿里云等主流云计算平台相同的服务可靠性标准,SLA高达99.99%。
(3)好玩:满足孩子和极客的不同需求,解决场景广的问题。
真正的产品落地需要考虑很多应用场景的问题。音速科技的远场ASR不得不考虑更多垂直领域的场景问题,比如如何识别老人和小孩?南方和北方的语言差异呢?这不仅仅是简单的叠加
智能音箱市场20%的用户是儿童。如何满足孩子的需求用户,提供零距离沟通,精选优质内容,保证健康安全又不失乐趣的语音交互体验?智能科技针对儿童特点推出了儿童远近场语音识别技术的言论,如:儿童生理发育不够成熟,他们不善于掌握发音部位和方法,辅音的发音分化不明显。而且,孩子的发音比较重复,他们经常发出单个和重叠的音。他们可以说车车,唐唐,图图和樊凡,而不是说汽车,糖,兔子和大米哪些是孩子的沟通方式。声波技术进行声学模型优化培训,升级ASR技术,并
除了孩子模式,小度智能音箱还引入了极客模式。在极客模式下,一次唤醒后,用户可以进行多轮对话。针对用户多轮对话的语音交互需求,声波科技推出了支持多轮对话的端云交互技术。从麦克风阵列、语音唤醒、端点检测、语音识别四个技术链条进行了深度优化,从而满足了百度对用户体验的终极追求。其中端点检测技术不仅需要保证响应速度,还需要准确识别断句,保证语言连贯性。在复杂场景下实现该技术是非常困难的。声音技术率先突破这些技术难点,将推动智能音箱技术向更加智能化的方向快速发展。
随着用户认知度的提高,整体产业链的成熟,用户体验的提升,2018年智能音箱将继续爆发。但是语音交互技术还需要继续发力。作为国内知名的语音交互技术提供商,索尼克科技将继续专注于技术领域,与众多合作伙伴一起推动智能语音行业的发展。
标签:语音智能音箱