天赐's Blog

AI语音产品线

22
0

一、AI音箱

1.1 产品简介

小胖-R1智能音箱,是一款定位于中高端的智能语音生活助手,面向智能语音家居市场。为用户提供智能语音生活助理服务,如:天气查询、闹钟设定、语音记事、翻译等;互动娱乐服务,如:音乐、笑话、新闻、有声读物、相声小品等;家居控制类服务:灯具、窗帘、门锁、家电等。具有内容丰富,拓展性强的特点。

1.2 硬件定义

硬件主要由如下部分组成:麦克风阵列主控板、LED灯板、扬声器、电源适配器。

基本参数

产品类型

智能音箱

CPU

unione

RAM

128MB  DDR2 RAM

ROM

128MB  SPI NAND

DAC

ESXA8326

麦克风

数量:4颗 模拟硅麦

功放

40W

工作功率

12W

待机功率

1.5W

扬声器

单只4Ω3W, 2寸全频喇叭

WiFi

符合IEEE 802.11协议标准,支持802.11 b/g/n/

蓝牙

支持Bluetooth 4.0标准及以上,作为蓝牙配网和音频播放通道

电源性能

100-240V~ 50/60Hz输入, 12V 1A输出, 3C认证

按键

5按键设计,分别是:音量+,音量-,MIC静音,播放/暂停,配网

配网按键位于中间,按键有功能复用,描述如下:

单击打断或唤醒,长按5秒配网

长按10sMIC静音键恢复出厂设置

灯光定义:

场景

动作

颜色

上电

常亮

深蓝色

启动完成

熄灭

-

进入配网模式

常亮

橙色

网络联接过程

呼吸

橙色

网络联接成功

熄灭

-

网络联接失败

常亮

红色

唤醒

常亮

浅蓝

录音

常亮

浅蓝

loading(识别)

常亮

浅蓝

TTS播报

呼吸

浅蓝

退出识别

熄灭

-

mic静音

常亮

粉色

1.3 功能介绍

1.3.1 账号体系

用户在初始化使用智能音箱时,需要首先在 APP 端登录或注册账号。在完成初始化配置之后,该音箱设备的 Device ID 与该用户账号完成绑定。 

1.3.2 初始化配置

通过以下蓝牙完成设备的联网,ID 绑定,服务激活。 

1.3.3 多种同步播放协议的支持(客户可选)

支持通过蓝牙协议、AirPlay,同步推送多媒体音乐资源。在音箱未联网的状况 下,本功能仍可正常执行。 针对蓝牙,AirPlay设备需要进入外放配置状态,并完成配置之后,方可同步移动端的音频流。  

1.3.4 固件升级

类别

描述

初始化升级

工厂新机或初始化之后的产品,在第一次联网过程中,会检查固

件版本。如果服务器有更新的固件版本,则在完成产品配置的最后一步进行固件升级

手动升级

在APP产品的设置选项中,可以查看目前的版本号。在版本号下方有

一个按键:检查最新版本。单击后可以检查最新版本,如果服务

器有更新的固件版本,则进行固件升级

静默升级

服务器有新版本发布的时候,会在半夜 2 点-5 点分批推送升 级。产品收到推送通知后,会对比固件版本。如果服务器有更新 的固件版本,则进行固件升级

工厂升级

通过软件工具将音箱设置为工厂升级模式,音箱主动连接固定的

路由器然后下载升级包进行升级。

这种方式适合大批量操作,不受带宽限制。应用于在工厂生产完

整机产品但是没有出库,有紧急问题需要升级软件

调试升级

由工程师通过工具将音箱设置为调试升级模式,音箱去指定网络

下载升级包进行升级。用于调试过程或者返修

1.3.5 语音功能列表

类别

描述

初始化升级

工厂新机或初始化之后的产品,在第一次联网过程中,会检查固

件版本。如果服务器有更新的固件版本,则在完成产品配置的最后一步进行固件升级

手动升级

在APP产品的设置选项中,可以查看目前的版本号。在版本号下方有

一个按键:检查最新版本。单击后可以检查最新版本,如果服务

器有更新的固件版本,则进行固件升级

静默升级

服务器有新版本发布的时候,会在半夜 2 点-5 点分批推送升 级。产品收到推送通知后,会对比固件版本。如果服务器有更新 的固件版本,则进行固件升级

工厂升级

通过软件工具将音箱设置为工厂升级模式,音箱主动连接固定的

路由器然后下载升级包进行升级。

这种方式适合大批量操作,不受带宽限制。应用于在工厂生产完

整机产品但是没有出库,有紧急问题需要升级软件

调试升级

由工程师通过工具将音箱设置为调试升级模式,音箱去指定网络

下载升级包进行升级。用于调试过程或者返修

1.3.6 语音唤醒性能

唤醒性能:环境需求:整机测试,在麦克风处人声音量的大小为 70dB。

误唤醒概率(整机):在新闻联播,歌曲等有声环境下,做到低于 3 次/24 小时;安静环境下 0次/72 小时。

环境条件

距离

唤醒率

无自噪,环境噪声 45dB

3m

99%

5m

95%

自噪音量80dB

3m

95%

5m

90%

1.3.7 在线语音技能

类别

功能

音乐

a) 个性点歌 – 自动推荐喜欢歌曲

b) 歌名点歌

c) 歌星点歌 

d) 专辑点歌

e) 曲风点歌

f) 热门点歌

g) 排行点歌

h)  以上内容组合点歌 

i)  歌曲反查 

j) 切换歌曲

k) 音量调节

l) 音乐收藏

m) 模式切换(单曲循环、顺序播放、随机播放)

n) 图片(歌手、专辑)

o) 详情(作词、作曲、歌手、专辑)

新闻

a)自动推荐喜欢的新闻节目
b) 类型点播(财经、国内、国际、娱乐、体育等)
c) 切换新闻
d) 音量调节

广播

a)自动推荐喜欢的广播频道
b) 频道名点播
c) 频率点播
d) 切换频道
e) 音量调节
f) 频道收藏

天气

a) 城市天气
b) 最高温
c) 最低温
d) 当前温度
e) 当前PM2.5
f) 空气质量
g) 穿衣指数
h) 洗车指数
i) 异常天气提醒

有声读物

a) 个性点歌 – 自动推荐喜欢节目
b) 名称搜索
c) 作者搜索
d) 类别搜索
e) 专辑搜索
f) 集数搜索
g) 以上内容组合搜索
i) 切换节目
j) 音量调节
k) 节目收藏
l) 模式切换(单曲循环、顺序播放、随机播放)

备忘录

a)创建语音记录
b)删除
c)  查看

闹钟

a)创建单一闹钟、循环闹钟
b)停止闹钟
c)  取消闹钟
d) 删除闹钟
e) 修改闹钟(app)
f) 查看闹钟(app)

提醒

同闹钟,含事件

股票

a)股票名称查询
b)股票代码查询
c)  大盘指数查询
涵盖内容(股票价格分时图、名称、代码、当前交易价格、股价变化)

笑话

a)笑话点播
b)切换笑话

诗词

a)朝代点播
b) 名称搜索
c) 作者搜索
e) 以上内容组合搜索
f) 随机点播
g) 反向搜索(这首诗的含义、作者、朝代)
h) 切换诗词
i) 音量调节
j)诗词接龙

计算器

a)科学运算(加减乘除平方根号等)
b) 价格打折计算

日历

a)日期时间
b) 阴历查询
c) 假期查询
e)时区查询
f) 节日节气

聊天

 

百科

 

翻译

中译英

1.4 手机APP功能简介

UniOne音箱 APP 是一款管理智能音箱的智能家庭应用,提供方便、快捷的联网体验,支持远程控制,实时记录用户与智能音箱之间的对话,支持自定义智能硬件与智能音箱之间的联动。可根据客户要求快速定制APP,周期2月/1人。

功能

功能描述

添加智能音箱

支持蓝牙&AP-Station 模式添加智能音箱。 

首页

运营 banner 及与智能音箱互动记录显示。

功能

音乐、FM、日程、闹钟、倒计时、语音备忘、百科。

播放器

音乐与 FM 播放内容显示。

个人信息、音箱切换及设置、帮助与反馈、关于。

设备管理

进行音箱设置

二、AI带屏智能中控

2.1 项目背景

当前酒店行业的竞争非常激烈,智能化改造可以提升酒店竞争力。Pandora A1的目标客户即是酒店智能化改造的集成厂商或者集团化酒店。客户通过在其平台上的配置,满足各酒店个性化的业务需求,同时提供安装部署培训等服务。

名词解释:

设备/产品:一般情况下,均指本文的主体,即Pandora A1设备。

家电/家居/客房设备:酒店客房内的各类家用电器,包括不限于灯光、空调、门锁、空净、窗帘、电视、门铃等。

客户:特指酒店智能化改造厂商,如携住科技。(也可以是酒店)

客人/住客/用户:均指入住酒店客房的客人,也是产品最终的使用人群。

配置话术:因酒店业务的差异性,涉及该部分的TTS应答开放给客户或酒店自行配置。

设施/配套设施/酒店设施:指酒店内的固定场所,如健身房、游泳池、图书馆、棋牌室等。

服务/客房服务:指酒店提供的客房服务,如叫醒、加床、洗衣等。

PMS:酒店管理系统软件,由客户平台和酒店PMS对接。

RCU:酒店客房的设备中控,由客户平台和酒店RCU对接。

2.2 产品架构

方案架构图:

技术架构图:

酒店业务配置平台:客户(智能化改造厂商)需要一种高度灵活的机制来快速实现酒店不同的需求,通过配置该平台可对不同酒店、房型的应答话术、设备动作、设施明细、服务方式等业务相关的模块和我司产品进行解耦,便于客户的实施和酒店的运营维护。

场景触发器:客户平台主动向设备发起的消息推送,以期给入住客人提供相对主动的智能服务。

功能架构图:

2.3 客户定制化方案

三、AI语音垃圾桶

3.1 项目背景

上海垃圾分类政策实施,客户欲打造一款基于语音入口自动分类的智能垃圾桶,先用于家庭使用,支持1米以上的距离使用,第一期基于KAR Lite4方案,第二期使用IVM Unione方案。

3.2 产品简介

智能垃圾桶语音板是IVM Unione方案。产品结构,硬件MCU控制板由客户设计和提供,整个PCB设计和集成由客户实现,用户可以通过客户公司公众号入口,打开小程序,进行垃圾桶的配网操作,垃圾桶需要联网确保垃圾分类语音交互和OTA等功能的正常运作。用户通过说“你好小丢”唤醒智能垃圾桶,然后和智能垃圾桶进行语音交互,语音板对输入语音进行降噪、唤醒以及识别和处理之后,把云端返回结果通过UART送到MCU控制板,控制垃圾桶的打开/关闭,语音板并对返回TTS进行播报。

3.3 硬件需求

智能垃圾桶结构由客户确定,但需要考虑MIC和喇叭的声学结构以保证语音识别的可靠性和性能,硬件板子由客户MCU厂商设计,我们提供满足硬件设计规格尺寸及功能要求的Unione语音板。

硬件需求表如下:

模块

数量

功能描述

备注

按键

1

短按语音唤醒,长按3S进入配网

按键、灯光、充电全部由MCU控制,语音模块只挂MIC、喇叭

指示灯光

1

配网指示灯

 

开关机

1

硬开关,按键在MCU端,MCU通过UART_EN使能脚控制语音模块开关机

 

串口

1

与MCU通信,目前定义7线,接口电平3.3V 注:POWER_ON(EXT_EN)作为电源控制脚,不断电的话就是休眠唤醒脚,高低电平

 

MIC

 

-32db+_3

需要和客户确定数量和结构

喇叭

1

4欧3瓦

需要和客户确定数量和结构

依赖项:对于语音识别性能和效果需要拿到客户整个产品结构(智能垃圾桶)进行声学结构测试,软件也需要基于此调优;对于串口通信协议的打通,需要客户MCU板子及相关烧录工具到位才可顺利进行。

3.4 软件需求

3.4.1 软件总体需求

1、唤醒词:你好小丢;

2、离在线混合:50条离线命令,在线垃圾分类语音交互,垃圾分类技能领域;

3、垃圾分类交互:

根据用户所说的垃圾,云端做分类,并下发所说垃圾分属某大类的tag及TTS(此垃圾介绍及所属分类), 终端根据云端下发结果传送到客户端执行打开xx垃圾桶,终端播报xx属于xx提示音;

只做垃圾分类交互,其他类例如音乐、聊天等模块都不需要;

不做城市分类;

未在我们词典范围数据,由客户1个月更新一次,我们如果有数据也会及时更新;

只响应我方固定的请求句式,其他非固定句式或者复杂组合句式一律不响应,直接播报不知道;

不在我方词典里的东西也播报不知道;

4、支持OTA升级;

5、支持小程序配网:扫二维码进入兴财公众号,用户可通过小程序进行配网操作;为了兼容lite4第一期方案,建议统一使用声波配网方式;

6、具体某种垃圾对应打开/关闭某个垃圾盖(例:如语音“西瓜皮”,湿垃圾盖打开,10S后自动关闭);

7、语音板和MCU控制板通过串口控制协议交互;

8、其他状态:

配网成功,播报成功提示音并通知MCU,LED蓝色常亮;配网不成功,播报提示音,通知MCU,LED闪烁;

网络正常,提示:主人,我在,请指示;网络不正常,提示:主人,我不在线 ,触发场景;

市电断电下,MCU发出进入休眠指令,语音模块进入休眠;要退出休眠模式,MCU控制唤醒脚即可。

3.4.2 离线命令词表

支持打开/关闭4个垃圾桶的8个在线命令词,用户说“打开/关闭xx垃圾桶”,设备端播报“好的”,同时把命令传到MCU,由MCU执行动作。其他命令待确定,一共50条离线命令。

名称词条

播报

动作

备注

打开/关闭干垃圾桶

好的

打开/关闭干垃圾桶

 

打开/关闭湿垃圾桶

好的

打开/关闭湿垃圾桶

 

打开/关闭有害垃圾桶

好的

打开/关闭有害垃圾桶

 

打开/关闭可回收垃圾桶

好的

打开/关闭可回收垃圾桶

 

打开/关闭所有垃圾桶

好的

打开/关闭所有垃圾桶

3.4.3 技能需求

只做垃圾分类交互,其他类例如音乐、聊天等模块都不需要;不做城市分类;未在我们词典范围数据,由客户1个月更新一次,我们如果有数据也会及时更新;只响应我方固定的请求句式,其他非固定句式或者复杂组合句式一律不响应,直接播报不知道;不在我方词典里的东西也播报不知道;具体某种垃圾对应打开/关闭某个垃圾盖(例:如语音“西瓜皮”,湿垃圾盖打开,10S后自动关闭);

在线识别到其他领域内容时,固定播报“你的话太深奥了,我还要学习一下”。

触发句式

垃圾类型及其别名

云端下发的tag

备注

XXX是【垃圾类型】吗

XXX属于【垃圾类型】吗

XXX是不是【垃圾类型】

XXX属于不属于【垃圾类型】

XXX属不属于【垃圾类型】

 

有害垃圾

 

云端需要返回这7类tag

湿垃圾/厨余垃圾/厨房垃圾

 

 

干垃圾(其他垃圾)

 

 

可回收物

 

 

大件垃圾

 

 

装修垃圾

 

 

大型电子废弃物

 

 

四、华云智能电话

4.1 项目背景

华云智能电话一期项目的需求。基于智能语音终端进行人机交互,对语音进行识别、理解及播报。此需求来源于客户《智能电话对话设计(1)》表以及和客户进行电话沟通结果;本文针对客户提出的需求,进行项目方案和架构设计,需求功能定义,并用以作为客户需求确认的书面材料,整体规范华云智能电话功能需求和需求边界,定义开发范围。

4.2 产品简介

4.2.1 系统架构

整个系统架构如图所示:

用户可以通过智能语音终端配套的APP(IOS/Android版)进行配网和对智能语音终端进行交互控制。

用户通过语音唤醒智能语音终端并下发指令,终端对输入语音进行降噪、唤醒和识别之后,进一步把语音送到AI云平台做TR判断和在线识别并转发到客户云平台做语义分析,客户把处理结果返回AI云平台,并返回终端,终端SDK模块把云端返回结果通过IPC送到应用解析模块,从json中解析出结果,并调用在线语音合成TTS模块,把结果送回终端进行播报。

4.2.2 功能定义

硬件:基于Unione的智能语音终端;

固件:AIOS系统及应用;

手机APP:Android和IOS手机APP,配套智能语音终端配网和交互控制;

解析应用:用于解析客户NLU语义处理的JSON结果,并通过IPC和AIOS SDK通信,最终TTS语音合成并播报;

在线ASR:在线语音识别,针对华云智能电话指令进行定制化实施;

云端配置:针对华云进行ASR、NLU、TR配置和华云服务支持配置;

TR:对智能语音终端上报语音,ASR,NLU,TTS,客户端配置和华云服务配置进行判别和路由分发;

云端协议:ASR结果需要通过TR发送到华云服务平台并进行NLU语义处理,华云服务平台把处理结果通过返回给云平台TR处理,云端打通需要定义通信协议;

唤醒词:用于唤醒智能语音终端,唤醒后进入识别模式,仅识别模式下支持离线命令词识别和在线话术识别;未唤醒时,仅能识别唤醒词。

离线命令词:不论是否联网,唤醒后均能直接识别的词汇;

打断:指语音板喇叭在播报状态下,需要先打断播报,才能使其进入识别模式;

单轮对话:指唤醒后,仅能进行一次识别,识别到有效指令即退出识别,下一次再进入识别状态,需要重新唤醒。

4.2.3 通话功能

音箱作为电话的终端,实现打电话的功能和场景。

通话SDK由客户实现和提供,基于linux3.1内核版本开发。当音箱语音应用识别到云端返回的通话话术和指令时,即触发了通话功能,此时语音应用把mic和喇叭释放出来,并把从返回结果解析出的通话号码/或者其他拟定的通话凭证传给通话SDK,通话SDK接管mic和喇叭,并通过号码或凭证建立通话,当通话挂断后,通话SDK给出标志,把mic和喇叭释放出来由语音应用重新接管。

4.2.4 性能验收标准

唤醒率验收标准为:3米噪音SNR=15dB,唤醒率≥92%

识别率验收标准为:3米噪音SNR=15dB,识别率≥92%

误唤醒率验收噪音环境下(45-50dB)的误唤醒要求为:24小时误唤醒测试≤3次

说明:测试噪音包含音乐、电视剧、综艺节目等,且噪音集不得含有唤醒词;