基于树莓派的电话录音系统研究
扫描二维码
随时随地手机看文章
引言
根据南方电网调度规范的要求,500kV变电站应配置录音系统,调度机构应实现录音系统的双重化配置。准确可靠的原始录音能为事件处理提供可靠的证据,防止出现纠纷。
目前局内变电站通信室空间狭小,机柜位置紧张,然而站内的电话录音系统设备体积庞大,占据了大量的空间。同时,目前电话录音系统普遍存在录音音质较差,查询和检索烦琐复杂的问题,不利于长期存储和管理,难以对分布于不同区域的电话进行远程录音监听。按规范要求,调度录音应保存至少6个月,电话录音内容可用于安全监管,是判定责任纠纷的重要依据,对提高公司服务质量、增强竞争实力等具有重要意义。但现有的录音方式相对落后,无法满足以上要求。树莓派相对于其他的载体价格更低,但计算能力强大,具有很高的性价比。搭建基于树莓派的电话录音系统,可以解决传统录音系统体积庞大的缺陷,节约机房内部可利用空间,实现语音文字高识别转化,保存传输方便:同时,该系统支持多端口输入,具备强大的兼容性与可拓展性。
1基于树莓派的电话录音系统简介及优势
使用基于树莓派的电话录音系统,可解决传统录音系统体积庞大的缺陷,充分利用机房空间,满足多通道录音的要求,具备强大的兼容性与可拓展性,同时能改善录音质量,提高自动化程度,降低操作的复杂度,方便用户运维系统。
1.1设备小型化
最初,树莓派是由基于Atmel的ATmega644单片机制成的,它采用ARM处理器,与传统芯片相比具有更高的性能。它的外形只有信用卡大小,以SD/MicroSD卡为内存硬盘,具有HDMI等多种接口,具备个人计算机的基本功能,可以实现录音设备的小型化。树莓派采用Linux操作系统,代码采用Linux系统下的Python语言,功能强大,操作方便。基于树莓派的新型录音系统可以节省机房空间,提高机房空间的利用效率。
1.2系统安全性高
系统权限管理制度严格,根据用户权限不同划分不同的操作权限,系统通过加密的并网权限,满足录音电话的保密要求,保障了网络安全。
1.3用户界面更友好
基于树莓派的电话录音系统用户界面友好,采用图形化操作界面,可以查看录音记录及语音对应的文字记录,可以实时显示不同录音通道所处的工作状态,可以方便快捷地查找信息,界面具有提示和在线帮助机制,可以帮助用户快速了解系统的使用方法,降低操作难度。本系统是基于web开发的操作系统,不需要PC也可以登录,操作更加便捷。
2基于树莓派的电话录音系统设计与实现
2.1体系结构
本系统是基于web开发的操作系统,其中采用B/S架构开发的web操作层为用户交互层,用户通过浏览器直接访问系统进行相关操作:设备交互层通过串口连接UwB定位设备,根据电子围栏的位置关系进行数据处理入库。
系统总体架构如表1所示。
语音识别模块可以将完成特征提取的原始语音信号转化为相应的特征向量,配合声学模型、语音字典和语音模型得到识别结果。语音特征提取模块可以识别语音上有用的特征,排除说话人性别、年龄、说话习惯和录音条件等不同引起的变化的影响,避免噪声干扰。语音识别系统如图1所示。
语音识别系统由特征提取、声学模型、发音字典、语言模型和解码器5个部分组成,语言识别通常使用隐马尔可夫模型,根据语音信号推断对应的文字,语音的特征序列为01T=(o1,o2,…,oT):语言模型P(w)代表特定词序出现的先验概率:声学模型P(01T|w)代表当给定词序为w时,输出声学特征01T的概率,根据最大后验概率,词序列~w如下:
声学特征01T的概率P(01T)与词序w无关,可以忽略不计,所以式(1)可表示为:
马尔可夫性表示现在决定未来状态。马尔可夫链描述了时刻(l-1)决定当前时刻l的状态概率分布。隐马尔可夫模型在此基础上引入了隐状态的概念,它只与当前的状态有关。
确定马尔可夫状态,需要确定以下5个参数:状态空间2=(Si),i=1,2,k,N:初始状态的概率分布m=mi:状态转移概率矩阵A=[aij],i=1,2,k,N:观测序列0=(oi):状态输出概率B=(bi(ok))。其中,bi(ok)表示状态i发生观测到输出语音特征ok的概率:aij表示从状态Si到Sj的转移概率:mi表示状态Si的初始概率分布。
特征提取模块将输入语音转换为可用于模型训练的特征矢量,梅尔频率倒谱系数MFCC是语音识别中常用的特征。首先对语音信号进行分帧、加窗,把语音信号切分为语音片段,一帧语音片段的长度为10~30mS。由于直接截断语音信号会造成频谱泄漏,因此需对每帧数据做加窗处理,选择汉宁窗、汉明窗等合适的窗函数减轻影响。之后通过傅里叶变换将帧信号从时域转换到频域分析,傅里叶变换公式如下:
式中:Sa为加窗后第a帧语音信号:Sa(k)为对应的傅里叶变换后的语音信号:n为时间变量:k为常数:N为整数,表示帧长。
然后计算Mel子带对数能量Em,通过离散余弦变换DCT转换到DCT域,得到MFCC特征向量,DCT变换公式如下:
式中:C(n)为特征值:皿为Mel滤波器中滤波器的数量:m为时间变量:L为整数,表示MFCC系数阶数。
MFCC提取过程如图2所示。
采用隐马尔可夫模型进行声学建模,使用高斯混合模型-隐马尔可夫模型(GMM-HMM)做模型训练,进行数据对齐,状态输出概率bi(k)表示状态Si的条件下输出语音特征ok的概率。之后以此作为训练深层神经网络DNN模型的标准,用DNN模型替换GMM模型,计算观察概率,保留转移概率和初始概率等其他部分,估算HMM状态的后验概率。
基于DNN-HMM的声学模型语音识别准确率更高,可以自动学习声学状态和特征向量之间的分布关系,提升语音识别系统的性能。
2.2系统的设计与实现
本文设计的基于树莓派的电话录音系统按功能可分为录音、储存和语音识别转换几个部分。录音系统采用触发式录音,电话摘机应答时自动开始录音,形成语音数据队列,通话结束后语音通话通过录音文件写入模块存储在电话录音系统中,形成语音文件队列,之后通过中文语音转写模块将录音文件转成文字。日志记录层中记录了系统操作信息与操作错误信息,便于查询出错情况。录音系统架构图如图3所示。
电话录音系统的界面如图4所示。用户可以通过展示界面查看录音状态,播放音频文件,实现实时监听。用户根据录音时间查询音频文件,系统采用多线程技术,实现对同时录音的多部电话的并行控制,统一管理位于不同空间的电话。该系统还可通过语音识别将语音数据转换为文字,用户可以将音频文件和文字文件备份到U盘上,实现脱机查询。
3测试结果
经过测试,本系统的语音识别率相比其他系统提升了5%~10%,反应时间也缩短了。与原有的录音系统相比,本系统可以在手机上进行操作,便携程度提高,同时语音识别率较高,可以将语音转化为对应的文字,快速识别语音内容是否合规,并结合南方电网的调度规范等规章制度进行判断。
录音设备在输入语音信号后进行语音录制与语音识别,之后将录制的语音与语音识别转换的文字上传至系统,用户可以通过人机交互终端查询录音结果。录音流程如图5所示。
基于树莓派的电话录音系统可以通过电脑、手机等终端访问,将语音转为对应的文字,应用在调度台、变电站里可以保存录音数据,更方便工作人员保留录音证据,对用电话进行的工作许可可以更好地进行监督,提升了工作效率。
该电话录音系统占地面积小,终端设备的屏幕大小是7英寸,设备具有USB和RJ11等接口,可以连接电话、U盘等设备,以此记录保存语音通话。
4结语
本文设计的基于树莓派的电话录音系统使用了隐马尔可夫模型和深度学习等技术,录音效果好,语音识别准确率高。另外,本系统解决了传统录音系统占地面积过大的问题,操作方式简单,适用于变电站、调度台等场合。除了电力行业以外,系统还适用于铁路、石油、公安等行业的调度指挥中心和客户服务中心。