99网
您的当前位置:首页人工语音带宽扩展算法研究

人工语音带宽扩展算法研究

来源:99网


硕 士 学 位 论 文

人工语音带宽扩展算法研究

Study on Artificial Bandwidth Extension of Speech Signal

作 者 姓 名: 李文月

学科、 专业: 信号与信息处理 学 号: 21009098 指 导 教 师: 陈喆 副教授 殷福亮 教授 完 成 日 期: 2013年4月14日

大连理工大学

Dalian University of Technology

大连理工大学学位论文独创性声明

作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。

若有不实之处,本人愿意承担相关法律责任。

学位论文题目: 人工语音带宽扩展算法研究 作 者 签 名 : 日期: 2013 年 04 月 14 日

大连理工大学硕士学位论文

摘 要

为了实现宽带编码标准与现有通信网络的兼容,人们提出仅利用窄带语音信息来重建宽带语音的人工语音带宽扩展技术。传统的语音带宽扩展方法需要将窄带码流完全解码到时域,因此其计算量相当大。针对上述问题,本文提出基于码流的带宽扩展概念和方法。考虑到各种编码协议码流格式差异较大,本文主要研究G.729与G.729.1之间和AMR与AMR_WB之间的码流域带宽扩展方法。仿真结果表明,与传统的带宽扩展方法相比,在保证扩展语音质量的前提下,算法复杂度明显降低。

论文的主要工作有:

(1)介绍语音信号的数字模型、线性预测分析,矢量量化以及动态聚类等技术,G.729/G.929.1和AMR/AMR_WB编码标准。对已有的带宽扩展方法进行分类评述。

(2)在语音特征参数提取部分,详细介绍从码流中提取线谱对(LSP)或者导谱对(ISP)、基音周期、固定码本以及增益的过程。

(3)在训练阶段,使用C-均值和加权求平均的方法建立G.729谱包络到G.729.1高频包络一一对应的码本;在扩展阶段,通过码本映射完成G.729.1高频包络扩展。

(4)引进支持向量回归(SVR)模型,完成AMR LSP到 AMR_WB导谱对(ISP)的扩展 (5)阐述其它一维参数关系的训练,扩展过程以及G.729.1、AMR_WB宽带码流合成方法

关键词:语音带宽扩展;码流;G.729/G.729.1; AMR/AMR_WB; SVR

- I -

人工语音带宽扩展算法研究

Study on Artificial Bandwidth Extension Method

Abstract

In order to obtain wideband speech quality without changing the existing speech communication network, artificial bandwidth extension technology, which only uses the narrowband speech information to reconstruct the wideband speech, has been developed.Since the traditional bandwidth extension method must fully decode the narrowband bit-stream to speech, its computational complexity is fairly high. To remedy this problem, a novel speech bandwidth extension method based on bit-stream is proposed in this thesis. Considering the differences among different codes in bit-stream formats, we take the bandwidth extension methods from G.729 to G.729.1 and from AMR to AMR_WB as examples to describe the proposed method. Evaluations show that, compared with the traditional bandwidth extension methods, under the premise of ensuring the extended speech quality, the computational complexity of the proposed methods is significantly reduced.

The main tasks of this paper are as follows:

(1) Introduce the digital model of speech, linear prediction analysis, vector quantization, dynamic clustering, G.729/G.729.1 and AMR/AMR_WB coding standards. Review the existing bandwidth extension methods.

(3) In the feature parameters extraction part, we explain in detail the process of extracting the line spectrum pair (LSP) or the immittance spectral pair(ISP), the pitch, the fixed-codebook, and the gain; in the training stage, the C-Means clustering algorithm and a weighted clustering algorithm are adopted to establish the one-to-one correspondence envelope codebooks from G.729 to G.729.1.

(4) Adopt support vector regression (SVR) model to extend the AMR_WB immittance spectral pair (ISP) from AMR linear spectrum pair (LSP).

(5) Elaborate the training and extending process of other parameters and the synthesis of the G.729.1/AMR_WB wideband bit-stream.

Key Words: Bandwidth extension; Bit-stream;G.729/G.729.1;AMR/AMR_WB;SVR

- II -

大连理工大学硕士学位论文

目 录

摘 要 ............................................................................................................................. I Abstract ............................................................................................................................. II 1 绪论 .............................................................................................................................. 1

1.1 研究背景 ........................................................................................................... 1 1.2 带宽扩展研究的历史和现状 ........................................................................... 1 1.3 本文主要工作及组织结构 ............................................................................... 4 2 语音信号的分析与预处理 .......................................................................................... 6

2.1 语音的产生模型 ............................................................................................... 6 2.2 语音的线性预测分析 ....................................................................................... 6 2.3 矢量量化 ........................................................................................................... 8 3 G.729/G.729.1和AMR/AMR_WB编码参数分析 ....................................................... 12

3.1 G.729编码器概述 .......................................................................................... 12 3.2 G.729.1编码器概述 ...................................................................................... 14 3.3 AMR编码器概述 .............................................................................................. 18 3.4 AMR_WB编码器概述 .................................................................................. 20 4 从G.729到G.729.1的码流域带宽扩展算法 ......................................................... 23

4.1 映射关系的训练 ............................................................................................. 24

4.1.1 宽带码流解析 ...................................................................................... 24 4.1.2 映射码本生成 ...................................................................................... 27 4.1.3 映射函数生成 ...................................................................................... 28 4.2 高频参数扩展 ................................................................................................. 29 4.3 高频参数编码 ................................................................................................. 30 4.4 宽带码流合成 ................................................................................................. 30 5 从AMR到AMR_WB的码流域带宽扩展算法 ..................................................... 33

5.1 映射关系的训练 ............................................................................................. 33

5.1.1 窄带语音参数提取 .............................................................................. 34 5.1.2 宽带语音参数提取 .............................................................................. 34 5.1.3 参数映射关系的训练 .......................................................................... 35 5.2 宽带语音参数扩展 ......................................................................................... 37 5.3 宽带语音码流生成 ......................................................................................... 39 6 仿真结果和性能分析 ................................................................................................ 42

- III -

人工语音带宽扩展算法研究

6.1 测试方法 .......................................................................................................... 42 6.2 测试序列选取 .................................................................................................. 44 6.3 客观测试结果 ................................................................................................... 45

6.3.1 谱失真测试结果 .................................................................................... 45 6.3.2 语谱图比较 ............................................................................................ 47 6.3.3 算法复杂度 ............................................................................................ 48 6.4 主观测试结果 .................................................................................................. 49 总结和展望 ...................................................................................................................... 51 参 考 文 献 .................................................................................................................... 52 攻读硕士学位期间发表学术论文情况 .......................................................................... 55 致 谢 .......................................................................................................................... 56 大连理工大学学位论文版权使用授权书 ...................................................................... 57

- IV -

大连理工大学硕士学位论文

1 绪论

1.1 研究背景

在早期的语音通信系统中,如公用电话交换网(Public Switch Telephone Network, PSTN)和全球移动通信系统(Global System for Mobile Communications, GSM),它们所传输语音信号的频带局限于4KHz以下,PSTN中仅为0.3KHz~3.4KHz。窄带语音能满足基本通信要求。但在一些对语音质量要求较高的场合,由于缺乏高频成分,窄带语音听起来不自然,缺乏临场感同时又觉得压抑。在现有网络条件下,带宽已成为进一步提升语音质量的一个瓶颈。

人们对高品质音质的追求推动着语音编码技术的进步。国际电信联盟(ITU)等国际标准化组织相继推出多种宽带语音编码标准,如ITU在2006年推出采样率为16KHz的G.729.1标准[1],2000年与3GPP (3rd Generation Partnership Project)共同提出采样率为16KHz的AMR_WB标准[2]。这些新标准没考虑到对已有通信网络和标准的兼容,即它们对码流格式和编码速率改变较大,在现有网络条件下,仍无法普遍实现预期的宽带语音通信。对既有通信网络的升级是一个长期而复杂的过程。因此,如何在现有通信网络条件下获得宽带音质是一个急需解决的现实问题。人工语音带宽扩展技术无疑是解决此问题一个有效的方法。所谓人工语音带宽扩展就是借助语音信号处理技术,仅利用窄带语音信息来扩展宽带语音。

1.2 带宽扩展研究的历史和现状

早在1933年,人们就提到语音带宽扩展的概念并尝试通过线性运算实现该技术[3]。上世纪70年代早期,开始有公司试着通过数字信号处理技术来重建宽带语音信号;但是,由于当时没有考虑到声音本身的特性和人耳的听觉特点,早期尝试都以失败告终。直到1970年研究者们提出语音线性预测模型,这才使得语音带宽扩展技术取得突破性进展,人们相继提出多种带宽扩展算法,这些方法分为以下三大类;

第一类是基于变换域的带宽扩展方法。该类方法先将时域信号转换到变换域(如频域或Hartley变换域等),然后将窄带语音特征参数通过已有的映射关系扩展出宽带语音特征参数,最后将变换域宽带语音特征参数变换到时域,即得到扩展后的宽带语音。

Tsujino 和Kikuiri曾在离散余弦域(MDCT)实现语音信号带宽扩展。由于该类方法涉及到

[4]

两次信号域的变换,故算法复杂度比较高。

第二类方法是基于源-滤波器模型的带宽扩展方法[5-16]。此类方法将带宽扩展分解为两个相对的部分分别进行:谱包络扩展和激励信号扩展,其原理如图1.1所示。

- 1 -

人工语音带宽扩展算法研究

扩展谱包络的主要方法有:码本映射法、线性映射法以及统计映射法等。下面分别介绍这些方法。

特征提取窄带语音分析滤波窄带激励窄带语宽带语音宽带语线性预测音包络包络估计音包络系数恢复映射模型激励扩展宽带激励合成线性预测系数滤波宽带语音 图1.1 基于源-滤波器模型的带宽扩展方法

Fig.1.1 Source-filter model based bandwidth extension method

(1)码本映射

码本映射方法多基于矢量量化技术。该方法由大量数据通过某种算法训练得到,包含一对一一对应的映射码本。其中一个码本由窄带谱包络矢量组成,另一个码本由与窄带语音对应的高频语音谱包络适量组成。码本映射过程是:选定某种失真测度,在一个预先训练好的码本中查找与输入矢量最接近的码字,该码字所在的行即为其索引;将该索引映射到另一个码本中,将与其对应的码字作为输出矢量,其映射过程如图1.2所示。常用的码本映射方法有:直接码本映射、内插码本映射以及多重码本映射。Carl和Heute[13]曾使用直接码本映射方法,Epps和Holmes[17]曾使用内插码本映射,Kornagel[18]曾使用多重码本映射。码本映射的缺点是没有考虑到语音的时间相关性。

低频窄带码本x1x2低频窄带特征输入x„xn图1.2 码本映射 Fig.1.2 Codebook mapping

其它频带参数码本y1y2„yn一对一匹配其它频带参数估计值y

(2)线性映射

- 2 -

大连理工大学硕士学位论文

设x是低频窄带信号抽取的参数矢量,y是其它频带待估计的参数矢量,则线性映射关系可以表示为

yAx (1.1)

其中,A是训练阶段通过对大量数据训练得到的线性映射矩阵,参数矢量x和y可以是线性预测系数,线谱对,倒谱系数或者对数面积比。常用的线性映射方法有:直接线性映射,分段线性映射。Epps和Holmes[17]使用直接线性映射方法;Nakatoh等[19]使用分段线性映射方法。

(1) 统计映射

统计映射理论基础是窄带和宽带频谱间的统计相关性。统计映射方法具有适应广泛、匹配能力强和估值稳定等特点。Park和Kim[8]利用高斯混合模型(GMM)完成宽带包络扩展。Jax和Vary[10]使用隐马尔可夫模型(HMM)完成宽带包络扩展。统计映射方法主要缺点是:模型训练过程比较耗时,使用EM等优化准则时,存在易陷于局部极值点而无法得到全局最优解等问题。

语音谐波结构信息包含在激励信号中,所以在宽带语音合成中激励信号是必不可少的。激励扩展的常用方法有以下两种:

(1)使用特定信号

此类方法是用少量语音参数(如基音周期、激励增益)调制固定脉冲串、正弦波、白噪声或它们的组合。AMR_WB编码器[2]使用白噪声产生激励。该类激励产生算法比较简单,但合成语音噪声感较强烈,特别是在浊音段,这主要是因为此类人工激励与真实激励之间相关性较弱,彼此匹配不好。

(2)谱折叠和谱平移

谱折叠原理如图1.3所示。此处假定宽带语音带宽是窄带语音带宽的整数倍,则宽带语音频谱可以通过折叠窄带语音频谱得到,其中,频谱折叠可以通过零值内插实现。

窄带语音信号窄带残差信号线性预测分析宽带残差信号2倍升采样 图1.3 谱折叠

Fig.1.3 Spectral folding

谱平移与谱折叠产生过程相似,其原理如图1.4所示。它们的缺点是:会因为高频部分谐波与窄带谐波不对齐而破坏基音频率。

- 3 -

人工语音带宽扩展算法研究

窄带残差2倍升采样低通滤波基音检测调制器高通滤波器+图1.4 谱平移 Fig.1.4 Spectral shift

宽带残差

第三类是基于数字水印技术的带宽扩展方法[20-23]。该类方法是在发送端将高频部分参数自适应地嵌入到4KHz以下的某个子频带中去,在接收端,提取出嵌入的高频信息进而完成带宽扩展。Ariel和David[22]通过Hartley变换将高频带的包络参数嵌入到窄带中去,并通过提取该参数实现带宽扩展;Yang和Lee[23]在编码端将多个高频带的谱增益嵌入到G.711的码流中去,在解码端通过提取该参数实现带宽扩展。该类方法所嵌入的高频信息对于低频信号而言是额外的噪声干扰,会降低音质。此外,该方法可允许嵌入的信息量严重依赖于具体的主频带信号,这将影响信号嵌入的稳定性,进而影响语音通信质量。

1.3 本文主要工作及组织结构

本文的研究方向是码流域带宽扩展方法。基于该研究方向,本文分别对G.729和AMR编码协议的窄带码流完成带宽扩展。本文主要工作包括:

(1)介绍语音信号的数字模型、线性预测分析,矢量量化以及动态聚类等技术,G.729/G.929.1和AMR/AMR_WB编码标准。对已有的带宽扩展方法进行分类评述。

(2)在语音特征参数提取部分,详细介绍从码流中提取线谱对(LSP)或者导谱对(ISP)、基音周期、固定码本以及增益的过程。

(3)在训练阶段,使用C-均值和加权求平均的方法建立G.729谱包络到G.729.1高频包络一一对应的码本;在扩展阶段,通过码本映射完成G.729.1高频包络扩展。

(4)引进支持向量回归(SVR)模型,完成AMR LSP到 AMR_WB导谱对(ISP)的扩展 (5)阐述其它一维参数关系的训练,扩展过程以及G.729.1、AMR_WB宽带码流合成方法

- 4 -

大连理工大学硕士学位论文

本文组织结构如下:第一章介绍带宽扩展方法;第二章介绍相关语音分析技术;第三章分析G729/G729.1和AMR/AMR_WB编码器编码参数;第四章介绍G.729到G.729.1的码流域带宽扩展算法;第五章介绍AMR到AMR_WB的码流域带宽扩展算法;第六章对本文提出的两种方法进行仿真和结果分析。

- 5 -

人工语音带宽扩展算法研究

2 语音信号的分析与预处理

2.1 语音的产生模型

语音信号建模是语音信号处理的基础。因为语音信号的产生是一个与声道形状、声道声激励等都相关的复杂的生理、心理过程,所以很难为其建立一个精确的模型。语音信号产生的离散时域模型如图2.1所示。其中,浊音激励信号是一个周期等于基音周期的冲激序列;清音激励信号是一个均值为零,自相关函数为单位冲激函数的随机噪声信号。

基音频率周期脉冲发生器声门脉冲模型AVAU声道模型辐射模型语音信号随机噪声发生器图2.1 语音信号产生模型

Fig.2.1 Model of speech signal generation

2.2 语音的线性预测分析

语音信号线性预测定义为[24]:可以利用过去抽样值的线性组合来逼近当前语音信号的抽样值。通过最小化线性预测误差函数,来确定一组唯一的线性预测系数。

由语音信号产生模型可知,可认为语音信号S(z)是激励信号U(z)通过一个线性时不变因果稳定系统H(z)的输出[13]。该系统的传输函数为:

H(z)S(z)U(z)G1aizii1p (2.1)

其中,p是预测器阶数;G为正实数,用于调节输出序列s(n)的幅度大小。

这个模型的参数有清/浊音判决、浊音音调频率、增益常数G和数字滤波器系数ai[13]。可以使用线性预测分析的方法,计算出ai和G。

- 6 -

大连理工大学硕士学位论文

线性预测分析的主要任务就是求解方程组(2.2)[25],计算出ai和Ep

pr(j)air(ji)0i1 pr(0)air(i)Epi11jp (2.2)

其中,r(i)是待分析语音信号s(n)的自相关序列。解方程组(2.2)的第一步就是计算r(i):

r(j)Es(n)s(nj) (2.3)

从原理上讲,线性预测分析条理非常清晰,但是由于非平稳信号自相关序列r(j)的计算涉及到集合平均问题,且该问题不容易处理,所以r(j)的计算变得非常复杂。因为语音信号具有短时(10~30ms)平稳性,所以,我们可以用时间平均代替集合平均,从而简化r(j)计算。因此,语音信号线性预测分析之前需要进行分帧处理,帧长可以取为10~30ms之间的数据。分帧后语音信号自相关序列r(j)可以估计为:

r(j)s(n)s(nj),1jp (2.4)

njN比较经典的线性预测解法有:自相关法和协方差法。本文只对自相关方法给出介绍。 对于自相关法,本文首先假设语音信号s(n)只在0≤n≤N-1之间取值,即对语音信号进行加窗处理,最简单的窗就是式(2.5)所示的矩形窗:

1, w(n)0,0nN1 (2.5)

其他此处,式(2.4)中r(j)估计会引入误差,而且式(2.5)加窗会引起频谱泄露。为了减少加窗引进的频谱泄露,常采用其它平滑窗。

式(2.4)所示的r(j)可以组成(p1)(p1)阶对称矩阵,该矩阵任何一条对角线上的元素都相等,称为Toeplitz矩阵。该矩阵常用一种特殊的递推算法进行求解。求解该矩阵最常用的递推算法是Levinson-Durbin算法[26],该算法实现步骤如式(2.6)所示:

- 7 -

人工语音带宽扩展算法研究

E0r(0)i1(i1)r(i)ajr(ij)j1k,1ipiEi1 (i) (2.6)

aiki(i)(i1)(i1)kiaij,1ji1ajajEi(1ki2)Ei1在式(2.6)中, i1,2,,p表示线性预测器阶数,如Ei、ki、a(i),同时i也用来表示参数序号,如ai、r(ij)。经过上式递推计算后,可得i1,2,,p各阶解:

aja(jp), 2GEpp1jp (2.7)

Epr(0)(1ki2) (2.8)

i1因为Ep满足Ep0,且是p的递减函数,所以

ki1,参数ki为反射系数。

1ip (2.9)

2.3 矢量量化

矢量量化(Vector Quantization, VQ)[27]这一数据压缩技术, 最早出现在20世纪70年代后期,并迅速发展起来。它的基础是香农信息论。矢量量化首先将若干标量参数组合成一个矢量,然后对这些矢量进行空间划分并给予整体量化。

(1) 矢量量化原理介绍

矢量量化的基本思路是[28]:首先将k个标量值构成一个k维矢量,然后给予“整体”量化。对于矢量量化,首先要将k维空间划分为M个区域,然后将要量化的矢量与这些区域做比较,并用与其“最近“的区域中心矢量值代替要量化的矢量。由此可见,这里有两个主要问题: ①M个区域的划分问题。在“训练”阶段,通过对大量数据训练完成M个区域的划分;②两矢量之间误差测度的选择问题。误差测度需要根据实际需

- 8 -

大连理工大学硕士学位论文

要进行选择。

矢量量化的主要任务是:训练码本,根据需要寻找好的失真测度度量以及设计最佳的量化器系统等。

矢量量化的主要性能指标如下:①码本大小。②传输数码率。③信号样本比特数。④平均信噪比:

SNR10lg[E(x)Ed(x,y)]dB (2.10)

2在式(2.10)中,E(x)表示输入信号矢量的平均能量,Ed(x,y)表示量化噪声。

2(2)失真测度

失真测度用来度量用码本重构矢量代替输入矢量的失真大小。如果要使式(2.10)中的E[d(x,y)]最小,必须要增大码本尺寸M或索引长度R,即需要对码本重构矢量进行更细致的划分,此时信道传输数码率F必将随之增大。反之,若要求小的传输数码率,只有增大总平均失真,或者降低SNR要求。可见,对于矢量量化而言,失真测度和码本尺寸是两个相互对立、相互制约的关键技术。

失真测度的选取应该参考以下几点:①所选择的失真测度必须能够用表达式描述且计算复杂度较低;②必须能客观地评价矢量之间的差异;③必须具有主观意义。

目前,常用的失真测度有;均方误差测度(欧式失真)、线性预测失真测度以及识别失真测度等。根据第四章算法需要,本文只介绍均方误差测度。

平方欧几里得距离的定义为:

d(x,y)xy2x(iyii02k12 ) (2.11)

d(x,y)表征输入矢量x与同构矢量yQ(x)之间的差异大小。

(3)码本设计

码本设计过程就是寻求一种把M个训练矢量分成N类的最佳分类方法,其中,各类质心矢量的组合构成码本。

Linde、Buzo和Gray于1980年,在文献[29]中首先提出矢量量化码本设计算法-GLA算法(也叫LBG算法)。该算法的主要优点是:①物理概念清晰;②算法理论严密;③算法实现容易。其主要缺点为:①存储空间和计算复杂度较大;②训练所得码本的自适应能力较弱。

针对该算法的上述问题,学者们相继提出多种改进算法,这些算法大致可归为以下四大类:

- 9 -

人工语音带宽扩展算法研究

①GLA相关的改进算法;

②基于神经网络技术的码本设计算法; ③基于全局优化技术的码本设计算法; ④基于聚类理论的码本设计算法。 (4)码本设计算法的改进-动态聚类

动态聚类[30]方法是码本设计常用算法之一。本文只研究基于误差平方和准则的C-均值算法。

若假定第i类i的样本数目和均值分别为Ni和mi,则有 mi1Niyiy (2.12)

对于所有类,将i中的每个样本y与均值mi之间的误差平方求和后相加

Jeymii1yic2 (2.13)

Je表征用m1,m2,,mC代表1,2,,c时,所产生的误差平方和。使得Je极小的聚类是该准则下的最佳聚类。

动态聚类第一步就是样本集初始划分,首先选择一些代表点作为分类的初始质心,然后在某个准则下,把其余点进行分类。代表点选择方法有:

①凭经验选择;

②随机地将样本集分成c类并分别计算每类重心。这些重心即为代表点; ③“密度”法选择; ④选择前c个样本点。

选定代表点后,需要确定初始分类方法,以下是几种常用的初始分类方法: ①代表点选定后,将余下的点归入离其最近的类;

②将选择的一批代表点自成一类,将样本依顺序划入与其最近的类,并立即更新该类质心。然后计算下个样本归类,直至所有样本分类完毕。

受文章篇幅所限,我们直接给出C-均值算法的具体实现过程:

①把N个样本初始划分成C个聚类,并计算每个聚类的m1,m2,,mC和Je。 ②选择样本y,并假定设y在i中。 ③若Ni!1,继续;否则,转到②。

- 10 -

大连理工大学硕士学位论文

④计算

NjymjNj1 jNiymiN1i2ji (2.14)

2ji⑤若kj,则把y从i移到k中。 ⑥重新计算mi,mk,然后更新Je

⑦若连续N次Je不改变,则停止,否则转到②。

- 11 -

人工语音带宽扩展算法研究

3 G.729/G.729.1和AMR/AMR_WB编码参数分析

3.1 G.729编码器概述

G.729是ITU在1996年3月提出的窄带语音信号编码标准[31],该标准是基于共轭结构代数码激励线性预测(Conjugate-Structure Algebraic-Coder-Excited Linear-Prediction, CS-ACELP)模型的。所谓的CS-ACELP是码激励线性预测(Coder-Excited Linear-Prediction, CELP)编码算法的一种。

G.729首先对输入的语音信号进行分帧(10ms为一语音帧)和预处理,然后通过线性预测、基音搜索以及固定码本搜索等,提取线性预测系数、自适应码本索引及其增益、固定码本索引及其增益,最后将这些参数编码得到编码码流。其中,G.729编码输入是8KHz采样、16bit量化的数字信号。

G.729提出之后,ITU根据其具体应用领域不同,又相继提出G.729A、G.729B、G.729C、G.729D、G.729E[32]等。G.729A主要是针对G.729应用在多媒体通信时算法复杂度比较高这一缺点提出的,该标准在保证语音质量下降很小的前提下,可以大幅度降低算法复杂度。本节主要介绍G.729A的编码过程。

G.729A是基于合成分析(Analysis-by-Synthesis, A-b-S)技术的,它在编码端同时进行解码处理,并将解码得到语音与原始语音相比,在选定的误差准则下,调整编码参数,使得解码端合成语音与原始语音之间的误差最小。G.729A的编码器原理如图3.1所示

[25]

由图3.1可知,该编码器主要包括线性预测(Linear Prediction, LP)分析,基音搜索以

及固定码本搜索等三大功能模块。图3.1中的线性预测滤波器阶数为10。

G.729的编码参数包括LSP系数、基音周期、固定码本、自适应码本增益和固定码本增益。由于篇幅所限,这里只介绍与第4章算法相关的LSP系数编码过程。

(1)线性预测系数(Linear Predictive Coefficient, LPC)到LSP系数的转换

G.729A每帧使用一个非对称窗进行一次LP分析,得到一组线性预测系数

ai(i1,2,,10)。为了方便进行量化和内插,G.729A将ai(i1,2,,10)转成LSP系数

qi(i1,2,,10)进行相关运算。LSP系数定义成差分多项式(3.1)和(3.2)的根。

F1`(z)A(z)z11A(z1) (3.1) F2`(z)A(z)z11A(z1) (3.2)

- 12 -

大连理工大学硕士学位论文

输入语音预处理固定码本增益LP分析量化内插线性预测系数固定码本自适应码本自适应码本增益合成滤波器线性预测系数基因分析感知加权固定码本搜索增益量化线性预测系数参数编码传输码流

图3.1 G.729A编码器 Fig.3.1 G.729 encoder

由式(3.1)和式(3.2)可知,F1`具有对称性,F2`具有非对称性。同时可以证明,这些多项式所有的解在单位圆上交替出现,且F1`有一个根z1,F2`有一个根z1。通过定义新的多项式(3.3)和(3.4)可以消除这两个根:

F1F1`(z)/(1z1) (3.3) F2F2`(z)/(1z1) (3.4) 式(3.3)和式(3.4)在单位圆上都有5个共轭复数根,即 F1(z) F2(z)i1,3,,9(12qzii1z2) (3.5) z2) (3.6)

i2,4,,10(12qz1其中,qicos(i),i是线谱频率(line spectral frequencies, LSF)并且满足

01210 (3.7)

- 13 -

人工语音带宽扩展算法研究

因为F1(z)和F2(z)都是对称多项式,所以,要对其进行求解,只需计算出每个多项式的前5个系数。这些系数可以由递推关系式(3.8)和(3.9)得到: f1(i1)ai1a10if1(i) f2(i1)ai1a10if2(i)其中,f1(0)f2(0)1.0。当zej时,有:

F()2ej5C(x) (3.10) 其中,

i0,,4 (3.8) i0,,4 (3.9)

C(x)T5(x)f(1)T4(x)f(2)T3(x)f(3)T2(x)f(4)T1(x)f(5)/2 (3.11) 其中,Tm(x)cos(mx)为m阶Chebyshev多项式,f(i)(i1,2,,5)是F1(z)或者F2(z)的系数。当xcos()时,C(x)的递推关系为:

fork4downto1bk2xbk1bk2f(5k)endC(x)xb1b2f(5)/2其中,初始值为b51,b60。

(2)LSP系数的量化

LSP系数qi的量化在归一化频率域[0]内完成。所以,LSP系数归一化之前需要将其转换成LSF系数i(i1,,10),即

iarccos(qi)i1,,10 (3.12) 本文用4阶MA预测器来预测当前帧LSF系数;用二级矢量量化器对计算的LSF与预测的LSF的差进行量化。其中,第一级是10维矢量量化,用7bit进行量化;第二级第一级量化结果分为两个5维的矢量量化,并分别用5bit进行量化。

3.2 G.729.1编码器概述

G.729.1是ITU在2006年公布的宽带(50-7000Hz)语音/音频编码标准[1]。该标准编码速率为8-32kbit/s, 编码码流分为12层,其中,第1层的编码速率是8kbit/s,该层码

- 14 -

大连理工大学硕士学位论文

流格式与G.729码流格式相同,可以实现G.729.1与G.729之间的兼容;第2层是窄带增强层,编码速率为12kbit/s;第3层以上是宽带增强层。

G.729.1编码器的默认输入、解码器的默认输出都是16KHz采样、16bit线性PCM量化的数字信号。G.729.1编解码器基于以下三级结构:码激励线性预测(Coding-Excited Linear-Prediction, CELP)、时域带宽扩展(Time-Domain Bandwidth Extension, TDBWE)以及时域混叠消除(Time-Domain Aliasing Cancellation, TDAC)。

窄带嵌入式CELP层主要是在8kbit/s和12kbit/s码率下生成第1层和第2层码流,解码后得到带宽为50~4000Hz的窄带合成语音;TDBWE层用于生成第3层码流,解码后得到码率为14kbit/s,带宽为50~7000Hz的宽带合成语音。TDAC层在修正离散余弦变换域 (Modified Discrete Cosing Transform,MDCT) 上生成第4~12层码流,解码后得到码率为14kbit/s~32kbit/s的合成语音[33]。

G.729.1 以20ms为一超帧对语音信号进行处理,但嵌入式CELP编码层以10ms为一帧(这一点跟G.729类似)。因此,在一个20ms超帧内G.729.1需要处理两个10ms CELP帧。G.729.1编码器的原理如图3.2所示[34]。

在图3.2中,宽带输入信号在默认情况下采样频率是16KHz,以20ms(320个采样点)为一语音帧。G.729.1具体编码过程如下[1]:

输入的宽带信号sWB(n),首先经过传输函数分别为H1(z)和H2(z)的两个滤波器(一

qmf个QMF滤波器组)被分成两个子带,然后通过两倍降采样处理得到低频信号SLB(n)和qmf高频信号SHB(n)。

qmf对于其中一路低频信号SLB(n),为了消除50Hz的工频交流干扰,将其通过一个截

止频率为50Hz的高通滤波器Hh1得到信号SLB(n);SLB(n)在经过嵌入式CELP进行相关编解码处理的同时,与合成语音senh(n)作差得到dLB(n);dLB(n)经过感知加权滤波器得

w到加权差dLB(n),滤波器系数A(z)为量化后的线性预测系数,为了保证dLB(n)与高频信w号SHB(n)之间的连续性,感知加权滤波器引进增益补偿部分;dLB(n)经过MDCT变换w得到DLB(k)作为TDAC编码器输入。

w

- 15 -

人工语音带宽扩展算法研究

帧擦除掩蔽编码器滤波器H1(z)qmfsLB(n)2倍抽取高通滤波器sLB(n)嵌入式CELPHh1(z)编码器dLB(n)感知加权滤波器dLB(n)wsenh(n)A(z)宽带信号sWB(n)MDCTwDLB(k)MUXTDAC编码器SHB(k)MDCT滤波器H2(z)2倍抽取qmfsHB(n)foldsHB(n)低通滤波器谱折叠Hh2(z)sHB(n)TDBWE编码器 图3.2 G.729.1编码器功能模块 Fig.3.2 Functional model of G.729.1 encoder

qmffoldfold抽取后得到的高频信号SHB(n)经(1)n谱折叠后得到sHB(n);sHB(n)经过截止频率

为3KHz的低通滤波器Hh2(n)得到sHB(n);sHB(n)同时通过TDBWE编码器进行编码和MDCT变换得到SHB(k),而不需要经过CELP编码器编码。

w两路信号分别经MDCT变换得到DLB(k)和SHB(k)后由TDAC编码器进行编码。

本节只介绍与第四章算法相关的第三层编码参数:时域包络均值、时域包络以及频域包络等。

G.729.1第三层(宽带增强层)采用时域带宽扩展技术,其编码原理 [1]如图3.3所示。 (1)时域包络和频域包络计算

将输入的20ms超帧信号sHB(n)分成16段,每段长度是1.25ms。时域包络参数

Tenv(n),i0,,15可以由式(3.13)给出

1192Tenv(i)log2(sHB(ni10)),i0,,15 (3.13)

210n0- 16 -

大连理工大学硕士学位论文

标量量化时域包络均值MT码矢量量化流形成时域包络Tenv(i)计算sHB(n)频域包络计算Fenv(i)

矢量量化 图 3.3 TDBWE编码原理 Fig.3.3 Principle of the TDBWE coding

在计算信号sHB(n)频域包络的时候需要对其进行加窗处理。所加窗口为非对称汉明窗wF(n),其表达式为

2n1(1cos()),n0,,712144 (3.14) wF(n)12(n16)(1cos()),n72,,1271132wF(n)最大值点在当前超帧第二个10ms帧上。第二个10ms帧语音信号加窗后为

wsH),n31,,96 (3.15) B(n)sHB(n)wF(n31w对sHB(n)进行点FFT变换为

fftwwSH,n31,,32 (3.16) B(k)FFT(sHB(n)sHB(n)),k0,,63频域包络Fenv(j),j0,,11计算表达式为

2(j1)21fft Fenv(j)log2(WF(k2j)SHB(k)),j0,,11 (3.17)

2k2j(2)时域包络和频域包络量化

时域包络Tenv(n)(i0,,15)和频域包络Fenv(j)(j0,,11)的量化通过两步完成:首先,对其进行去均值操作;然后,采用矢量量化技术对去均值后的包络进行量化。其具体实现如下:

- 17 -

人工语音带宽扩展算法研究

首先,计算时域包络均值MT

115MTTenv(i) (3.18)

16i0在对数域以3dB为步长对MT进行5bit量化,得到量化后的均值MT,然后用MT对时域包络和频域包络进行去均值操作,即

T(i)Tenv(i)MT,i0,,15 (3.19)

MencF(j)Tenv(j)MT,j0,,11 (3.20)

M将时域包络Tenc(i)(i0,,15)分成两个8维矢量:

MMMTenv,1(Tenv(0),Tenv(1),,Tenv(7)) (3.21) MMMT(T(8),T(9),,T(15))envenvenvenv,2MencM将频域包络数Fenc(j)(j0,,11)分成三个4维矢量:

MMMMFenv,1(Fenv(0),Fenv(1),Fenv(2),Fenv(3))MMMM(4),Fenv(5),Fenv(6),Fenv(7)) (3.22) Fenv,2(FenvMMMMF(F(8),F(9),F(10),F(11))env,3envenvenvenv最后,G.729.1对Tenv,1和Tenv,2进行7比特量化;对Fenv,1和Fenv,2进行5比特量化;而对Fenv,3进行4比特量化。

3.3 AMR编码器概述

1999年8月, 3GPP推出自适应多速率(Adaptive Muti Rate, AMR)语音编码协议[35],该协议主要应用在第三代移动通信W-CDMA系统中。与G.729标准相同,AMR也是基于ACELP编码模型的。

AMR支持8种编码速率,如表3.1所示[36],AMR编码器可以根据信道情况和业务需求在8种编码模式之间进行转换。其中,AMR_SID模式为低速率背景噪声编码模式。AMR语音编码器的输入是8KHz采样、16比特线性PCM量化的数字信号。AMR以20ms(160个采样点)为一帧对输入信号进行处理,处理流程与G.729类似,主要包络LP

- 18 -

大连理工大学硕士学位论文

分析、基音搜索以及固定(代数)码本搜索等三大技术。只是某些细节会有细微差别,具体可参考文献[36]。本节将给出AMR编码优势的简短介绍。

针对“变”,AMR编码器包含一下几项关键技术:语音激活检测(Voice Activity Detector,VAD)技术,用于检测是否有话音存在;速率判决(Rate Decision Algorithm, RDA) 技术,用于实现“自适应”、突出“变”;差错检测(Error Concealment Units, ECU)技术[37]。

表3.1 AMR 编码器速率表 Tab.3.1 Bit-rates for AMR coder

编码模式 编码速率 AMR_12.20 12.20kbps

AMR_10.20 10.20kbps AMR_7.95 7.95kbps AMR_7.40 7.40kbps AMR_6.70 6.70kbps AMR_5.90 5.90kbps AMR_5.15 5.15kbps AMR_4.75 4.75kbps AMR_SID 1.80kbps

用于消除由于语音帧丢失带来的负面影响;舒适背景噪声发生(Comfort Noise Aspects, CNA)技术,用于避免背景噪声的不连续性。

AMR编码参数[38]包括线性预测系数、基音周期及增益、固定码本及固定码本增益等,这些参数的编码过程会因编码模式不同而略有不同。由于篇幅所限,本节只介绍与第5章算法相关的AMR_10.2编码模式下某些参数的编码过程。

(1) LSP参数

线性预测系数ai(i1,2,,10)到LSP系数qi(i1,2,,10)的转换参考3.1节。AMR采用矢量量化技术对LSP系数进行量化,具体实现参考文献[35]。

(2) 基音周期

AMR编码器基音周期估计分两步实现:第一步是开环基音周期估计,目的是为了减小基音周期估计的复杂度;第二步是闭环基音周期估计,它在第一步得到的整数基音周期附近进行。

在AMR_10.20编码模式下,每帧进行两次开环基音周期估计,获得两个整数基音周期;在整数基音周期附近,每帧进行四次闭环基音周期估计(每个子帧进行一次)。

- 19 -

人工语音带宽扩展算法研究

(3) VAD技术

VAD技术用来判断当前信号帧是否为语音帧,其输出为“1”或者“0”,若为“1”则表明当前帧是语音帧;否则,表明当前帧是非语音帧。AMR中VAD算法原理如图3.4所示[36],它通过联合子带电平和某些编码参数对信号帧进行VAD判决。

输入语音滤波器组子带电平计算基音标志位基音检测AMR 编码器音调标志位音调检测复杂信号分析复杂信号标志位复杂信号定时器VAD “0”或”1”判决子带电平 图3.4 AMR中VAD算法原理 Fig.3.4 Principle of VAD in AMR

在图3.4中,滤波器组由8个5阶或3阶、具有不同截止频率的滤波器组成,该滤

波器组先将每一帧信号分成9个子带,然后分别估计每个子带的信号电平,子带电平绝对值之和为该帧信号电平值。基音检测用来检测周期信号;音调检测用来检测信号音调;复杂信号分析用来检测高通滤波后的相关信号。

在AMR中,VAD判决由初始判决和最终判决两步完成。其中,若输入信号电平与背景噪声估计值之间的差值大于VAD的判决门限值,则将该帧判为语音帧;否则,判为非语音帧。

3.4 AMR_WB编码器概述

自适应多速率宽带(Adaptive Multi-Rate-Wideband, AMR_WB) [2]标准,是3GPP在2001年提出的基于ACELP模型的语音信号编码标准。AMR_WB与AMR编码技术有很多相似之处,受篇幅所限本章只介绍AMR_WB与AMR不同之处。该标准将处理的语音信号带宽扩展到50Hz-7KHz,处理的输入语音是采样率为16KHz的数字信号。AMR_WB 支持9种不同的编码模式,如表3.2所示。AMR_WB编码器可以根据信道情况和业务需求在9种编码模式之间进行切换。

- 20 -

大连理工大学硕士学位论文

表3.2 AMR_WB 编码器速率表 Tab.3.2 Bit-rates for AMR_WB coder

编码模式 编码速率 0 6.60kbps 1 8.85kbps 2 12.65kbps 3 14.25kbps 4 15.85kbps 5 18.25kbps 6 19.85kbps 7 23.05kbps 8 23.85kbps

AMR_WB在编码的时候将50Hz-7KHz的频带分成50Hz-6.4KHz和6.4KHz~7KHz,进行编码[39]。其中,50Hz~6.4KHz 称为中低频带;6.4KHz~7KHz 称为高频带。AMR_WB整个编码过程都是在12.8KHz采样率下进行的,中低频带的编码是基于ACELP编码技术的,高频带使用与中低频带相同的编码参数。

AMR_WB编码参数主要包络导谱对(Immittance Spectral Pairs, ISP)、基音周期、固定码本及其增益、自适应码本及其增益以及高频增益(仅在23.85kbps模式下)。其编码原理如图3.5所示。

本节只介绍AMR_WB编码与AMR编码不同之处:(1)由于AMR_WB编码是在12.8KHz采样率下进行的,所以输入的16KHz采样的语音信号首先要经过一个下采样处理(先是4倍插值再是5倍抽取)。(2)AMR_WB在预处理阶段需要进行预加重处理,以提升高频成分,降低频谱倾斜。(3)AMR_WB线性预测滤波器和合成滤波器皆为16阶。(4) AMR_WB固定码本搜索采用深度优先树算法实现。

- 21 -

人工语音带宽扩展算法研究

输入语音Fs=16KHz预处理线性预测分析计算加权语音4子帧ISP插值ISP索引ISP量化4子帧ISP插值开环基音搜索计算目标信号基音索引搜索最佳基音延迟和增益计算自适应码本分量固定码本搜索固定码本索引滤波器状态更新计算激励选择自适应码本滤波器滤波器索引计算冲激响应计算高频增益索引(23.85kbit/s模式)高频增益索引增益量化增益索引图3.5 AMR_WB编码原理 Fig.3.5 Princilpe of AMR_WB coding

- 22 -

大连理工大学硕士学位论文

4 从G.729到G.729.1的码流域带宽扩展算法

已有的带宽扩展方法在一些情况下是有效的,但是当用其来桥接某些设备,如媒体网关的时候,它的不足就会暴露出来:在带宽扩展之前,这些方法需要先将窄带码流完全解码到时域窄带语音,带宽扩展之后需要将扩展的宽带语音完全编码成宽带码流(如图4.1所示),因此其计算量很大,不适合应用在对实时性要求较高的场合。针对上述问题,本文提出一种直接基于码流的带宽扩展方法。考虑到各种编码器码流格式差异较大,本文主要研究G.729到G.729.1以及AMR到AMR_WB的码流域带宽扩展方法。

窄带语音码流窄带语音解码器A窄带语音带宽扩展模块宽带语音宽带语音编码器B宽带语音码流

图4.1 已有带宽扩展方法原理

Fig.4.1 Principle of the existing bandwidth extension method

G.729.1虽然可以与G.729兼容,但是对于输入的G.729窄带码流也只能输出窄带的合成语音。Geiser等[40],在没有其它边带信息的前提下,通过扩展高频时域包络矢量和频域包络矢量,实现语音的带宽扩展,但是该方法仍无法克服上述问题。针对以上问题,本节提出G.729到G.729.1的码流域带宽扩展,该方法将带宽扩展分成两个相对的部分(基本原理如图4.2所示)分别进行: 高频能量扩展和高频包络扩展。输入的窄带码流,首先经过码流解析模块得到包络映射模块和能量映射模块所需的参数。接着,包络映射模块和能量映射模块输出的扩展后的高频参数经过编码模块得到高频语音所对应的码流;最后,由码流合成模块将扩展的高频码流和已有的窄带码流合成与G.729.1解码器兼容的宽带码流。

低频LSP窄带码流码流解析低频能量包络映射映射码书映射函数能量映射高频能量编码高频时域包络以及频域包络高频码流码流合成宽带码流

图4.2 基于码流的带宽扩展方法

Fig.4.2 Bit-stream based bandwidth extension method

- 23 -

人工语音带宽扩展算法研究

4.1 映射关系的训练

本章所提出码流域带宽扩展方法的首先要完成映射关系的训练,映射关系训练的好坏直接影响到扩展后的宽带语音质量。 4.1.1 宽带码流解析

在映射关系训练阶段,将G.729.1宽带码流每20ms帧中的两个10ms帧第一层的18bit分离出来,即为L0,L1,L2,L3。其中第1bit是L0,第2bit到第8bit是L1,第9bit到第13bit是L2,第14bit到第18bit是L3;第一层最后14bit即为GA1、GA2、GB1、GB2,其中第67bit到第69bit是GA1,第70bit到第72bit是GA2,第73bit到第76bit是GB1,第77bit到第80bit是GB2;第三层前5bit分离出来即为MU,第6bit到第12bit即为T1,第13bit到第18bit即为T2,第19bit到第23bit即为F1,第24bit到第28bit即为F2,第29bit到第32bit即为F3。

(1) 低频(窄带)LSP解析

根据提取出的L0,L1,L2,L3,通过码本搜索可以得到LSP系数qi(i1,2,,10),然后,将qi(i1,2,,10)转换成线性预测系数ai(i1,2,,10)。假设A(z)是10阶线性预测误差滤波器的传输函数,根据文献[25]有:

A(z)1aizii1101(P(z)Q(z)) (4.1) 2其中P(z)和Q(z)可以由式(4.2)和(4.3)给出:

P(z)(1z)(12q2i1z1z2) (4.2)

1i155Q(z)(1z)(12q2iz1z2) (4.3)

1i1解式(4.1)即可得到线性预测系数ai(i1,2,,10),则反射系数ki(i1,2,,10)可以通过式(4.4)所示的递推关系[41]得到:

kma(m,m)a(m1,i)[a(m,i)kma(m,mi)]/(1ki) (4.4) m10,9,,1;i1,2,,m1- 24 -

大连理工大学硕士学位论文

(2) 低频(窄带)能量

(10)假设en为10阶线性预测残差信号,sf(n)是固定码本激励信号,sa(n)是自适应码

本激励信号,则有[35]:

(10)ensf(n)sa(n) (4.5)

(10)则信号en的能量E10为:

2E10E[s2f(n)]2E[sf(n)sa(n)]E[sa(n)] (4.6)

其中,E[]是数学期望。因为sf(n)和sa(n)是统计不相关的,则式(4.6)可以改写成(4.7)

2E10E[s2f(n)]E[sa(n)] (4.7)

在G.729和G.729.1编解码器中,sf(n)和sa(n)可以分别由固定码本增益gf和自适应码本增益ga给出:

sf(n)gfvf(n) (4.8) sa(n)gava(n) (4.9)

其中,vf(n)是固定码本矢量的第n个元素,va(n)是自适应码本矢量的第n个元素。并且根据参考文献[35]可知满足式(4.10)

2 E[v2f(n)]E[va(n)]1 (4.10)

因此,式(4.7)可简化成

2E10g2gfa (4.11)

定义Elf为窄带语音的能量:

Elfs2(n)r(0) (4.12)

n0L1其中,L160是语音帧长,r(0)是信号s(n)的0阶自相关函数。

假设第i阶线性预测残差信号能量是Ei,根据莱文逊-杜宾(Levision-Durbin)算法[26],

Ei和Ei1之间的递推关系如(4.13)所示:

Ei(1ki2)Ei1,i1,2,,10 (4.13)

- 25 -

人工语音带宽扩展算法研究

由式(4.13)可以得出:

E0E10(1ki110 (4.14)

2i)由参考文献[42],可知E0和r(0)满足关系式(4.15)

E0r(0) (4.15)

因此,可得,

ElfE10(1ki110 (4.16)

2i)由式(4.16)可知要计算低频(窄带)语音能量Elf,只需要知道反射系数ki(i1,2,,10)和10阶线性预测误差能量,而E10满足式(4.11),所以在获得反射系数之后我们需要根据码流中提取出的GA1、GA2、GB1、GB2,进行解码得到自适应码本增益ga和固定码本增益gf。

(2)高频能量解析。

根据码流中提取出的MU码字解码得到编码前量化后的高频能量MT。 (3) 高频时域、频域包络解析。

根据码流中分离出的高频谱包络码字T1、T2、F1、F2、F3,到相应码本中查找相

ˆM,TˆMˆMˆMˆM应的矢量Tenv,1env,2,Fenv,1,Fenv,2,Fenv,3,其中

ˆM(TˆM(0),TˆM(1),,TˆM(7)) Tenv,1envenvenv (4.17) (4.18)

ˆM(TˆM(8),TˆM(9),,TˆM(15)) Tenv,1envenvenvˆM(FˆM(0),FˆM(1),FˆM(2),FˆM(3)) (4.19) Fenv,1envenvenvenvˆM(FˆM(4),FˆM(5),FˆM(6),FˆM(7)) (4.20) FenvenvenvenvenvˆM(FˆM(8),FˆM(9),FˆM(10),FˆM(11)) (4.21) Fenv,3envenvenvenv- 26 -

大连理工大学硕士学位论文

根据高频能量MT,对高频时域包络及频域包络码流进行解码,得到解码后的高频时域包络Tenv(i),(i0,1,,15)和频域包络Fenv(j),(j0,1,,11),具体实现如下:

ˆM(i)Mˆ;(i0,1,,15) (4.22) Tenv(i)TenvTˆ(j)FˆMMT;(j0,1,,11) (4.23) Fenvenv4.1.2 映射码本生成

在本章中,通过码本映射扩展得到高频包络,所以高频包络扩展的关键是建立一对低频到高频一一对应的码本。其中,低频包络包括10维LSP系数;与之对应的高频包

ˆ(j)(j0,1,,11)。络包括16维时域包络Tenv(i)(i0,1,,15)和12维频域包络F然后将env这些矢量组合成一个38维矢量,组合顺序是: 先是10维LSP系数,中间是16维时域

ˆ(j)(j0,1,,11)。 包络Tenv(i)(i0,1,,15),最后是12维频域包络Fenv其中低频码本生成采用动态聚类中的C-均值算法[30],高频码本生成采用一种加权求平均的方法

(1)低频包络码本生成

通过C-均值聚类方法可以聚类得到低频包络码本,具体实现过程参考2.3.4节。设码本容量(即聚类数)为N,以38维矢量的前10维为聚类对象进行聚类处理,得到每一类的质心矢量,所有这些质心矢量的集合构成低频码本。若码本容量N过大,则计算量太大;若N过小,则码本增益过小,恢复出来的宽带语音信号效果较差。所以需要在计算复杂度和扩展语音质量之间寻求一种折中。在本章中,N取为128.

(2)高频包络码本生成

对于前10维聚类处理后的每一类,我们采用加权求平均的方法来计算后28维的中心矢量。该方法具体实现步骤如下:

①计算第i类初始质心aver0[i][k]

1n ave0r[i][k]x[j][k], iind[j],k10,11,,37 (4.24)

nj0其中,x[j][k]表示一个28维高频时域、频域包络矢量,n为某一类中的高频时域、频域包络矢量数, ind[j]表示矢量x[j][k]所在类的类别号。

②计算第j个矢量x[j][k]与所在类质心的距离dist[j]

- 27 -

人工语音带宽扩展算法研究

dist[j](x[j][k]aver0[ind[j]][k])2,k1,2,,28 (4.25)

k0M③计算第i类中所有矢量与质心之间距离倒数之和w[i]

w[i]1 (4.26) ind[j]idist[j]④计算第i类新质心aver[i][k]

1Mix[j][k] (4.27) aver[i][k]dist[j]w[i]ind[j]ik0其中,Mi是第i类的矢量数。

⑤分别计算初始质心L1范数sum0和新质心L1范数sum

sum0aver0[i][k] (4.28)

k0Msumaver[i][k] (4.29)

k0M⑥判断每一类新质心和初始质心之间的距离是否小于预定门限T,即是否满足式(4.30)

sum0sumsumT (4.30)

若式(4.30)不满足,则令aver0[i][k]=aver[i][k],并返回到步骤②,直到所有分类质心都满足式(4.30)。

迭代结束之后,所得到的质心即为高频时域包络以及频域包络聚类质心,所有这些质心组成高频包络码本。

在高频码本生成过程中,门限T的选择相当重要,若 T太大,则不能有效减少一些特殊点对质心的影响;若T太小,则计算量会明显增大。因为,在本文中,码本生成过程是离线进行的,所以T可以选的尽可能小。 4.1.3 映射函数生成

在本文中,通过函数映射完成高频能量扩展,所以高频能量扩展的关键是准确建立

- 28 -

大连理工大学硕士学位论文

低频能量到高频能量的函数。由4.1.1节知,宽带语音低频带能量可以由式(4.16)计算得到。在本节中我们采用最小二乘法[43]来拟合低频能量和高频能量之间的函数关系。具体做法如下:

i以第i帧低频能量E为自变量,高频能量E(对应4.1.1节中的MT)为函数值,应

ilfihf用最小二乘法拟合LEN高低频能量之间的函数关系:

ii Ehf= cElf+ d (4.31)

利用最小二乘法拟合该函数关系的系数化简结果为

c d123 (4.32) 2423421 (4.33) 2421其中,1LENLEN11LEN1i1LEN1i21LEN1iEE,2Elf,3Ehf,3(Ehf)。LENi0LENi0LENi0i0ilfihfii根据Elf和Ehf计算得c =0.139, d=2.3942,即

Ehf0.13E (4.34) 9lf2.394 2式(4.34)即为高频能量和低频能量之间的函数关系。

4.2 高频参数扩展

输入的G.729窄带码流经过4.1.1节低频码流解析,可以获得窄带LSP系数和窄带语音帧能量,这些参数为高频参数扩展提供必需的输入。

(1)高频包络扩展

在本文中,高频包络扩展主要包括高频时域包络和频域包络扩展两部分。本节通过码本映射方法实现低频LSP系数到高频包络的扩展。码本映射的基本原理是:在低频码本中搜索,找到与LSP(或LSF)最接近的码字矢量,然后将低频码本中相应的码字索引映射到高频码本,索引所在行的高频特征矢量用来代替缺失的高频时域、频域包络。码本映射过程所需的映射码本由4.1.2节训练得到。

- 29 -

人工语音带宽扩展算法研究

假设低频码本为C{y0,y1,,yN1|yiRk},其中N为码字个数,k10为码字矢量维数,平方误差表征k维窄带输入矢量x(x0,x1,,xk1)T与低频码字

yi(yi0,yi1,,yi(k1))T之间的失真,即

d(x,yi)(xlyil)2 (4.35)

l0k1这样,在码本映射时,首先在低频码本C中搜索与输入矢量x最匹配的码字yj,也就是寻找yj与x之间距离最短的码字,即

d(x,yj)mind(x,yi) (4.36)

0iN1将所得到的最佳匹配码字索引j映射到高频码本中,即将第j个码字矢量作为缺失的高频时域、频域包络。

(2)高频能量扩展

将窄带码流解码得到的语音帧能量作为式(4.38)的输入,输出的函数值即为与之对应的高频能量。

4.3 高频参数编码

(1)高频能量编码

高频能量Ehf编码参考G.729.1编码协议[1],具体方法为:在对数域以3dB量化步长对Ehf进行5bit量化,得到编码后的高频能量码流。

(2)高频包络编码

高频包络编码分为高频时域包络编码和高频频域包络编码两部分。高频包络编码之前需要将编码后的高频能量码字进行解码,得到编码前量化后的高频能量MT。高频包络编码过程如图4.3所示,具体实现过程参考文献[1]。

至此,已完成高频参数编码,获得必需的高频参数索引。

4.4 宽带码流合成

在本节中,编码得到高频参数索引和已有的窄带码流合并成与G.729.1编码标准兼容的宽带语音码流。G.729.1码流格式如图4.4所示。每一个20ms超帧第2层和第3层的比特分配如表4.1和表4.2所示。

- 30 -

大连理工大学硕士学位论文

时域包络时域包络去直流分量高频能量解码频域包络频域包络去直流分量频域包络3频域包络 编码时域包络2时域包络 编码码流合成图4.3 高频包络编码

Fig.4.3 High-frequency envelope coding

160bits80bits40bits40bits40bits40bits40bits40bits40bits40bits40bits40bits置为0;参数CL1,CL2由G.729码流每帧比特数决定,其关系如表4.3所示。在获得宽带码流的第2层之后,我们将扩展得到的高频参数索引填充到第3层合成与G.729.1解码器输入兼容的宽带码流。

NBITSYNCLayer1Layer2Layer3Layer4Layer5Layer6Layer7Layer8Layer9Layer10Layer11Layer12

图4.4 G.729.1码流格式 Fig.4.4 G.729.1 bit-stream format

表4.1 第2层比特分配 Tab.4.1 Layer2 bit allocation

参数 码字 比特数 比特数 比特数 比特数 总比特数 第二个固定码本索引 C12,C22 13 13 13 13 52 第二个固定码本符号 S12,S22 4 4 4 4 16 第二个固定码本增益 G12,G22 3 2 3 2 10 FEC比特(类别信息) CL12,CL22 1 1 2

为了获得第二层码字,参数C12,C22,S12,S22被随机地置为0或1;参数G11,G22被

- 31 -

人工语音带宽扩展算法研究

表4.2 第3层比特分配 Tab.4.2 Layer3 bit allocation

参数 码字 比特数 总比特数 时间包络均值 MU 5 5 时间包络矢量量化 T1,T2 7+7 14 频域包络矢量量化 F1,F2,F3 5+5+4 14 FEC比特(相位信息) PH 7 7

表4.3 CL1,CL2与G.729码流每帧比特数的关系

Tab.4.3 The relationship between FEC bits and G.729 bits number per frame

第一帧比特数 第二帧比特数 0 15 80 0 15 80 CL1= CL2=0 CL1=1, CL2=0 CL1=0, CL2=1 CL1=1, CL2=0 CL1= CL2=1 CL1=0, CL2=1 CL1=0, CL2=1 CL1=0, CL2=1 CL1=0, CL2=1 - 32 -

大连理工大学硕士学位论文

5 从AMR到AMR_WB的码流域带宽扩展算法

由于AMR_WB与AMR码流之间不具备G.729.1与G.729码流之间的分层对应关系,所以,本章采用不同于G.729到G.729.1的码流扩展方法实现AMR码流扩展。不失一般性,本文仅介绍AMR 10.20kbps到AMR_WB 23.85kbps的码流域带宽扩展。由3.4节可知,AMR_WB码流包括ISF索引、基音索引,固定码本索引、增益索引、滤波器索引以及高频增益索引(仅23.85kbps编码速率需要)。AMR 10.20kbps 与AMR_WB 23.85kbps码流格式差异较大,尤其是固定码本部分,很难找到一种精确的固定码本映射方法,为了保证扩展后合成语音的质量,本文借助合成语音实现码流域带宽扩展,其原理如图5.1所示。该方法是基于AMR完全解码和AMR_WB部分编码的。

VADSVR模型10维LSPSVR预测映射函数AMRAMR码流解码映射码本映射函数能量计算合成语音Fs=8KHz窄带能量函数映射高频增益索引开环基音窄带固定码本函数映射开环基音宽带固定码本码本映射编码16维ISPAMR_WB部分AMR_WB码流2倍升采样合成语音Fs=16KHz 图5.1 从AMR到AMR_WB的码流域带宽扩展算法原理 Fig.5.1 Bit-stream based bandwidth extension from AMR to AMR_WB

5.1 映射关系的训练

AMR_WB编码参数的扩展可以分成两类,一类是通过某种映射方法直接由AMR解码出的参数映射得到所需的宽带参数,如ISP、高频增益等;另一类是借助合成语音和某种映射关系联合的方法,得到所需的宽带参数,如基音周期、固定码本等。对两类

- 33 -

人工语音带宽扩展算法研究

参数的扩展而言,映射关系的训练都是关键部分,映射关系训练的结果,直接影响扩展后宽带合成语音质量。 5.1.1 窄带语音参数提取

本节将完成窄带语音10维LSP参数、开环基音周期参数以及固定码本参数的提取和窄带语音能量的计算。

首先,将采样率为8KHz的语音信号经AMR 编码器在10.2kbps编码速率下进行编码,得到与之对应的窄带码流;然后,将该窄带码流经AMR解码器进行解码,并在解码过程提取相应参数,具体实现如下:

(1)LSP参数提取

在Decoder_amr( )函数里输出当前帧量化后的LSP系数,该参数存储在数组lsp_new[10]里。

(2)开环基音周期参数提取

在Decoder_amr( )函数里输出第一子帧和第三子帧的开环基音周期,该参数存储在变量T0里。

(3)固定码本参数提取

固定码本参数存储在d8_31pf ( )函数的变量pos1和pos2里,通过4次循环可以输出每个子帧的8维固定码本参数。

(4)窄带语音能量计算

在Decoder_amr( )函数里计算每一帧合成语音的对数域能量,其中,合成语音为函数Speech_Decode_Frame( )的输出,存储在数组synth[L_FRAME]里。计算过程如下:

L_FRAMEnb_enersynth(i) (5.1)

2i0nb_ener_loglog2(nb_ener) (5.2)

其中,L_FRAME为AMR语音帧的帧长,在AMR里L_FRAME=160;nb_ener_log为每一语音帧的对数域能量。 5.1.2 宽带语音参数提取

本节将完成宽带语音16维ISP、开环基音周期、固定码本以及高频增益索引等参数的提取。

- 34 -

大连理工大学硕士学位论文

将与5.1.1节窄带语音相对应的,采样率为16KHz的宽带语音信号作为输入,由AMR_WB编码器在-dtx模式、 23.85kbps的编码速率下进行编码。并在编码过程中提取相应参数,具体实现如下:

(1)ISP参数提取

在coder( )函数里输出当前帧的ISP系数,该参数为函数Az_isp()的输出,存储在数组ispnew[16]里。

(2)开环基音周期参数提取

在coder_amr( )函数里输出第一子帧和第三子帧的开环基音周期,其中,第一子帧的基音周期为函数Pitch_med_ol( )的返回值存储在变量T_op里;第三子帧的基音周期为函数Pitch_med_ol( )的返回值存储在变量T_op2里。

(3)固定码本参数提取

在ACELP_4t_fx()函数里输出宽带固定码本参数,该参数是24维矢量存在数组codvec[]里,。

(4)高频增益索引的提取

在coder_amr()函数里输出高频增益索引,该参数作为函数synthesis()的返回值,存储在变量corr_gain里。 5.1.3 参数映射关系的训练

(1)10维LSP参数到16维ISP参数映射关系的训练

在此引入支持向量回归(SVR)模型[44],完成窄带语音LSP系数到宽带语音ISP系数的预测。预测的准确性与预测数据本身特性以及模型训练过程的参数设置有关,尤其是后者。由于ISP各维之间的相关性比较弱,所以可分别进行10维LSP到一维ISP的模型训练(共需16次)。下面以10维LSP到第一维ISP为例,介绍 SVR模型的训练过程。

首先,要对输入的10维LSP进行归一化。此处归一化的方法有多种,本文选用按维(列)归一化方法。具体实现过程如下:

① 分别计算每一维的最大值maxi

maxi0jframe_nummaxjLSPi,i1,2,,10 (5.3)

其中,frame_num为帧数,LSPij表示第j帧第i维的LSP。

② 按维归一化

jLSPiLSP,i1,2,,10;j1,2,,frame_num (5.4) i_normmaxij- 35 -

人工语音带宽扩展算法研究

然后,将归一化后的frame_num帧10维LSP系数作为训练模型的输入;

frame_num帧第一维ISP系数作为训练模型的目标输出,由SVR进行训练得到模型-

一个由10维矢量到一维标量的预测模型model。本章训练过程SVR参数设置如表5.1所示

表5.1 SVR参数设置 Tab.5.1 SVR parameters seting

参数 标志 本文的设置 备注 -s SVM模型 3 epslion-SVR -t 核函数类型 2 RBF核函数 -c 损失函数 2.2 -g 属性数目的倒数 2.8 -p epslion-SVR中epslion的值 0.01

(2)开环基音周期映射关系训练

开环基音周期参数的映射关系,可以由4.1.3节所介绍的最小二乘法进行线性拟合得出。分别将窄带语音的第一/三子帧的开环基音周期作为函数输入,与之对应的宽带语音的第一/三子帧的开环基音周期作为函数输出,拟合得到的第一子帧之间的映射关系为

Top1_wbT01*0.81931.452 (5.5)

第三子帧之间的映射关系为:

Top3_wbT03*0.72830.339 (5.6)

其中,Top1_wb,T01分别为宽带语音和窄带语音第一子帧的开环基音周期;Top3_wb,

T03分别为宽带语音和窄带语音第三子帧的开环基音周期

(3)固定码本映射关系训练

因为本文宽带固定码本扩展是通过码本映射完成的,所以需建立一对窄带到宽带一一对应的码本。其中窄带码本包括5.1.1节提取的8维窄带语音脉冲位置矢量,宽带固定码本包括5.1.1节提取的24维宽带语音脉冲位置矢量。按照先是8维窄带语音脉冲位置,然后是24维宽带语音脉冲位置的顺序,组合成一个32维矢量。

- 36 -

大连理工大学硕士学位论文

与4.1.2节一样,窄带码本生成采用动态聚类中的C-均值算法,宽带码本生成采用一种加权求平均的方法。具体实现过程参考4.1.2节。

设码本容量(即聚类数)为N,若码本容量N过大,则计算量太大;若N过小,则码本增益过小,恢复出来的宽带语音效果较差。所以需要在计算复杂度和扩展语音质量之间寻求一种折中。在本章中,N取为2048.

(4)高频增益索引映射关系训练

窄带语音能量与高频增益索引的映射关系,可以由4.1.3所介绍的最小二乘法进行线性拟合得出。将5.1.1节得到的窄带语音能量nb_ener_log作为输入,5.1.2节得到的高频增益索引corr_gain作为输出,利用最小二乘法进行线性拟合,可以得到二者之间的映射关系为:

corr_gainnb_ener_log*0.5351310.7 (5.7)

5.2 宽带语音参数扩展

首先对输入的AMR码流进行完全解码,在解码的过程得到窄带语音VAD、LSP、开环基音周期、固定码本以及最终输出的窄带合成语音及其能量。然后根据不同参数特性完成宽带语音参数扩展,并合成出与AMR_WB解码器兼容的宽带语音码流。其中,AMR_WB部分编码原理如图5.2所示。

(1)VAD参数扩展

由于VAD参数主要是用来表征话音有无的,与带宽无关,所以可将AMR解码得到的VAD参数直接映射到AMR_WB编码端,可以省去编码端VAD参数的计算。

(2)ISP参数扩展

将窄带语音解码得到的10维LSP参数通过5.1.3节训练得到的SVR模型进行预测,预测器的输出即为16维ISP参数。将得到的ISP参数利用式(5.8)转换成ISF系数

fi(i0,1,,15)

fs2arccos(qi),i0,,14 fi (5.8)

fsarccos(qi),i154其中,fs12800为采样率。假设z(n)是第n帧去均值后的ISF矢量,则预测残差矢量r(n)可表示为

r(n)z(n)p(n) (5.9)

- 37 -

人工语音带宽扩展算法研究

其中,p(n)是第n帧根据式(5.10)预测得到的LSF矢量

1 p(n)r(n1) (5.10)

3其中,r(n1)是上一帧的量化残差矢量。

本文使用多阶失量量化器对r(n)进行量化。首先,将矢量r(n)分成9维的矢量

r1(n)和7维的矢量r2(n)。然后,通过两级操作对两个子矢量进行量化。在第一级操作过程中,对r1(n)和r2(n)进行8bit量化;在第二级操作过程中,对两个子矢量进行二次后根据编码模式进行量化,具体请参考文献[2]。

固定码本索引宽带固定码本固定码本搜索固定码本目标信号选择自适应滤波器自适应码本贡献计算加权语音开环基音搜索闭环基音搜索自适应码本目标信号计算脉冲响应4个子帧差值16维ISPISP->ISFISFISF量化ISF索引高频增益索引滤波器索引AMR_WB增益增益矢量量化索引基音索引码流生成AMR_WB码流VAD开环基音合成语音Fs=16KHz4个子帧差值

图5.2 AMR_WB部分编码 Fig.5.2 AMR_WB partly coding

- 38 -

大连理工大学硕士学位论文

(3) 基音周期参数扩展

由于10.20kbps编码速率下的 AMR与23.85kbps编码速率下的 AMR_WB基音周期分辨率不同,若采用基音周期的直接扩展将会引起合成语音质量严重下降。因此,对于该参数的扩展需借助AMR解码器输出的合成语音,以及AMR_WB基因周期搜索过程。首先,将AMR解码器端得到的第一/三子帧开环基音周期作为式(5.5)/(5.6)的输入,输出即为与之对应的宽带语音第一/三子帧开环基音周期;为了保证合成语音质量,本文没有将该参数直接作为宽带语音开环基音搜索结果,而是通过该参数开环基音周期搜索范围,这样在保证语音质量的同时,可以降低开环基音搜索的计算量。

具体实现过程是:将映射得到的开环基音周期减去一个常数后作为开环基音周期搜索的下界;将开环基音周期加上一个常数后作为开环基音周期搜索的上界。该常数的选择需在计算量和语音质量之间做一个折中:大的搜索范围意味着较高的合成语音质量和较大的计算量,小的搜索范围意味着较低的合成语音质量和较小的计算量。本文将该常数设为2.

(4) 高频增益索引扩展

高频增益索引的扩展是通过函数映射实现的。将AMR解码端得到的窄带语音能量作为式(5.7)的输入,所得到的函数值即为宽带语音高频增益索引值。

(5) 固定码本的扩展

AMR在10.20kbps编码速率下与AMR_WB在23.85kbps编码速率下的固定码本结构相差较多,且这种CELP编码模式对于固定码本误差非常敏感,所以,为了保证合成语音质量,本文采用同开环基音周期扩展相同的方法。

首先,将AMR解码得到的窄带固定码本进行码本搜索,得到窄带码本索引;然后,将该索引映射到与之对应的宽带固定码本(此处的映射码本由5.1.3节训练得到),并将索引所指的行矢量输出,即为与窄带对应的宽带固定码本。

为了不降低合成语音质量,本文根据映射得到的宽带码本,求取每个轨道脉冲位置的最大、最小值,该步的算法流程如图5.3所示。轨道脉冲位置确定以后,当AMR_WB编码器搜索每个轨道脉冲的时候,不再进行16个位置的全搜索,而只需要搜索该轨道脉冲位置最大和最小值之间的位置。该方法在保证语音质量下降不明显的前提下,可以有效地缩减脉冲搜索范围,从而可以降低固定码本搜索的计算量。

5.3 宽带语音码流生成

将5.2节扩展得到的各参数索引按照表5.1的顺序,写到码流中,即可得到与AMR_WB解码器在23,85kbps编码速率下兼容的宽带码流。

- 39 -

人工语音带宽扩展算法研究

开始i=0初始化Pos_max[j]=0Pos_min[j]=32767j=0,1„,4;第i个脉冲位置pos[i]NNpos[i]%4==1Ypos[i]Pos_max[1]YPos_max[1]=pos[i]Npos[i]Pos_max[0]i++pos[i]%4==2YNpos[i]>Pos_max[2]YNPos_max[2]=pos[i]NNpos[i]%4==3pos[i]Pos_max[3]i++Ypos[i]Fig.5.3 Determining the track maximum and minimum position

- 40 -

大连理工大学硕士学位论文

表 5.1 AMR_WB 在23.85kbps编码模式下的参数索引比特分配 Tab.5.1 Bit allocation of AMR_WB encoder within the 23.85kbit/s

比特(MSB-LSB) 描述 s10-s17 第2个ISP子矢量索引s1 VAD标志 s2-s9 第1个ISP子矢量索引 s10-s17 第2个ISP子矢量索引 s18-s23 第3个ISP子矢量索引 s24-s30 第4个ISP子矢量索引 s31-s37 第5个ISP子矢量索引 s38-s42 第6个ISP子矢量索引 s43-s47 第7个ISP子矢量索引 s135-s145 轨道4的码本索引2 子帧1 子帧2 s48-s56 自适应码本索引 s57 长时预测滤波器标志 s58-s68 轨道1的码本索引1 s69-s79 轨道2的码本索引1 s80-s90 轨道3的码本索引3 s91-s101 轨道4的码本索引1 s102-s112 轨道1的码本索引2 s113-s123 轨道2的码本索引2 s124-s134 轨道3的码本索引2 s135-s145 s135-s145 s146-s152 码本增益 s153-s156 高频带能量 s69-s79 s80-s90 轨道3的码子帧2 轨道s113-s123 轨道2的码本索引2 s157-s162 自适应码本索引 s163-s262 同 s57-s15 子帧2 子帧3 同 s48-s156 s263-s371 子帧4 s372-s477 s1 VAD标志 同 s157-s262 - 41 -

人工语音带宽扩展算法研究

6 仿真结果和性能分析

6.1 测试方法

为了验证本文所提出方法的有效性,我们对这两种方法分别进行主观、客观测试。其中,主观测试采用比较分类比例(comparison category rating, CCR)[45];客观测试采用谱失真(log spectrum distortion, LSD)[46]、语谱图以及计算复杂统计等测度方法。

(1)谱失真测度

谱失真测度的定义为[46]

LSD1LENLENk1[(k,)fac(k)]22d (6.1)

(k,)20lo10g(Aorg(ej)Apost(e)j) (6.2)

4 fa(ck)2(k,)d (6.3) LEN其中,fac(k)是增益补偿因子;是数字角频率;LEN是用来计算LSD的语音信号总帧数;

Aorg(ej)为原始宽带语音第k帧谱包络;Apost(ej)为窄带语音经2倍插值(补0)后的宽

带语音或扩展得到的宽带语音的第k帧谱包络。

(2)语谱图

语谱图可以直观地表示语音信号随时间变化的频谱特性。语谱图的横轴表示时间,纵轴表示频率,图像的灰度表示信号频谱能量。其中,图像越白说明能量越大;相反,图像越黑说明能量越小。因此,声道的谐振频率表现为黑带,而语音中的浊音部分表现为条纹图形,在清音的时间间隔内语谱图表现的很紧密。

(3)算法复杂度

为了验证本文所提出的方法在降低计算量方面的有效性,本文分模块对两种方法最坏情况下的WMOPS(weighted million operations per second)[47]进行统计。

(4)比较分类比例 (CCR)

本文采用类似于CCR的语音听力测试,作为主观测试方法来验证所提出方法的有效性。测试所需要的24段语料,由六个不同的说话人(3男3女),每人讲四句话,其中

- 42 -

大连理工大学硕士学位论文

一句用来预听,另外3句用来测试。每段语料长8s,包含的,无关联的两句话,语音信号电平设置为-26dBov。这些语料由采样率为16KHz的高质量录音设备,在消声室中录制并保存成数字信号。

在本文中,保存的每一段语料必须经过如图6.1、6.2所示的处理过程,得到两组测试所需语料。图6.1所得到的三种语料用于G.729到G.729.1的码流域带宽扩展方法主观测试;图6.2所得到的四种语料用于AMR到AMR_WB的码流域带宽扩展方法主观测试。

G.729.1编码G.729.1解码第n段G.729.1合成语料Fs=16KHz第n段语料Fs=16KHzn=1,2,„,242倍抽取G.729编码G.729解码第n段G.729合成语料Fs=8KHzG.729编码从G.729到G.729.1的带宽扩展G.729.1解码第n段扩展语料Fs=16KHz 图6.1 从G.729到G.729.1的码流域带宽扩展语料处理

Fig.6.1 Speech samples processing of bit-stream based bandwidth extension from G.729 to G.729.1

AMR_WB编码14.25kbpsAMR_WB解码第n段AMR_WB合成语料Fs=16KHz第n段语料Fs=16KHzn=1,2,„,242倍抽取AMR编码12.2kbpsAMR解码第n段AMR合成语料Fs=8KHzAMR编码10.2kbpsAMR_WB编码12.65kbpsAMR到AMR_WB带宽扩展AMR_WB解码第n段AMR_WB扩展语料Fs=16KHzAMR_WB解码第n段AMR_WB合成语料Fs=16KHz 图6.2 从AMR到AMR_WB的码流域带宽扩展语料处理

Fig.6.2 Speech samples processing of bit-stream based bandwidth extension from AMR to AMR_WB

- 43 -

人工语音带宽扩展算法研究

随机选择18个(9男9女)年龄在20到40之间,对测试语音具有较好分辨力的测试主体。他们应该使用过通信设备,最重要的是测试主体不能从事语音处理的相关工作,而且半年甚至更长时间内没有参加任何语音方面的相关测试。

进行正式测试之前,实验实施者需要向测试主体讲解测试说明。测试主体了解说明之后,要对测试语音进行试听,并给出意见。之后,实验实施者应该拿出足够的时间回答问题。实验实施者应该对任何有关实验步骤、实验意义的问题给出回答;任何有关技术的问题,如实验原理,在实验结束之前不予回答。此外,必须保证测试主体之间对于彼此的测试结果毫不知晓。

将测试主体分成3组。每组6段测试语音,对于G.729到G.729.1的码流域带宽扩展方法,测试主体需要做两对比较:G.729的合成语音与扩展后G.729.1的合成语音;G.729.1的合成语音与扩展后G.729.1的合成语音。对于AMR到AMR_WB的码流域带宽扩展方法,测试主体需要做三对比较:AMR在12.20kbps编码速率下的合成语音与扩展后AMR_WB的合成语音;AMR_WB在12.65kbps编码速率下的合成语音与扩展后AMR_WB的合成语音;AMR_WB在14.25kbps编码速率下的合成语音与扩展后AMR_WB的合成语音。测试顺序随机分配给每个主体。测试结束之后,每个主体都要依据比较平均意见分(comparison mean opinion score,CMOS)给出一个分数,在做结果统计的时候这些分数都将统计在内。CMOS分数分布[45]如表6.1所示。

表6.1 比较平均意见分

Tab.6.1 Comparison Mean Opinion Score(CMOS)

比较 分数 A比B好很多 +3 A比B好 +2 A比B好一点 +1 A和B一样 0 A比B差一点 -1 A比B差 -2 A比B差很多 -3

6.2 测试序列选取

为了说明本文提出的两种方法适用于不同类型的语音,测试的时候,我们应该尽可

- 44 -

大连理工大学硕士学位论文

能选取各种类型的语音。由于基音周期和音色不同,现实世界的语音可以构成一个相当大的语音测试库,但总体来说可以分为四类:成年男子语音、成年女子声音,男童语音、女童语音。本文选择一种音乐序列和四类语音序列作为测试序列,分别进行主客观测试,每种序列都包括采样率为16KHz的宽带语音和与之对应的采样率为8KHz的窄带语音。测试序列及其参数如表6.2 所示。

表6.2 测试序列及其参数 Tab.6.2 Input tested files and parameters

序列类型 成年男子语音 成年女子语音 男童语音 女童语音 音乐序列 长度/s 57 53 61 55 49 采样频率/KHz 16/8 16/8 16/8 16/8 16/8 量化位数/bit 16 16 16 16 16 采样点数 912000 848000 976000 880000 784000

6.3 客观测试结果

6.3.1 谱失真测试结果

对于两种基于码流的带宽扩展方法,本文分别测量5类序列的全频带和子频带(扩展的高频带)的谱失真。其中,G729.1的合成语音和窄带语音全频带谱失真测试结果如表6.3所示、子频带谱失真测试结果如表6.4所示;AMR_WB的合成语音以及窄带语音全频带谱失真测试结果如表6.5所示、子频带谱失真测试结果如表6.6所示。

表6.3 G.729.1扩展语音和窄带语音全频带谱失真

Tab.6.3 Full band LSD of the G.729.1 extended speech and narrowband speech

测试语音 G.729.1扩展语音 窄带语音 成年男子语音 6.31dB 17.93dB 成年女子语音 6.70dB 21.55dB 男童语音 6.98dB 21.93dB 女童语音 6.29dB 22.01dB 音乐序列 7.17dB 30.dB

- 45 -

人工语音带宽扩展算法研究

表6.4 G.729.1扩展语音和窄带语音子频带谱失真

Tab.6.3 Sub band LSD of the G.729.1 extended speech and narrowband speech

测试语音 G.729.1扩展语音 窄带语音 成年男子语音 5.97dB 10.75dB 成年女子语音 6.02dB 13.26dB 男童语音 5.94dB 12.63dB 女童语音 5.99dB 11.37dB 音乐序列 6.15dB 23.49dB

由表6.3和表6.4可知,与窄带语音相比,扩展得到的G.729.合成语音的谱失真明显下降。所以,就这一点来看,从G.729到G.729.1的码流域带宽扩展方法可以准确的恢复出与窄带语音相对应的高频部分。

表6.5 AMR_WB扩展语音和窄带语音全频带谱失真

Tab.6.5 Full band LSD of the AMR_WB extended speech and narrowband speech

测试语音 AMR_WB扩展语音 窄带语音 成年男子语音 6.37dB 17.93dB 成年女子语音 6.56dB 21.55dB 男童语音 6.74dB 21.93dB 女童语音 6.38dB 22.01dB 音乐序列 7.06dB 30.dB

表6.6 AMR_WB扩展语音和窄带语音子频带谱失真

Tab.6.6 Subband LSD of the AMR_WB extended speech and narrowband speech

测试语音 AMR_WB合成语音 窄带语音 成年男子语音 6.20dB 10.75dB 成年女子语音 6.56dB 13.26dB 男童语音 6.24dB 12.63dB 女童语音 6.19dB 11.37dB 音乐序列 6.55dB 23.49dB

- 46 -

大连理工大学硕士学位论文

由表6.5和表6.6可知,与窄带语音相比,扩展得到的AMR_WB.合成语音的谱失真明显下降。所以,就这一点来看,从AMR到AMR_WB的码流域带宽扩展方法可以 准确的恢复出与窄带语音相对应的高频部分。 6.3.2 语谱图比较

针对两种码流的带宽扩展方法,本文使用Origin6.1分别绘制5类语音语谱图。 经比较发现各类测试序列的语谱图情况类似,所以,在本文中,选取成年男子语音一段比较典型的片段,并绘出语谱图,如图6.3所示。

(a) (b)

(c) (d)

图6.3 成年男子语音语谱图对比:(a) G.729.1扩展语音;(b) AMR_WB扩展语音;(c) 原始的宽带语

音;(d)窄带语音

Fig.6.3 Male spectrum comparison:(a)G.729.1extended speech;(b)AMR_WB extended speech;(c)original

wideband speech;(d)narrowband speech

经比较图6.3中的4幅语谱图,我们可以看到,本文提出的两种码流域带宽扩展方法恢复出来的宽带语音高频部分明显增加;通过比较原始宽带语音和扩展的宽带语音语

- 47 -

人工语音带宽扩展算法研究

谱图可知,所提出的两种方法扩展出来的宽带语音信号语谱图与原始宽带语音信号的语谱图很相近。从语谱图分布情况可以看出,本文方法能准确地恢复出窄带信号所对应的高频部分,因此可以实现窄带码流到宽带码流的转换。 6.3.3 算法复杂度

在本节中,分别测试两种方法各个模块的计算复杂度(WMOPS)。 (1)G.729到G.729.1的码流域带宽扩展方法计算复杂度

G.729到G.729.1的码流域带宽扩展方法计算复杂度统计结果如表6.7所示。

表6.7 G.729到G.729.1 的码流域带宽扩展方法的计算复杂度

Tab.6.7 The computation complexity of bit-stream based bandwidth extension from G.729 to G.729.1

时域带宽扩展 从G.729到G.729.1的码流域带宽扩展 模块 计算量 模块 计算量 (WMOPS) (WMOPS) G.729完全解码 1.092 G.729部分解码 0.204 时域带宽扩展 x(x>0) 包络扩展 0.0012 能量扩展 0.000023 G.729.1完全编码 15.322 G.729.1部分编码 0.345 总计算量 16.414+x 总计算量 0.550223

由表6.7可知,本文所提出的从G.729到G.729.1的码流域带宽扩展方法,与从G.729到G.729.1的时域带宽扩展方法相比,计算量可以大幅度降低,至少降低96%。

(2)AMR到AMR_WB的码流域带宽扩展方法计算复杂度

对于从AMR到AMR_WB的码流域带宽扩展方法,我们只测试时域带宽扩展和码流域带宽扩展编解码部分的计算复杂度,其结果如表6.8所示。

由表6.8可知,本文所提出的AMR到AMR_WB 的码流域带宽扩展方法,与AMR到AMR_WB的时域带宽扩展方法相比,编解码部分计算量大幅度降低,可以降低30%左右。

综上所述,本文所提出的两种码流域带宽扩展方法能大幅度降低计算复杂度,从而可以有效降低系统延时,所以更适合应用在实时处理系统中。

- 48 -

大连理工大学硕士学位论文

表6.8 AMR到AMR_WB 的码流域带宽扩展方法的计算复杂度

Tab.6.8 The computation complexity of bit-stream based bandwidth extension from AMR to AMR_WB

时域带宽扩展 从AMR到AMR_WB的码流域带宽扩展

模块 计算量 模块 计算量 (WMOPS) (WMOPS) AMR完全解码 1.826 AMR部分解码 1.775 AMR_WB完全编码 27.686 AMR_WB部分编码 18.552 总计算量 29.512 总计算量 20.327

6.4 主观测试结果

按照6.1.4节所述的主观测试方法,分别对两种码流域的带宽扩展方法进行主观测试。其中,从G.729到G.729.1的码流域带宽扩展的主观测试结果如图6.13所示;从AMR到AMR_WB的码流域带宽扩展的主观测试结果如图6.14所示。

(a) (b)

图6.13 一对比较里的听者比例分布:(a)G.729的合成语音vs G.729.1的扩展语音;(b) G.729.1 .的合成语音vsG.729.1的扩展语音

Fig.6.13 Distributions of listener ratings in pair comparison: (a) G.729 synthesized speech vs G.729.1

extended speech; (b) G.729.1 synthesized speech vs G.729.1 extended speech

在图6.13中,正数部分的竖条表明,G729.1扩展得到的合成语音,与G.729合成的窄带语音下相比,语音质量主观感受明显提高;与G.729.1合成的宽带语音相比,语音质量主观感受稍有下降。

- 49 -

人工语音带宽扩展算法研究

(a)

(b)

(c)

图6.14 一对比较里的听者比例分布:(a)AMR12.20kbps合成语音vs AMR_WB扩展语音;(b) AMR_WB12.65kbps合成语音vs AMR_WB扩展语音; (c) AMR_WB14.25kbps合成语音vs AMR_WB

扩展语音

Fig.6.14 Distributions of listener ratings in pair comparison: (a) AMR12.20kbps synthesized speech vs

AMR_WB 23.85kbps extended speech; (b) AMR_WB12.65kbps synthesized speech vs AMR_WB

23.85kbps extended speech

在图6.14中,正数部分的竖条表明,AMR_WB扩展得到的合成语音,与AMR在12.20kbps编码速率下合成的窄带语音以及AMR_WB在12.65kbps编码速率下合成的宽带语音相比,语音质量主观感受明显提高; 与AMR_WB在14.25kbps编码速率下合成的宽带语音相比,语音质量主观感受稍有下降。

- 50 -

大连理工大学硕士学位论文

总结和展望

针对现有带宽扩展方法在桥接网关设备的时候,计算复杂度高,系统延时大这一问题,本文首次提出码流域带宽扩展方法。考虑到不同编码协议之间,码流格式差异较大,本文完成基于两种不同编解码器的码流域带宽扩展方法:G.729到G.729.1码流域带宽扩展方法;AMR到AMR_WB码流域带宽扩展方法。两种码流域带宽扩展方法的主客观测试表明,在保证扩展语音质量的前提下,算法计算复杂度明显降低。其中,与传统时域带宽扩展方法,G.729到G.729.1的码流域带宽扩展方法的计算复杂度可以降低96%以上;AMR到AMR_WB的码流域带宽扩展方法的计算复杂度可以降低30%。

本文首次提出码流域的带宽扩展方法,但是受时间和作者本身研究水平所限,有些问题有待进一步研究和探索。未来的研究工作可从以下几个方面加以改进:

(1)G.729.1高频时域/频域包络参数扩展的新方法

对于从G.729到G.729.1的码流域带宽扩展方法,高频时域/频域包络参数扩展的好坏,对扩展后语音质量影响较大。如果找到一种可以准确扩展该参数的方法,扩展后的语音质量将会进一步提高。

(2)AMR_WB固定码本扩展的新方法

由于AMR大多数模式与AMR_WB大多数模式的固定码本结构不同,在本文中,我们利用映射得到的宽带固定码本来简化AMR_WB的固定码本搜索过程,计算量降低不明显。未来的工作,是在不降低语音质量的前提下,寻找一种固定码本新的扩展方法,若能实现窄带固定到宽带固定码本的直接映射,整个带宽扩展算法的复杂度将会大大降低,进而实用性增强。

(3)AMR_WB基音周期的新方法

本文只是利用AMR解码得到的开环基音周期,通过函数映射后,用得到的函数值来AMR_WB开环基音搜索的范围,没有实现窄带基音周期到宽带基音周期的直接映射。在保证扩展后语音质量的前提下,若能找到一种将窄带基音周期直接映射为宽带基音周期的新方法,该算法的复杂度必将大幅降低。

- 51 -

人工语音带宽扩展算法研究

参 考 文 献

[1]ITU-T Recommendation G.729.1.G.729-based embedded variable bit-rate coder:An 8-32kbit/s scalable wideband coder bit-stream interoperable with G.729[S].2006. [2]3GPP.TS26.171 V7.0.0. Adaptive multi-rate wideband speech codec: general description[S]. 2006.

[3] 赵成勇.语音人工带宽扩展算法研究[D].大连:大连理工大学,2011.

[4] Tsujino K, Kikuiri K. Low-complexity bandwidth extension in MDCT domain for low-bitrate speech coding[C].IEEE International Conference on Acoustics,Speech and Signal Processing, Taipei,2009:4145-4148.

[5] Mohan D M. Artificial bandwidth extension of narrowband speech using gaussian mixture model[C].IEEE International Conference on Acoustics, Speech and Signal Processing, Calicut,India, 2011: 410-412.

[6] Thomas M R P, Gudnason J, Naylor P A. Voice source extimation for artificial bandwidth extension of telephone speech[C]. IEEE International Conference on Acoustics, Speech and Signal Processing,Dallas,Tx,USA,2010:4794-4797.

[7] Yagl C, Erzin,E. Artificial bandwidth extension of spectral envelop with temporal clustering[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Prague,Czech, 2011: 5096-5099.

[8] Park K Y, Kim H S. Narrowband to wideband conversion of speech using GMM-based transformation[C].IEEE International Conference on Acoustics,Speech and Signal Processing, Istanbul, Turkey, 2000:1847-1850.

[9] Murali M D, Dileep B K, Manoj N, et al. Artificial bandwidth extension of narrowband

speech using Gaussian Mixture Model[C]. International Conference on Communications and Signal Processing ,Calicut 2011:410-412.

[10] Jax P, Vary P. Wideband extension of telephone speech using a hidden markov model[C].

Proc. IEEE Speech Coding Workshop, Delavan, WI,2000:133-135.

[11] Jax P, Vary P. An upper bound on the quality of artificial bandwidth extension of

narrowband speech signals[C].IEEE International Conference on Acoustics,Speech,Signal Processing,Oriando,2002:237-240.

[12] Kuntio J, Laaksonen L, Alku P. Neural Network-based artificisl bandwidth extension

of speech[J]. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(3): 873-881.

[13] Carl H, Heute U. Bandwidth enhancement of narrow-Band speech signals[C]. Proc. EUSIPCO,

Edinburgh,,UK,1994: 1178-1181.

- 52 -

大连理工大学硕士学位论文

[14] Pulakka H. Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum[J]. IEEE Transactions on Audio,Speech and Language Processing, 2011, 19(7):2170-2183.

[15] Liu X. Nonlinear bandwidth extension of audio signals based on hidden Markov model[C], IEEE International Symposium on Signal Processing and Information Technology, Bilbao, Spain,2011:144-149.

[16] Mustiere F.Bandwidth extension for speech enhancement[C].Canadian Conference on

Electrical and Computer Engineering, Calgary, AB,2010:1-4.

[17] Epps J, Holmes W H. A new technique for wideband enhancement of coded narrowband

speech[C]. IEEE Workshop on Speech Coding, Porvoo, Finnland,1999:174-176.

[18] Kornagel U. Spectral widening of telephone speech using an extended classification

approach[C]. Proc. EUSIPCO, Toulouse, France,2002:339-342.

[19] Nakatoh Y, Tsushima M, Norimatsu T.Generation of broadband speech from narrowband

speech using piecewise linear mapping[C].European Conf. on Speech Communication and Technology, Rhodos, Greece,1997:13-16.

[20] Chen S, Leung H. Artificial bandwidth extension of telephony speech by data hiding[C].

IEEE International Symposium on Circuits and Systems, Kobe, Japan, 2005: 3151-3154. [21]Geiser B, Vary P. Artificial bandwidth extension of speech supported by

watermark-transmitted 1497-1500.

[22] Ariel S, David M. Bandwidth extension of telephone speech aided by data embedding[J].

EURASIP Journal on Applied Signal Processing, 2007, 2007(1):37-37.

[23] Yang H Y, Lee K.H. A bandwidth extension scheme for G.711 speech by embedding multiple

highband gains[J]. IEICE Transaction on Communications, 2011, E94-B(10): 2941-2944. [24] Ekman L A.Regulrized linear prediction of speech[J]. IEEE Transactions on Audio, Speech

and Language Processing,2008,16(1):65-73.

[25] 王炳锡.语音编码[M]. 西安:西安电子科技大学出版社,2002.

[26] Yu R. A multi-stage Levinson-Durbin algorithm[C]. Conference on Signals,Systems and

Computers, Pacific Grove, CA, USA, 2002:218-221.

[27] 孙圣和,陆哲明. 矢量量化技术及应用[M].北京:科学出版社,2002. [28] 段盼爽.人工语音带宽扩展算法研究[D].大连:大连理工大学,2008.

[29] Linde Y,Buzo A,Gray R M.An Algorithm for vector quantier design[J].IEEE Transactions

on Communication,1980,28(1):84-95.

[30] 边肇祺,张学工. 模式识别[M].北京:清华大学出版社,1999.

[31] Internation Telecommunication Union Telecommunications Standardization Sector.Draft

Recommendation G.729:Coding of Speech at 8kbit/s using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP)[S].1996.

side

information[C].INTERSPEECH,Lisbon,Portugal,2005:

- 53 -

人工语音带宽扩展算法研究

[32] 秦龙,成立新. G.729 系列算法介绍[J]. 军事通信技术,2001,22(3):55-58.

[33] 陈罘.基于G.729.1语音编解码标准的DTXCNG算法研究与实现[D].大连:大连理工大学,2007. [34] Ragot S.ITU-T G.729.1:An 8-32Kbit/S scalable coder interoperable with G.729 for wideband telephony and voice over IP[C].IEEE International Conference on Acoustics,Speech and Signal Processing, Honolulu, HI,2007: IV-529 - IV-532. [35] 3GPP. TS 26.071 AMR speech codec:General Description[S].1999. [36] 王炳锡,王洪.变速率语音编码[M].西安: 西安电子科技大学出版社,2004. [37]李玉萍.AMR语音编解码的研究与实现[D].北京:北京交通大学,2008.

[38]Pryadi E.Speech compression using CELP speech coding technique in GSM

AMR[C].International Conference on Wireless and Optical Communications Networks, Surabaya,China,2008:1-4.

[39]舒昌. 基于AMR_WB的参数语音合成技术[D].哈尔滨:哈尔滨理工大学,2009.

[40] Geiser B, Taddai H, Vary P. Artificial bandwidth extension without side information

for ITU-T G.729.1[C]. Annual Conference of the International Speech Communication Association, Antwerp, Belgium, 2007: 493–2496.

[41] Makhoul J,Gray A.Linear Prediction of Speech[M].Berlin:Springer-Verlag,1982. [42] 张雄伟,陈亮,杨吉斌.现代语音处理技术[M]. 北京:机械工业出版社,2003.

[43] Alexanderr S,Ghirnikar L. A method for recursive least-squares filtering based upon

an inverse QR decomposition[J]. IEEE Trans. On Signal Processing,1993,41(1):20-30. [44] 李忠浩.支持向量回归机研究及其应用[D].大连:大连理工大学,2006.

[45] ITU-T Recommendation P.800.Methods for subjective determinatioin of transmossion

quality[S].1996.

[46]Kwon Y.Bandwidth extension of G.729 speech coder using seaech-free codebok mapping[C].International Conference on Telecommunications and Signal Processing (TSP),Prague,Czech,2012:437-440.

[47] Geiser B, Jax P. Bandwidth extension for hierarchical speech and audion coding in ITU-T REG,G.729.1[J].IEEE Transactions on Audio,Speech and Language Processing. 2007, 15(8): 2496-2509.

- 54 -

大连理工大学硕士学位论文

攻读硕士学位期间发表学术论文情况

[1] 陈喆,殷福亮,李文月.一种窄带码流转换成宽带码流的转换装置.专利号:ZL 2012 1

0014117.6.

[2] 李文月,殷福亮,陈喆. 一种基于码流的语音带宽扩展方法. 大连理工大学研究生网

络学刊,大连:大连理工大学,2013. 学位论文第四章.

[3] 张兆伟,王舒文,李文月. 基于TMS320C6713的多功能数字音效器法. 数据采集与

处理(增刊),27(S2).

[4] Chen Zhe, Li Wenyue, Yin Fuliang. A Bit-stream Based Speech Bandwidth Extension

Method From G.729 to G.729.1.已投稿于IEEE Trans. on Audio, Speech and Language Processing.

- 55 -

人工语音带宽扩展算法研究

致 谢

光阴似苒,转眼间三年的研究生生活即将告一段落,我的学生生涯也将画上的句号。求学数载,尤其是在大连理工大学攻读硕士研究生的这三年里,给予我帮助的人很多,他们在传授我知识的同时,还教会了我为人处世的方法。在此,我表示最衷心的感谢。

首先,要感谢我的导师陈喆副教授。研究生入学伊始,陈老师就给我们开展了C语言、语音信号处理等相关知识的培训,为我今后的学习和工作打下了坚实的基础。陈老师的知识面广,工程实践经验丰富,在我们的项目和竞赛过程中,为我们提供了宝贵的经验,在我们迷茫的时候为我们指明方向,使我们的项目和竞赛取得了较好成绩。在毕业设计期间,每当我遇到困难,陈老师总能给出精心的指导,在陈老师的帮助下,我的毕设如期完成。陈老师严谨的治学态度,刻苦钻研的科学精神值得我一生学习。

其次,要感谢我们教研室的殷福亮教授,该论文是在殷老师的精心指导下完成的。殷老师对于本论文的写作给出了精心的指导。作为一名学者,殷老师在传授我们专业知识的同时还教会了我们如何待人接物,教会了我们遇到问题如何分析并解决问题,使我一生受用。此外,还要感谢殷老师为我们提供了学习和实验条件,为我们提供了参加实际项目的机会,锻炼了我们将理论知识应用到实际中去的能力。殷老师精益求精的科学精神,乐观积极的生活态度深深的感染了我。

再次,感谢教研室的兄弟姐们,是他们为我营造了良好的学习氛围,并且在我遇到困难的时候热情地伸出援助之手。特别是王舒文和张兆伟,很荣幸能跟他们一起参加TI的DSP及嵌入式大奖赛,跟他们并肩作战的日子让我体会到了团队协作的重要性,并取得了理想的成绩。

最后,我要对我的父母,弟弟,妹妹说一声谢谢。感谢父母20多年以来,含辛茹苦将我养大,感谢父母为我创造了良好的求学条件;感谢弟弟妹妹一直以来对的我大力支持。

一路上有你们的陪伴,我从不觉得孤单。今后,走上工作岗位,我一定秉承感恩之心,好好工作,不辜负你们对我的期望。

- 56 -

大连理工大学硕士学位论文

大连理工大学学位论文版权使用授权书

本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。

学位论文题目: 作 者 签 名 : 日期: 年 月 日 导 师 签 名 : 日期: 年 月 日

因篇幅问题不能全部显示,请点此查看更多更全内容