首页>>>技术>>>语音应用>>>语音合成(TTS)  语音合成产品


语音合成技术的原理

清华大学计算机系智能技术与系统国家重点实验室

吴志勇 蔡莲红

---- 当 前, 语 音 合 成 的 研 究 已 经 进 入 文 字 - 语 音 转 换(TTS) 阶 段, 其 功 能 模 块 可 分 为 文 本 分 析、 韵 律 建 模 和 语 音 合 成 三 大 模 块。 其 中, 语 音 合 成 是TTS 系 统 中 最 基 本、 最 重 要 的 模 块。 概 括 起 来 说, 语 音 合 成 的 主 要 功 能 是: 根 据 韵 律 建 模 的 结 果, 从 原 始 语 音 库 中 取 出 相 应 的 语 音 基 元, 利 用 特 定 的 语 音 合 成 技 术 对 语 音 基 元 进 行 韵 律 特 性 的 调 整 和 修 改, 最 终 合 成 出 符 合 要 求 的 语 音。

----语 音 合 成 技 术 经 历 了 一 个 逐 步 发 展 的 过 程, 从 参 数 合 成 到 拼 接 合 成, 再 到 两 者 的 逐 步 结 合, 其 不 断 发 展 的 动 力 是 人 们 认 知 水 平 和 需 求 的 提 高。 目 前, 常 用 的 语 音 合 成 技 术 主 要 有: 共 振 峰 合 成、LPC 合 成、PSOLA 拼 接 合 成 和LMA 声 道 模 型 技 术。 它 们 各 有 优 缺 点, 人 们 在 应 用 过 程 中 往 往 将 多 种 技 术 有 机 地 结 合 在 一 起, 或 将 一 种 技 术 的 优 点 运 用 到 另 一 种 技 术 上, 以 克 服 另 一 种 技 术 的 不 足。

共 振 峰 合 成

----语 音 合 成 的 理 论 基 础 是 语 音 生 成 的 数 学 模 型。 该 模 型 语 音 生 成 过 程 是 在 激 励 信 号 的 激 励 下, 声 波 经 谐 振 腔( 声 道), 由 嘴 或 鼻 辐 射 声 波。 因 此, 声 道 参 数、 声 道 谐 振 特 性 一 直 是 研 究 的 重 点。 在 图1 所 示 的 某 一 语 音 的 频 率 响 应 图 中, 标 有Fp1、Fp2、Fp3 … … 处 为 频 率 响 应 的 极 点, 此 时, 声 道 的 传 输 频 率 响 应 有 极 大 值。 习 惯 上, 把 声 道 传 输 频 率 响 应 上 的 极 点 称 之 为 共 振 峰, 而 语 音 的 共 振 峰 频 率( 极 点 频 率) 的 分 布 特 性 决 定 着 该 语 音 的 音 色。

----音 色 各 异 的 语 音 具 有 不 同 的 共 振 峰 模 式, 因 此, 以 每 个 共 振 峰 频 率 及 其 带 宽 作 为 参 数, 可 以 构 成 共 振 峰 滤 波 器。 再 用 若 干 个 这 种 滤 波 器 的 组 合 来 模 拟 声 道 的 传 输 特 性( 频 率 响 应), 对 激 励 源 发 出 的 信 号 进 行 调 制, 再 经 过 辐 射 模 型 就 可 以 得 到 合 成 语 音。 这 就 是 共 振 峰 合 成 技 术 的 基 本 原 理。 基 于 共 振 峰 的 理 论 有 以 下 三 种 实 用 模 型。

----级 联 型 共 振 峰 模 型 在 该 模 型 中, 声 道 被 认 为 是 一 组 串 联 的 二 阶 谐 振 器。 该 模 型 主 要 用 于 绝 大 部 分 元 音 的 合 成。

----并 联 型 共 振 峰 模 型 许 多 研 究 者 认 为, 对 于 鼻 化 元 音 等 非 一 般 元 音 以 及 大 部 分 辅 音, 上 述 级 联 型 模 型 不 能 很 好 地 加 以 描 述 和 模 拟, 因 此, 构 筑 和 产 生 了 并 联 型 共 振 峰 模 型。

----混 合 型 共 振 峰 模 型 在 级 联 型 共 振 峰 合 成 模 型 中, 共 振 峰 滤 波 器 首 尾 相 接; 而 在 并 联 型 模 型 中, 输 入 信 号 先 分 别 通 过 幅 度 调 节 再 加 到 每 一 个 共 振 峰 滤 波 器 上, 然 后 将 各 路 的 输 出 叠 加 起 来。 将 两 者 比 较, 对 于 合 成 声 源 位 于 声 道 末 端 的 语 音( 大 多 数 的 元 音), 级 联 型 合 乎 语 音 产 生 的 声 学 理 论, 并 且 无 需 为 每 一 个 滤 波 器 分 设 幅 度 调 节; 而 对 于 合 成 声 源 位 于 声 道 中 间 的 语 音( 大 多 数 清 擦 音 和 塞 音), 并 联 型 则 比 较 合 适, 但 是 其 幅 度 调 节 很 复 杂。 基 于 此 种 考 虑, 人 们 将 两 者 结 合 在 一 起, 提 出 了 混 和 型 共 振 峰 模 型, 如 图2 所 示。

----事 实 上, 上 述 三 种 共 振 峰 模 型 在 实 际 中 都 得 到 了 成 功 的 应 用。 例 如:Fant 的OVE 系 统 就 采 用 了 级 联 型 的 共 振 峰 模 型;Holmes 合 成 器 采 用 的 是 并 联 型 的 共 振 峰 模 型; 而 最 为 典 型 也 是 最 为 成 功 的Klatt 合 成 器 则 构 筑 在 混 合 型 共 振 峰 模 型 的 基 础 之 上。

----在 汉 语 语 音 合 成 方 面, 研 究 人 员 研 制 出 了 一 些 基 于 共 振 峰 模 型 的 成 功 的 应 用 系 统。 如 社 科 院 语 言 所 的 SIFS 合 成 器、 中 科 院 声 学 所 的KX 1 系 统 中 基 于Holmes 的 并 联 型 共 振 峰 合 成 器 模 型, 而 同 样 由 中 科 院 声 学 所 开 发 的 第 二 代 共 振 峰 合 成 器KX FSS 则 基 于Klatt 合 成 器。

----共 振 峰 模 型 是 基 于 对 声 道 的 一 种 比 较 准 确 的 模 拟, 因 而 可 以 合 成 出 自 然 度 比 较 高 的 语 音, 另 外 由 于 共 振 峰 参 数 有 着 明 确 的 物 理 意 义, 直 接 对 应 于 声 道 参 数, 因 此, 可 以 容 易 利 用 共 振 峰 描 述 自 然 语 流 中 的 各 种 现 象, 并 且 总 结 声 学 规 则, 最 终 用 于 共 振 峰 合 成 系 统。

----但 是, 人 们 同 时 也 发 现 该 技 术 有 明 显 的 弱 点。 首 先 由 于 它 是 建 立 在 对 声 道 的 模 拟 上, 因 此, 对 于 声 道 模 型 的 不 精 确 势 必 会 影 响 其 合 成 质 量。 另 外, 实 际 工 作 表 明, 共 振 峰 模 型 虽 然 描 述 了 语 音 中 最 基 本 最 主 要 的 部 分, 但 并 不 能 表 征 影 响 语 音 自 然 度 的 其 他 许 多 细 微 的 语 音 成 分, 从 而 影 响 了 合 成 语 音 的 自 然 度。 另 外, 共 振 峰 合 成 器 控 制 十 分 复 杂, 对 于 一 个 好 的 合 成 器 来 说, 其 控 制 参 数 往 往 达 到 几 十 个, 实 现 起 来 十 分 困 难。

----基 于 这 些 原 因, 研 究 者 继 续 寻 求 和 发 现 其 他 新 的 合 成 技 术。 人 们 从 波 形 的 直 接 录 制 和 播 放 得 到 启 发, 提 出 了 基 于 波 形 拼 接 的 合 成 技 术,LPC 合 成 技 术 和PSOLA 合 成 技 术 是 其 中 的 代 表。 与 共 振 峰 合 成 技 术 不 同, 波 形 拼 接 合 成 是 基 于 对 录 制 的 合 成 基 元 的 波 形 进 行 拼 接, 而 不 是 基 于 对 发 声 过 程 的 模 拟。

LPC 参 数 合 成

----波 形 拼 接 技 术 的 发 展 与 语 音 的 编、 解 码 技 术 的 发 展 密 不 可 分, 其 中LPC 技 术( 线 性 预 测 编 码 技 术) 的 发 展 对 波 形 拼 接 技 术 产 生 了 巨 大 的 影 响。

----LPC 合 成 技 术 本 质 上 是 一 种 时 间 波 形 的 编 码 技 术, 目 的 是 为 了 降 低 时 间 域 信 号 的 传 输 速 率。

----对 于 利 用LPC 合 成 技 术 来 进 行 汉 语 语 音 合 成 和 汉 语 文 语 转 换 的 研 究, 中 科 院 声 学 所 在 这 方 面 做 了 大 量 的 工 作。1987 年, 他 们 引 进 了 多 脉 冲 激 励LPC 技 术,1989 年 又 引 入 矢 量 量 化, 之 后,1993 年, 他 们 引 入 码 激 励 技 术, 他 们 的 这 些 工 作 对 于LPC 合 成 技 术 在 汉 语 合 成 方 面 的 运 用 做 出 了 重 要 的 贡 献。

----LPC 合 成 技 术 的 优 点 是 简 单 直 观。 其 合 成 过 程 实 质 上 只 是 一 种 简 单 的 解 码 和 拼 接 过 程。 另 外, 由 于 波 形 拼 接 技 术 的 合 成 基 元 是 语 音 的 波 形 数 据, 保 存 了 语 音 的 全 部 信 息, 因 而 对 于 单 个 合 成 基 元 来 说 能 够 获 得 很 高 的 自 然 度。

----但 是, 由 于 自 然 语 流 中 的 语 音 和 孤 立 状 况 下 的 语 音 有 着 极 大 的 区 别, 如 果 只 是 简 单 地 把 各 个 孤 立 的 语 音 生 硬 地 拼 接 在 一 起, 其 整 个 语 流 的 质 量 势 必 是 不 太 理 想 的。 而LPC 技 术 从 本 质 上 来 说 只 是 一 种 录 音 + 重 放, 对 于 合 成 整 个 连 续 语 流LPC 合 成 技 术 的 效 果 是 不 理 想 的。 因 此,LPC 合 成 技 术 必 须 和 其 他 技 术 相 结 合, 才 能 明 显 改 善LPC 合 成 的 质 量。

----一 种 典 型 的 基 于 单 音 节 和VQLPC( 矢 量 量 化 的LPC) 技 术 的 文 语 转 换 系 统 原 理 图 如 图3 所 示。

PSOLA 合 成 技 术

----20 世 纪80 年 代 末 提 出 的PSOLA 合 成 技 术( 基 音 同 步 叠 加 技 术) 给 波 形 拼 接 合 成 技 术 注 入 了 新 的 活 力。PSOLA 技 术 着 眼 于 对 语 音 信 号 超 时 段 特 征 的 控 制, 如 基 频、 时 长、 音 强 等 的 控 制。 而 这 些 参 数 对 于 语 音 的 韵 律 控 制 以 及 修 改 是 至 关 重 要 的, 因 此,PSOLA 技 术 比LPC 技 术 具 有 可 修 改 性 更 强 的 优 点, 可 以 合 成 出 高 自 然 度 的 语 音。

----PSOLA 技 术 的 主 要 特 点 是: 在 拼 接 语 音 波 形 片 断 之 前, 首 先 根 据 上 下 文 的 要 求, 用PSOLA 算 法 对 拼 接 单 元 的 韵 律 特 征 进 行 调 整, 使 合 成 波 形 既 保 持 了 原 始 发 音 的 主 要 音 段 特 征, 又 能 使 拼 接 单 元 的 韵 律 特 征 符 合 上 下 文 的 要 求, 从 而 获 得 很 高 的 清 晰 度 和 自 然 度。

----如 何 将PSOLA 技 术 应 用 于 汉 语 文 语 转 换 系 统, 国 内 许 多 学 校 和 科 研 单 位 对 此 进 行 了 大 量 广 泛 深 入 的 研 究。 清 华 大 学、 北 方 交 大、 中 科 院 声 学 所 等 在 对PSOLA 技 术 研 究 的 基 础 上, 先 后 开 发 出 了 基 于 波 形 拼 接 的 汉 语 文 语 转 换 系 统, 并 且 对 于 如 何 进 一 步 完 善 该 技 术, 如 何 进 一 步 改 善 合 成 语 音 的 自 然 度 等 都 提 出 了 一 些 具 体 措 施。

----PSOLA 技 术 保 持 了 传 统 波 形 拼 接 技 术 的 优 点, 简 单 直 观, 运 算 量 小, 而 且 还 能 方 便 地 控 制 语 音 信 号 的 韵 律 参 数, 具 有 合 成 自 然 连 续 语 流 的 条 件, 得 到 了 广 泛 的 应 用。

----但 是,PSOLA 技 术 也 有 其 缺 点。 首 先, PSOLA 技 术 是 一 种 基 音 同 步 的 语 音 分 析/ 合 成 技 术, 首 先 需 要 准 确 的 基 因 周 期 以 及 对 其 起 始 点 的 判 定。 基 音 周 期 或 其 起 始 点 的 判 定 误 差 将 会 影 响PSOLA 技 术 的 效 果。 其 次,PSOLA 技 术 是 一 种 简 单 的 波 形 映 射 拼 接 合 成, 这 种 拼 接 是 否 能 够 保 持 平 稳 过 渡 以 及 它 对 频 域 参 数 有 什 么 影 响 等 并 没 有 得 到 解 决, 因 此, 在 合 成 时 会 产 生 不 理 想 的 结 果。

LMA 声 道 模 型

----随 着 人 们 对 语 音 合 成 的 自 然 度 和 音 质 的 要 求 越 来 越 高,PSOLA 算 法 表 现 出 对 韵 律 参 数 调 整 能 力 较 弱 和 难 以 处 理 协 同 发 音 的 缺 陷, 因 此, 人 们 又 提 出 了 一 种 基 于LMA 声 道 模 型 的 语 音 合 成 方 法。 这 种 方 法 具 有 传 统 的 参 数 合 成 可 以 灵 活 调 节 韵 律 参 数 的 优 点, 同 时 又 具 有 比PSOLA 算 法 更 高 的 合 成 音 质。

----目 前, 主 要 的 语 音 合 成 技 术 是 共 振 峰 合 成 技 术 和 基 于PSOLA 算 法 的 波 形 拼 接 合 成 技 术。 这 两 种 技 术 各 有 所 长, 共 振 峰 技 术 比 较 成 熟, 有 大 量 的 研 究 成 果 可 以 利 用, 而 PSOLA 技 术 则 是 比 较 新 的 技 术, 具 有 良 好 的 发 展 前 景。

----过 去 这 两 种 技 术 基 本 上 是 互 相 独 立 发 展 的, 现 在 许 多 学 者 开 始 研 究 它 们 两 者 之 间 的 关 系, 试 图 将 两 者 有 效 地 结 合 起 来, 从 而 合 成 出 更 加 自 然 的 语 流。 例 如 清 华 大 学 的 研 究 人 员 进 行 了 将 共 振 峰 修 改 技 术 应 用 于PSOLA 算 法 的 研 究, 并 用 于Sonic 系 统 的 改 进, 研 制 出 了 具 有 更 高 自 然 度 的 汉 语 文 语 转 换 系 统。

 



相关链接:
语音合成——灿烂的前景 巨大的商机 2002-01-30
语音合成技术及国内外发展现状 2002-01-30
Evoice有声电子邮件系统 2002-01-30
语音合成系统的关键技术 2002-01-30
语音合成技术应用实例 2002-01-30

分类信息:     技术_语音合成_文摘