首页>>>技术>>>语音应用>>>语音合成(TTS)  语音合成产品


语音合成系统的关键技术

清华大学计算机系智能技术与系统国家重点实验室

陶建华 蔡莲红

---- 计 算 机 语 音 合 成 系 统 又 称 文 语 转 换 系 统(TTS 系 统), 它 的 主 要 功 能 是 将 计 算 机 中 任 意 出 现 的 文 字 转 换 成 自 然 流 畅 的 语 音 输 出。 一 般 认 为, 语 音 合 成 系 统 包 括 三 个 主 要 的 组 成 部 分: 文 本 分 析 模 块、 韵 律 生 成 模 块 和 声 学 模 块。

文 本 分 析

----语 音 合 成 系 统 首 先 处 理 的 是 文 字, 也 就 是 它 要 说 的 内 容。 文 本 分 析 的 主 要 功 能 是 使 计 算 机 能 从 这 些 文 本 中 认 识 文 字, 进 而 知 道 要 发 什 么 音、 怎 么 发 音, 并 将 发 音 的 方 式 告 诉 计 算 机。 另 外, 还 要 让 计 算 机 知 道, 在 文 本 中, 哪 些 是 词, 哪 些 是 短 语 或 句 子, 发 音 时 应 该 到 哪 里 停 顿 及 停 顿 多 长 时 间 等。 其 工 作 过 程 可 以 分 为 三 个 主 要 步 骤:

----(1) 将 输 入 的 文 本 规 范 化。 在 这 个 过 程 中, 要 查 找 拼 写 错 误, 并 将 文 本 中 出 现 的 一 些 不 规 范 或 无 法 发 音 的 字 符 过 滤 掉。

----(2) 分 析 文 本 中 词 或 短 语 的 边 界, 确 定 文 字 的 读 音, 同 时 分 析 文 本 中 出 现 的 数 字、 姓 氏、 特 殊 字 符、 专 有 词 语 以 及 各 种 多 音 字 的 读 音 方 式。

----(3) 根 据 文 本 的 结 构、 组 成 和 不 同 位 置 上 出 现 的 标 点 符 号, 确 定 发 音 时 语 气 的 变 换 以 及 不 同 音 的 轻 重 方 式。

----最 终, 文 本 分 析 模 块 将 输 入 的 文 字 转 换 成 计 算 机 能 够 处 理 的 内 部 参 数, 便 于 后 续 模 块 进 一 步 处 理 并 生 成 相 应 的 信 息。

----传 统 的 文 本 分 析 主 要 是 基 于 规 则(Rule  based) 的 实 现 方 法。 其 主 要 思 路 是 尽 可 能 地 将 文 字 中 的 分 词 规 范、 发 音 方 式 罗 列 起 来, 并 总 结 出 规 则, 依 靠 这 些 规 则 进 行 文 本 处 理, 以 获 得 需 要 的 参 数。 具 有 代 表 性 的 方 法 有: 最 大 匹 配 法、 反 向 最 大 匹 配 法、 逐 词 遍 历 法、 最 佳 匹 配 法、 二 次 扫 描 法 等。 这 些 方 法 的 优 点 在 于 结 构 较 为 简 单、 直 观, 易 于 实 现; 缺 点 是 需 要 大 量 的 时 间 去 总 结 规 则, 且 模 块 性 能 的 好 坏 严 重 依 赖 于 设 计 人 员 的 经 验 以 及 他 们 的 背 景 知 识。 由 于 这 些 方 法 能 取 得 较 好 的 分 析 效 果, 因 此, 直 到 目 前, 它 们 依 然 被 广 泛 使 用。

----但 是 近 几 年 来, 随 着 计 算 机 领 域 中 数 据 挖 掘 技 术 的 发 展, 许 多 统 计 学 方 法 以 及 人 工 神 经 网 络 技 术 在 计 算 机 数 据 处 理 领 域 中 获 得 了 成 功 的 应 用, 计 算 机 从 大 量 数 据 中 自 动 提 取 规 律 已 完 全 可 能 并 正 在 实 现。 在 此 背 景 下, 出 现 了 基 于 数 据 驱 动(Data driven) 的 文 本 分 析 方 法, 具 有 代 表 性 的 有: 二 元 文 法 法(Di Grammar Method)、 三 元 文 法 法(Tri Grammar Method)、 隐 马 尔 可 夫 模 型 法(HMM Method) 和 神 经 网 络 法(Neural Network Method) 等。 一 些 比 较 著 名 的 系 统, 如IBM 的 语 音 产 品 就 采 用 了 隐 马 尔 可 夫 模 型 法。 这 类 方 法 的 特 点 是, 设 计 人 员 根 据 统 计 学 或 人 工 神 经 网 络 方 面 的 知 识, 设 计 出 一 种 可 训 练 的 模 型, 并 用 大 量 已 经 存 在 的 数 据 去 训 练, 将 训 练 得 到 的 模 型 用 于 文 本 分 析, 而 系 统 设 计 人 员 并 不 需 要 太 强 的 语 言 学 背 景 知 识。 对 于 工 程 技 术 人 员 来 说, 这 类 方 法 无 疑 减 轻 了 他 们 研 究 语 言 学 的 负 担。 目 前, 这 类 方 法 在 文 本 分 析 精 度 上, 已 达 到 或 部 分 超 过 了 基 于 规 则 系 统 的 分 析 结 果, 且 容 易 实 现 多 语 种 的 混 合, 因 而 越 来 越 广 泛 地 被 接 受 并 使 用。 这 类 方 法 的 缺 点 在 于, 尽 管 系 统 容 易 获 得 文 本 信 息 的 共 同 特 征, 但 忽 略 了 一 些 个 性, 而 往 往 这 些 个 别 因 素 对 最 终 的 发 音 方 式 影 响 很 大。 因 此, 有 些 系 统 采 取 了 两 类 方 法 相 结 合 的 方 式。

韵 律 生 成

----任 何 人 说 话 都 有 韵 律 特 征, 比 如 在 汉 语 中, 音 节 有 不 同 的 声 调、 语 气 和 停 顿 方 式, 发 音 长 短 也 各 不 相 同, 这 些 都 属 于 韵 律 特 征。 韵 律 参 数 则 包 括 了 能 影 响 这 些 特 征 的 声 学 参 数, 如 基 频、 时 长、 音 强 等。

----文 本 分 析 的 结 果 只 是 告 诉 了 计 算 机 发 什 么 音, 以 及 以 什 么 方 式 发 音, 这 种 发 音 方 式 还 只 是 抽 象 的。 而 要 发 音 的 声 调 是 二 声 还 是 三 声, 是 重 读 还 是 轻 读, 到 哪 里 停 顿, 等 等, 这 些 最 终 系 统 用 来 进 行 声 信 号 合 成 的 具 体 韵 律 参 数 还 要 依 靠 韵 律 生 成 模 块。 与 文 本 分 析 的 实 现 方 法 相 类 似, 韵 律 的 生 成 方 法 也 分 为 基 于 规 则 和 数 据 驱 动 两 种 方 法。

----早 期 的 韵 律 生 成 方 法 均 采 用 基 于 规 则 的 方 法。 这 种 方 法 要 求 研 究 人 员 有 大 量 的 音 韵 学 背 景 知 识, 需 要 对 在 各 种 特 定 的 情 况 下, 如 声 音 在 句 子 中 的 不 同 位 置、 不 同 声 调 及 句 子 的 不 同 语 气 甚 至 是 不 同 的 词 性 下, 对 基 频、 时 长 和 音 强 等 各 个 声 学 参 数 变 化 的 详 细 情 况 加 以 总 结、 归 纳。 由 于 各 个 语 种 的 韵 律 特 征 不 同, 因 此, 针 对 不 同 的 语 种, 必 须 找 出 与 该 语 种 相 关 联 的 韵 律 特 征。 目 前, 基 于 规 则 的 方 法 仍 然 被 认 作 是 行 之 有 效 的 方 法, 大 部 分 汉 语 语 音 合 成 系 统 依 然 采 用 这 种 方 法。 虽 然 经 过 研 究 者 的 努 力, 这 种 方 法 能 达 到 较 好 的 韵 律 生 成 效 果, 但 它 也 受 到 很 多 限 制。 如 前 所 述, 基 于 规 则 的 方 法 要 求 系 统 设 计 人 员 花 费 大 量 的 时 间 和 精 力 去 研 究 不 同 语 种 普 遍 存 在 的 韵 律 特 征, 而 这 是 一 个 非 常 耗 时 的 工 作, 且 由 于 规 则 的 复 杂 性, 其 生 成 语 音 的 自 然 度 也 受 到 较 多 的 限 制, 也 就 限 制 了 它 的 一 些 性 能。 另 外, 基 于 规 则 的 系 统 方 法 往 往 只 追 求 发 音 的 自 然, 而 掩 盖 了 人 的 个 性。 如 让 系 统 模 拟 某 一 特 定 人 的 发 音, 就 显 得 无 力, 除 非 是 针 对 专 人 设 计 的 一 些 专 用 模 型。

----目 前, 通 过 神 经 网 络 或 统 计 驱 动 的 方 法 进 行 韵 律 生 成 已 获 得 成 功 的 应 用。Siemens 和Motorola 公 司 均 采 用 或 试 验 了 此 技 术。 在 国 内, 清 华 大 学 计 算 机 系 在 这 方 面 也 进 行 了 大 量 的 研 究, 其 研 究 成 果 已 接 近 实 用 阶 段。 其 实 现 步 骤 是: 首 先 设 计 或 收 集 一 个 包 含 大 量 语 音 和 文 本 信 息 的 数 据, 然 后 建 立 一 个 训 练 模 型, 并 用 从 数 据 库 中 提 取 出 的 韵 律 参 数 对 模 型 进 行 训 练, 通 过 训 练 而 得 到 最 终 的 韵 律 模 型。 这 种 模 型 的 优 点 在 于: 在 保 持 甚 至 增 强 了 系 统 的 韵 律 生 成 能 力 的 同 时, 极 大 地 改 善 了 整 个 语 音 合 成 系 统 的 灵 活 性, 便 于 模 拟 某 一 特 定 人 的 韵 律 特 征, 且 为 在 同 一 个 语 音 合 成 系 统 中 整 合 多 语 种 创 造 了 条 件。 事 实 上, 有 关 研 究 人 员 正 在 尝 试 使 用 这 一 方 法 将 汉 语 和 其 他 西 方 语 言 整 合 到 一 套 系 统 上。

----图1 和 图2 分 别 反 映 了 基 于 规 则 和 基 于 数 据 驱 动 韵 律 模 型 的 建 立 与 工 作 过 程。

语 音 生 成

----系 统 知 道 了 要 说 什 么 并 掌 握 了 韵 律 控 制 参 数 后, 它 是 如 何 使 计 算 机 发 声 的 呢 ?

----系 统 产 生 的 合 成 语 音 是 通 过 一 个 声 学 模 块 来 具 体 实 现 的。 早 期 语 音 合 成 系 统 的 声 学 模 型 多 是 通 过 模 拟 人 的 口 腔 的 声 道 特 性 来 产 生 的。 其 中 比 较 著 名 的 有Klatt 的 共 振 峰(Formant) 合 成 系 统, 后 来 又 产 生 了 基 于LPC、LSP 和LMA 等 声 学 参 数 的 合 成 系 统, 这 些 都 可 以 归 结 为 参 数 合 成 系 统。 使 用 这 些 方 法 建 立 声 学 模 型 的 过 程 是: 首 先 录 制 声 音, 这 些 声 音 涵 盖 了 人 发 音 过 程 中 所 有 可 能 出 现 的 读 音; 然 后, 提 取 出 这 些 声 音 的 声 学 参 数, 并 整 合 成 一 个 完 整 的 音 库。 在 发 音 过 程 中, 首 先 根 据 发 音 需 要 从 音 库 中 选 择 合 适 的 声 学 参 数, 然 后 根 据 从 韵 律 模 型 中 得 到 的 韵 律 参 数, 通 过 合 成 算 法 产 生 语 音。 参 数 合 成 方 法 的 优 点 是 其 音 库 一 般 较 小, 并 且 整 个 系 统 能 适 应 的 韵 律 特 征 的 范 围 较 宽, 但 其 合 成 语 音 的 音 质 却 往 往 受 到 一 定 的 限 制。

----近10 年 来, 采 用 波 形 拼 接(PSOLA) 合 成 语 音 的 方 法 越 来 越 被 广 泛 应 用。 这 种 方 法 的 核 心 思 想 是 直 接 对 存 储 于 音 库 的 语 音 运 用PSOLA 算 法 进 行 拼 接, 从 而 整 合 成 完 整 的 语 音。 有 别 于 传 统 概 念 中 只 是 将 不 同 的 语 音 单 元 进 行 简 单 拼 接, 该 系 统 首 先 要 在 大 量 语 音 库 中, 选 择 最 合 适 的 语 音 单 元 用 于 拼 接, 并 且 在 选 音 过 程 中 往 往 采 用 多 种 复 杂 的 技 术, 包 括 多 项 统 计 学 上 的 技 术 或 神 经 网 络 技 术, 最 后 在 拼 接 时, 使 用PSOLA 算 法, 对 其 合 成 语 音 的 韵 律 特 征 进 行 修 改, 而 使 合 成 的 语 音 达 到 了 很 高 的 音 质。 如 日 本ATR 推 出 的 多 语 种 语 音 合 成 系 统, 就 采 用 了 统 计 学 上 的 隐 马 尔 可 夫 模 型 来 进 行 选 音。 其 他 的 一 些 主 要 语 音 产 品, 如Siemens 的Papageno 系 统, 也 采 用 了 类 似 或 相 关 的 技 术。

----但 基 于 波 形 拼 接 方 法 的 系 统 仍 存 在 一 些 问 题, 即 它 的 音 库 往 往 非 常 庞 大, 需 要 占 据 较 大 的 存 储 空 间。 这 对 将 系 统 推 广 到 掌 上 型 电 脑 或 一 些 小 的 终 端 设 备 上 非 常 不 利。 另 外, 在 拼 接 时, 两 个 相 邻 的 声 音 单 元 之 间 谱 的 不 连 续, 也 容 易 造 成 合 成 音 质 的 下 降。 目 前, 解 决 这 些 问 题 较 好 的 途 径 是 将 其 与 参 数 合 成 方 法 相 结 合。 在 此 基 础 上 又 诞 生 了 一 些 新 的 模 型, 如 基 音 同 步 的Sinusoidal 模 型 等, 这 些 对 进 一 步 改 善 系 统 的 性 能 提 供 了 帮 助。 但 目 前 这 些 工 作 还 基 本 处 于 研 究 或 实 验 室 阶 段。

----计 算 机 语 音 合 成 技 术 经 过 近10 年 的 飞 速 发 展, 从 传 统 的 规 则 合 成 技 术 发 展 到 现 在 的 基 于 大 语 料 和 数 据 驱 动 的 技 术。 系 统 也 从 单 一 语 种 发 展 到 多 语 种, 而 且 越 来 越 灵 活。 进 一 步 提 高 合 成 语 音 的 自 然 程 度, 依 然 是 研 究 工 作 者 的 主 要 目 标 之 一。 目 前, 其 他 计 算 机 领 域 的 研 究 发 展, 如 数 据 挖 掘 技 术、 自 然 语 言 理 解 技 术、 信 号 处 理 技 术 等, 正 不 断 地 向 语 音 合 成 领 域 加 速 渗 透, 并 极 大 地 推 动 着 语 音 合 成 系 统 朝 着 像 人 一 样 自 然 流 畅 地 说 话、 学 习 并 自 动 模 拟 的 方 向 发 展。

 



相关链接:
语音合成——灿烂的前景 巨大的商机 2002-01-30
语音合成技术及国内外发展现状 2002-01-30
Evoice有声电子邮件系统 2002-01-30
语音合成技术应用实例 2002-01-30
语音合成技术的原理 2002-01-30

分类信息:     技术_语音合成_文摘