首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品


语音识别技术的发展趋势

北京双语教育电子有限公司

    语 音 识 别 技 术 并 不 是 一 夜 之 间 冒 出 来 的 神 话, 早 在 三 四 十 年 前, 在 美 国 的 一 些 大 学 和 研 究 单 位, 就 已 经 有 人 开 始 从 事 这 一 方 向 的 研 究, 并 有 一 些 相 关 论 文 发 表; 七 十 年 代 前 后, 研 究 的 脉 络 日 渐 清 晰, 于 是 贝 尔 实 验 室 和 国 际 商 用 机 器 公 司 (IBM) 等 都 先 后 建 立 了 专 门 的 研 究 机 构。 今 天 这 两 家 公 司 在 这 一 领 域 都 已 取 得 了 显 著 的 成 果, 并 且 在 商 业 上 应 用 成 功, 但 贝 尔 实 验 室 主 要 是 偏 重 于 电 信 方 面 应 用 的 语 音 识 别 系 统, 如 电 话 查 询 等; 而 IBM 则 偏 重 于 商 务 应 用, 因 而 在 连 续 语 音 识 别 上 取 得 了 不 小 的 成 功。

    不 谈 商 业 方 面 的 应 用, 事 实 上, 很 多 家 公 司 都 提 供 语 音 识 别 的 引 擎 (Engine), 并 且 都 表 示 能 支 持 微 软 的SAPI。 看 一 看 SAPI4.0 SUITE 就 不 难 发 现, 微 软 在 这 方 面 的 研 究 并 不 逊 于 任 何 一 家 公 司, 只 是 很 奇 怪 它 居 然 没 有 将 成 果 商 业 化。 微 软 同 时 提 供 了 一 系 列 引 擎, 如 Speech Recognition ( 语 音 识 别)、Command & Control ( 发 布 指 令 并 控 制)、Phone Query ( 电 话 语 音 识 别)、Text to speech( 文 本 语 音 转 换) 等。

    今 天, 许 多 用 户 已 经 能 享 受 到 语 音 技 术 的 优 势 了, 可 以 对 计 算 机 发 送 命 令, 或 者 要 求 计 算 机 记 录 下 用 户 所 说 的 话, 以 及 将 文 本 转 换 成 声 音 朗 读 出 来。 尽 管 如 此, 距 离 真 正 的 人 机 自 由 交 流 的 前 景 似 乎 还 远。 目 前, 计 算 机 还 需 要 对 用 户 作 大 量 训 练 才 能 识 别 用 户 的 语 音。 并 且, 识 别 率 也 并 不 总 是 尽 如 人 意。 换 言 之, 语 音 识 别 技 术 还 有 一 段 路 需 要 走, 要 做 到 真 正 成 功 的 商 业 化, 它 还 必 须 在 很 多 方 面 取 得 突 破 性 进 展, 这 实 际 就 是 其 技 术 的 未 来 走 向。

    1、 就 算 法 模 型 方 面 而 言, 需 要 有 进 一 步 的 突 破。 目 前 能 看 出 它 的 一 些 明 显 不 足, 尤 其 在 中 文 语 音 识 别 方 面, 语 言 模 型 还 有 待 完 善, 因 为 语 言 模 型 和 声 学 模 型 正 是 听 写 识 别 的 基 础, 这 方 面 没 有 突 破, 语 音 识 别 的 进 展 就 只 能 是 一 句 空 话。 目 前 使 用 的 语 言 模 型 只 是 一 种 概 率 模 型, 还 没 有 用 到 以 语 言 学 为 基 础 的 文 法 模 型, 而 要 使 计 算 机 确 实 理 解 人 类 的 语 言, 就 必 须 在 这 一 点 上 取 得 进 展, 这 是 一 个 相 当 艰 苦 的 工 作。 此 外, 随 着 硬 件 资 源 的 不 断 发 展, 一 些 核 心 算 法 如 特 征 提 取、 搜 索 算 法 或 者 自 适 应 算 法 将 有 可 能 进 一 步 改 进。 可 以 相 信, 半 导 体 和 软 件 技 术 的 共 同 进 步 将 为 语 音 识 别 技 术 的 基 础 性 工 作 带 来 福 音。

    2、 就 自 适 应 方 面 而 言, 语 音 识 别 技 术 也 有 待 进 一 步 改 进。 目 前, 象 IBM 的 ViaVoice 和 Asiaworks 的 SPK 都 需 要 用 户 在 使 用 前 进 行 几 百 句 话 的 训 练, 以 让 计 算 机 适 应 你 的 声 音 特 征。 这 必 然 限 制 了 语 音 识 别 技 术 的 进 一 步 应 用, 大 量 的 训 练 不 仅 让 用 户 感 到 厌 烦, 而 且 加 大 了 系 统 的 负 担。 并 且, 不 能 指 望 将 来 的 消 费 电 子 应 用 产 品 也 针 对 单 个 消 费 者 进 行 训 练。 因 此, 必 须 在 自 适 应 方 面 有 进 一 步 的 提 高, 做 到 不 受 特 定 人、 口 音 或 者 方 言 的 影 响, 这 实 际 上 也 意 味 着 对 语 言 模 型 的 进 一 步 改 进。 现 实 世 界 的 用 户 类 型 是 多 种 多 样 的, 就 声 音 特 征 来 讲 有 男 音、 女 音 和 童 音 的 区 别, 此 外, 许 多 人 的 发 音 离 标 准 发 音 差 距 甚 远, 这 就 涉 及 到 对 口 音 或 方 言 的 处 理。 如 果 语 音 识 别 能 做 到 自 动 适 应 大 多 数 人 的 声 线 特 征, 那 可 能 比 提 高 一 二 个 百 分 点 识 别 率 更 重 要。 事 实 上,ViaVoice 的 应 用 前 景 也 因 为 这 一 点 打 了 折 扣, 只 有 普 通 话 说 得 很 好 的 用 户 才 可 以 在 其 中 文 版 连 续 语 音 识 别 方 面 取 得 相 对 满 意 的 成 绩。

    3、 就 强 健 性 方 面 而 言, 语 音 识 别 技 术 需 要 能 排 除 各 种 环 境 因 素 的 影 响。 目 前, 对 语 音 识 别 效 果 影 响 最 大 的 就 是 环 境 杂 音 或 嗓 音, 在 公 共 场 合, 你 几 乎 不 可 能 指 望 计 算 机 能 听 懂 你 的 话, 来 自 四 面 八 方 的 声 音 让 它 茫 然 而 不 知 所 措。 很 显 然 这 极 大 地 限 制 了 语 音 技 术 的 应 用 范 围, 目 前, 要 在 嘈 杂 环 境 中 使 用 语 音 识 别 技 术 必 须 有 特 殊 的 抗 嗓 (Noise Cancellation) 麦 克 风 才 能 进 行, 这 对 多 数 用 户 来 说 是 不 现 实 的。 在 公 共 场 合 中, 个 人 能 有 意 识 地 摒 弃 环 境 嗓 音 并 从 中 获 取 自 己 所 需 要 的 特 定 声 音, 如 何 让 语 音 识 别 技 术 也 能 达 成 这 一 点 呢 ? 这 的 确 是 一 个 艰 巨 的 任 务。

    此 外, 带 宽 问 题 也 可 能 影 响 语 音 的 有 效 传 送, 在 速 率 低 于 1000 比 特/ 秒 的 极 低 比 特 率 下, 语 音 编 码 的 研 究 将 大 大 有 别 于 正 常 情 况, 比 如 要 在 某 些 带 宽 特 别 窄 的 信 道 上 传 输 语 音, 以 及 水 声 通 信、 地 下 通 信、 战 略 及 保 密 话 音 通 信 等, 要 在 这 些 情 况 下 实 现 有 效 的 语 音 识 别, 就 必 须 处 理 声 音 信 号 的 特 殊 特 征, 如 因 为 带 宽 而 延 迟 或 减 损 等。 语 音 识 别 技 术 要 进 一 步 应 用, 就 必 须 在 强 健 性 方 面 有 大 的 突 破。

    4、 多 语 言 混 合 识 别 以 及 无 限 词 汇 识 别 方 面: 简 单 地 说, 目 前 使 用 的 声 学 模 型 和 语 音 模 型 太 过 于 局 限, 以 至 用 户 只 能 使 用 特 定 语 音 进 行 特 定 词 汇 的 识 别。 如 果 突 然 从 中 文 转 为 英 文, 或 者 法 文、 俄 文, 计 算 机 就 会 不 知 如 何 反 应, 而 给 出 一 堆 不 知 所 云 的 句 子; 或 者 用 户 偶 尔 使 用 了 某 个 专 门 领 域 的 专 业 术 语, 如" 信 噪 比" 等, 可 能 也 会 得 到 奇 怪 的 反 应。 这 一 方 面 是 由 于 模 型 的 局 限, 另 一 方 面 也 受 限 于 硬 件 资 源。 随 着 两 方 面 的 技 术 的 进 步, 将 来 的 语 音 和 声 学 模 型 可 能 会 做 到 将 多 种 语 言 混 合 纳 入, 用 户 因 此 就 可 以 不 必 在 语 种 之 间 来 回 切 换。 此 外, 对 于 声 学 模 型 的 进 一 步 改 进, 以 及 以 语 义 学 为 基 础 的 语 言 模 型 的 改 进, 也 能 帮 助 用 户 尽 可 能 少 或 不 受 词 汇 的 影 响, 从 而 可 实 行 无 限 词 汇 识 别。

    5、 多 语 种 交 流 系 统 的 应 用: 最 终, 语 音 识 别 是 要 进 一 步 拓 展 我 们 的 交 流 空 间, 让 我 们 能 更 加 自 由 地 面 对 这 个 世 界。 可 以 想 见, 如 果 语 音 识 别 技 术 在 上 述 几 个 方 面 确 实 取 得 了 突 破 性 进 展, 那 么 多 语 种 交 流 系 统 的 出 现 就 是 顺 理 成 章 的 事 情, 这 将 是 语 音 识 技 术、 机 器 翻 译 技 术 以 及 语 音 合 成 技 术 的 完 美 结 合, 而 如 果 硬 件 技 术 的 发 展 能 将 这 些 算 法 进 而 固 化 到 更 为 细 小 的 芯 片, 比 如 手 持 移 动 设 备 上, 那 么 个 人 就 可 以 带 着 这 种 设 备 周 游 世 界 而 无 需 担 心 任 何 交 流 的 困 难, 你 说 出 你 想 表 达 的 意 思, 手 持 设 备 同 时 识 别 并 将 它 翻 译 成 对 方 的 语 言, 然 后 合 成 并 发 送 出 去; 同 时 接 听 对 方 的 语 言, 识 别 并 翻 译 成 已 方 的 语 言, 合 成 后 朗 读 给 你 听, 所 有 这 一 切 几 乎 都 是 同 时 进 行 的, 只 是 机 器 充 当 着 主 角。


    任 何 技 术 的 进 步 都 是 为 了 更 进 一 步 拓 展 我 们 人 类 的 生 存 和 交 流 空 间, 以 使 我 们 获 得 更 大 的 自 由, 就 服 务 于 人 类 而 言, 这 一 点 显 然 也 是 语 音 识 别 技 术 的 发 展 方 向, 而 为 了 达 成 这 一 点, 它 还 需 要 在 上 述 几 个 方 面 取 得 突 破 性 进 展, 要 实 现 这 一 点,Intel 架 构 平 台 的 性 能 进 步 也 是 一 个 关 键 的 因 素, 最 终, 多 语 种 自 由 交 流 系 统 将 带 给 我 们 全 新 的 生 活 空 间。

 



相关链接:
主要语音引擎及开发工具 2002-01-30
声扬语音识别系列开发工具 2002-01-30
ASR:“说得出做得到” 2002-01-30
IBM ViaVoice语音软件开发工具 2002-01-30
语音识别的应用前景 2002-01-30

分类信息:     技术_语音识别_文摘