首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品


语音辨识基础知识

近 年 来 , 由 于 电 脑 在 软 件 上 的 长 足 进 步 , 类 似 电 视 影 集 霹 雳 游 侠 中 李 麦 克 与 霹 雳 车 伙 计 之 间 能 够 使 用 人 类 语 言 和 电 脑 沟 通 的 情 节 已 不 再 是 梦 想 , 语 音 辨 识 科 技 这 一 两 年 来 已 慢 慢 从 实 验 室 里 的 研 究 走 入 到 我 们 的 生 活 之 中 。 声 硕 科 技 通 过 台 湾 大 学 李 琳 山 教 授 在 中 文 语 音 辨 识 方 面 研 究 成 果 , 专 注 于 语 音 辨 识 技 术 的 商 品 化 , 目 前 是 华 人 地 区 唯 一 掌 握 中 文 语 音 辨 识 核 心 并 推 出 产 品 的 公 司 。

什 么 是 语 音 辨 识

语 音 辩 识 最 基 本 的 定 义 , 就 是 “ 电 脑 能 听 懂 人 类 说 话 的 语 句 或 命 令 , 而 做 出 相 对 应 的 工 作 ” 。 也 就 是 说 , 如 果 电 脑 配 置 有 “ 语 音 辨 识 ” 的 程 序 组 , 那 么 当 你 的 声 音 通 过 一 个 转 换 装 置 输 入 电 脑 内 部 、 并 以 数 位 方 式 储 存 后 , 语 音 辨 识 程 序 便 开 始 以 你 输 入 的 声 音 样 本 与 事 先 储 存 好 的 声 音 样 本 进 行 对 比 工 作 。 声 音 对 比 工 作 完 成 之 后 , 电 脑 就 会 输 入 一 个 它 认 为 最 “ 象 ” 的 声 音 样 本 序 号 , 就 可 以 知 道 你 刚 才 念 的 声 音 是 什 么 意 义 , 进 而 执 行 此 命 令 。 说 起 来 简 单 , 但 要 真 正 建 立 辨 识 率 高 的 语 音 辨 识 程 序 组 , 却 是 非 常 困 难 而 专 业 的 , 世 界 各 地 的 学 者 们 也 还 在 努 力 研 究 最 好 的 方 式 。 例 如 , “ 声 音 样 本 ” 要 如 何 建 立 呢 ? 简 单 来 说 , 如 果 要 辨 识 10 个 字 , 那 就 是 先 把 这 10 个 字 的 声 音 念 入 电 脑 中 , 存 成 10 个 参 考 样 本 , 辨 识 时 , 只 要 把 本 次 所 念 的 声 音 ( 测 试 样 本 ) 与 事 先 存 好 的 10 个 参 考 样 本 一 一 对 比 , 找 出 与 测 试 样 本 最 象 的 样 本 , 即 可 把 测 试 样 本 辨 识 出 来 ; 问 题 是 , 每 个 使 用 者 念 入 电 脑 的 语 音 长 度 、 音 调 、 频 率 都 不 一 样 ; 甚 至 同 一 个 人 , 尽 管 每 次 都 念 相 同 的 声 音 , 但 波 形 却 也 不 尽 相 同 , 如 果 在 一 个 有 杂 音 的 环 境 中 , 那 情 况 就 更 糟 了 。 因 此 , 专 家 学 者 们 研 究 出 许 多 破 解 这 个 问 题 的 方 法 , 如 傅 立 叶 转 换 、 倒 频 谱 参 数 等 , 使 目 前 的 语 音 辨 识 系 统 已 达 到 一 个 可 接 受 的 程 度 , 并 且 辨 识 度 愈 来 愈 高 。

语 音 辨 识 技 术 的 应 用 层 面

  1. 电 脑 软 件 是 目 前 最 被 视 广 为 应 用 的 方 向 。 例 如 : 语 音 命 令 、 语 音 输 入 , 对 话 系 统 、 查 询 系 统 、 教 学 软 件 、 游 戏 软 件 等 。

  2. 消 费 性 电 子 产 品


  3. -- 例 如 : 电 子 记 事 本 、 声 控 玩 具 、 语 音 拔 号 功 能 的 手 机 等 。

  4. 工 业 产 品


  5. -- 例 如 : 车 用 移 动 电 话 、 车 用 导 航 系 统 等 。

  6. 电 话 系 统 -- 例 如 : 语 音 辨 识 总 机 服 务 、 语 音 拔 号 、 语 音 订 票 订 位 等 。

SpeechDirect SDK
声 硕 科 技 在 1999 年 初 开 发 了 "SpeechDirect SDK" 语 音 辨 识 应 用 软 件 开 发 工 具 , 利 用 这 套 开 发 工 具 , 电 脑 软 件 开 发 厂 商 可 以 开 发 出 各 式 各 样 的 语 音 相 关 应 用 软 件 。 “ SpeechDirect SDK ” 语 音 辨 识 应 用 软 件 开 发 工 具 可 以 提 供 电 脑 软 件 厂 商 一 个 简 单 易 用 的 语 音 辨 识 程 序 界 面 , 开 发 关 于 语 音 控 制 、 自 然 语 音 资 料 库 搜 寻 、 及 中 文 连 续 语 音 输 入 等 等 的 应 用 。 其 内 含 的 中 文 语 音 辨 识 引 擎 可 以 支 援 单 词 辨 识 ( ISR,Isolated Speech Recognition ) 、 关 健 词 辨 识 ( KWS,Keyword-Spotting ) 、 甚 至 连 续 语 音 辨 识 ( CSR,Continuous speech recognition ) 。 此 外 还 支 援 电 脑 合 成 语 音 的 功 能 ( TTS , Text-To-Speech ) 可 将 文 字 转 为 语 音 , 使 电 脑 不 仅 能 够 听 得 懂 人 说 的 话 而 已 , 更 可 以 用 人 的 语 言 与 人 类 沟 通 。 声 硕 科 技 的 语 音 辨 识 引 擎 在 语 音 控 制 方 面 ( 包 括 单 词 辨 识 及 关 键 词 辨 识 ) , 不 需 要 口 音 训 练 即 可 使 用 , 可 避 免 因 口 音 训 练 而 带 给 使 用 者 的 不 便 。

“SpeechDirect” 语 音 引 擎 主 要 包 含 下 列 功 能 :

在 语 音 辨 识 率 方 面 , 使 用 语 音 命 令 功 能 的 辨 识 率 大 概 在 90%--95% 之 间 , 下 表 显 示 语 音 命 令 的 个 数 与 辨 识 率 之 间 的 关 系 。

语 音 命 令 个 数
辨 识 率
50
95.1%
100
93.8%
200
93%
300
92.3%
500
90.1%

“SpeechDirect” 语 音 辨 识 引 擎 的 特 色 有 :


 

下 图 为 语 音 识 别 引 擎 的 系 统 结 构 :



声 硕 科 技 的 “ SpeechDirect ” 语 音 辨 识 应 用 软 件 发 展 工 具 ( SDK ) 为 一 个 包 含 最 先 进 中 文 语 音 辨 识 引 擎 的 应 用 软 件 发 展 工 具 , 其 目 的 是 帮 助 在 微 软 视 窗 作 业 系 统 发 展 应 用 软 件 的 厂 商 , 能 快 速 而 简 易 地 将 语 音 辨 识 功 能 加 进 他 们 的 软 件 中 。 “ SpeechDirect SDK ” 提 供 一 个 简 单 易 用 的 语 音 应 用 程 序 界 面 ( speech API, Application Programming Interface ) 给 使 用 者 作 语 音 辨 识 上 的 应 用 , 同 时 又 不 失 使 用 上 的 弹 性 和 扩 充 性 , “ SpeechDirect SDK ” 的 内 容 除 了 声 硕 科 技 的 中 文 语 音 辨 识 引 擎 外 , 还 包 括 使 用 说 明 文 件 、 范 例 程 序 、 相 关 工 具 及 语 音 资 料 库 、 教 育 训 练 和 技 术 咨 询 支 援 等 等 。

下 列 为 建 议 的 系 统 需 求 :

声 硕 科 技 将 持 续 提 升 语 音 辨 识 的 正 确 率 , 并 朝 电 话 语 音 辨 识 及 语 音 集 成 的 方 向 发 展 , 此 外 , 也 会 开 发 支 援 微 软 语 音 程 序 界 面 ( SAPI ) 的 语 音 辨 识 引 擎 , 使 语 音 程 序 界 面 标 准 化 。

 



相关链接:
主要语音引擎及开发工具 2002-01-30
声扬语音识别系列开发工具 2002-01-30
ASR:“说得出做得到” 2002-01-30
IBM ViaVoice语音软件开发工具 2002-01-30
语音识别的应用前景 2002-01-30

分类信息:     技术_语音识别_文摘