近 年 来 , 由 于 电 脑 在 软 件 上 的 长 足 进 步 , 类 似 电 视 影 集 霹 雳 游 侠 中 李 麦 克 与 霹 雳 车 伙 计 之 间 能 够 使 用 人 类 语 言 和 电 脑 沟 通 的 情 节 已 不 再 是 梦 想 , 语 音 辨 识 科 技 这 一 两 年 来 已 慢 慢 从 实 验 室 里 的 研 究 走 入 到 我 们 的 生 活 之 中 。 声 硕 科 技 通 过 台 湾 大 学 李 琳 山 教 授 在 中 文 语 音 辨 识 方 面 研 究 成 果 , 专 注 于 语 音 辨 识 技 术 的 商 品 化 , 目 前 是 华 人 地 区 唯 一 掌 握 中 文 语 音 辨 识 核 心 并 推 出 产 品 的 公 司 。
什 么 是 语 音 辨 识
语 音 辩 识 最 基 本 的 定 义 , 就 是 “ 电 脑 能 听 懂 人 类 说 话 的 语 句 或 命 令 , 而 做 出 相
对 应 的 工 作 ” 。 也 就 是 说 , 如 果 电 脑 配 置 有 “ 语 音 辨 识 ” 的 程 序 组 , 那 么 当 你
的 声 音 通 过 一 个 转 换 装 置 输 入 电 脑 内 部 、 并 以 数 位 方 式 储 存 后 , 语 音 辨 识 程 序
便 开 始 以 你 输 入 的 声 音 样 本 与 事 先 储 存 好 的 声 音 样 本 进 行 对 比 工 作 。 声 音 对 比
工 作 完 成 之 后 , 电 脑 就 会 输 入 一 个 它 认 为 最 “ 象 ” 的 声 音 样 本 序 号 , 就 可 以 知
道 你 刚 才 念 的 声 音 是 什 么 意 义 , 进 而 执 行 此 命 令 。 说 起 来 简 单 , 但 要 真 正 建 立
辨 识 率 高 的 语 音 辨 识 程 序 组 , 却 是 非 常 困 难 而 专 业 的 , 世 界 各 地 的 学 者 们 也 还
在 努 力 研 究 最 好 的 方 式 。 例 如 , “ 声 音 样 本 ” 要 如 何 建 立 呢 ? 简 单 来 说 , 如 果
要 辨 识 10 个 字 , 那 就 是 先 把 这 10 个 字 的 声 音 念 入 电 脑 中 , 存 成 10 个 参 考 样 本
, 辨 识 时 , 只 要 把 本 次 所 念 的 声 音 ( 测 试 样 本 ) 与 事 先 存 好 的 10 个 参 考 样 本 一
一 对 比 , 找 出 与 测 试 样 本 最 象 的 样 本 , 即 可 把 测 试 样 本 辨 识 出 来 ; 问 题 是 , 每
个 使 用 者 念 入 电 脑 的 语 音 长 度 、 音 调 、 频 率 都 不 一 样 ; 甚 至 同 一 个 人 , 尽 管 每
次 都 念 相 同 的 声 音 , 但 波 形 却 也 不 尽 相 同 , 如 果 在 一 个 有 杂 音 的 环 境 中 , 那 情
况 就 更 糟 了 。 因 此 , 专 家 学 者 们 研 究 出 许 多 破 解 这 个 问 题 的 方 法 , 如 傅 立 叶 转
换 、 倒 频 谱 参 数 等 , 使 目 前 的 语 音 辨 识 系 统 已 达 到 一 个 可 接 受 的 程 度 , 并 且 辨
识 度 愈 来 愈 高 。
电 脑 软 件 是 目 前 最 被 视 广 为 应 用 的 方 向 。 例 如 : 语 音 命 令 、 语 音 输 入 , 对 话 系 统 、 查 询 系 统 、 教 学 软 件 、 游 戏 软 件 等 。
消 费 性 电 子 产 品
-- 例 如 : 电 子 记 事 本 、 声 控 玩 具 、 语 音 拔 号 功 能 的 手 机 等 。
工 业 产 品
-- 例 如 : 车 用 移 动 电 话 、 车 用 导 航 系 统 等 。
电 话 系 统 -- 例 如 : 语 音 辨 识 总 机 服 务 、 语 音 拔 号 、 语 音 订 票 订 位 等 。
SpeechDirect SDK
声 硕 科 技 在 1999 年 初 开 发 了 "SpeechDirect SDK" 语 音 辨 识 应 用 软 件 开 发 工 具
, 利 用 这 套 开 发 工 具 , 电 脑 软 件 开 发 厂 商 可 以 开 发 出 各 式 各 样 的 语 音 相 关 应 用
软 件 。 “ SpeechDirect SDK ” 语 音 辨 识 应 用 软 件 开 发 工 具 可 以 提 供 电 脑 软 件 厂
商 一 个 简 单 易 用 的 语 音 辨 识 程 序 界 面 , 开 发 关 于 语 音 控 制 、 自 然 语 音 资 料 库 搜
寻 、 及 中 文 连 续 语 音 输 入 等 等 的 应 用 。 其 内 含 的 中 文 语 音 辨 识 引 擎 可 以 支 援 单
词 辨 识 ( ISR,Isolated Speech Recognition ) 、 关 健 词 辨 识 ( KWS,Keyword-Spotting
) 、 甚 至 连 续 语 音 辨 识 ( CSR,Continuous speech recognition ) 。 此 外 还 支
援 电 脑 合 成 语 音 的 功 能 ( TTS , Text-To-Speech ) 可 将 文 字 转 为 语 音 , 使 电 脑
不 仅 能 够 听 得 懂 人 说 的 话 而 已 , 更 可 以 用 人 的 语 言 与 人 类 沟 通 。 声 硕 科 技 的 语
音 辨 识 引 擎 在 语 音 控 制 方 面 ( 包 括 单 词 辨 识 及 关 键 词 辨 识 ) , 不 需 要 口 音 训 练
即 可 使 用 , 可 避 免 因 口 音 训 练 而 带 给 使 用 者 的 不 便 。
“SpeechDirect” 语 音 引 擎 主 要 包 含 下 列 功 能 :
语 音 命 令 控 制 ( Voice Command & Control ) 功 能 。
关 键 词 辨 识 ( Keyword-Spotting ) 功 能 。
文 字 转 语 音 ( Text-To-Speech,TTS ) 功 能 。
连 续 语 音 辨 识 ( Continuous Speech Recognition,CSR ) 功 能 。
在 语 音 辨 识 率 方 面 , 使 用 语 音 命 令 功 能 的 辨 识 率 大 概 在 90%--95% 之 间 , 下 表 显 示 语 音 命 令 的 个 数 与 辨 识 率 之 间 的 关 系 。
|
|
|
|
|
|
|
|
|
|
|
|
“SpeechDirect” 语 音 辨 识 引 擎 的 特 色 有 :
支 援 单 词 语 音 辨 识 ( ISR,Isolatod Speech Recognition ) 和 关 键 词 辨 识 ( KWS,Key word-Spotting ) 功 能 。 这 两 种 模 式 可 用 来 发 展 语 音 命 令 和 语 音 查 询 等 应 用 。
支 援 连 续 语 音 辨 识 ( CSR,Continuous Speech Recognition ) 功 能 。 此 模 式 可 用 来 发 展 语 音 听 写 输 入 ( voice dictation ) 方 面 的 应 用 。
支 援 文 字 转 语 音 ( TTS,Text-To-Speech ) 功 能 。 利 用 此 功 能 可 用 语 音 来 告 知 使 用 者 相 关 讯 息 以 发 展 更 互 动 性 的 软 件 。
支 援 使 用 特 定 说 话 者 的 声 音 模 型 和 资 源 设 定 值 , 所 以 语 音 引 擎 可 以 根 据 个 别 说 话 者 的 声 音 差 异 来 调 整 辨 识 参 数 设 定 。
无 语 音 资 料 记 忆 体 大 小 限 制 , 使 用 者 可 持 续 作 语 音 辨 识 而 不 用 担 心 语 音 资 料 过 多 造 成 记 忆 体 爆 满 。
使 用 者 可 动 态 地 在 程 序 中 改 变 所 使 用 的 语 音 模 型 及 词 库 而 达 到 最 大 的 方 便 性 与 弹 性 。
使 用 者 可 在 程 序 中 动 态 地 增 加 或 删 除 词 汇 , 进 而 定 义 新 词 或 自 己 专 属 的 词 汇 。
使 用 callback 的 方 式 来 通 知 应 用 程 式 辨 识 结 果 以 使 辨 识 更 有 效 率 。
在 同 一 应 用 程 序 中 可 使 用 好 几 个 辨 识 引 擎 物 件 , 例 如 有 多 条 电 话 线 的 情 况 之 下 , 可 对 多 个 来 源 的 声 音 同 时 进 行 辨 识 。
采 用 不 同 的 执 行 绪 ( thread ) 来 执 行 不 同 的 工 作 以 增 进 辨 识 的 效 率 。
使 用 C ++ 物 件 模 型 程 序 界 面 ( C ++ object model programming interface ) 的 设 计 方 式 , 以 物 件 导 向 程 序 设 计 ( object-oriented programming ) 的 方 式 使 程 序 发 展 及 维 护 更 为 容 易 。
使 用 者 可 以 根 据 其 应 用 程 序 的 需 求 来 调 整 辨 识 引 擎 的 参 数 以 调 整 辨 识 引 擎 的 效 能 及 准 确 率 。
支 援 语 音 播 放 及 存 档 的 功 能 。
支 援 单 词 语 音 辨 识 ( ISR,Isolatod Speech Recognition ) 和 关 键 词 辨 识 ( KWS,Key word-Spotting ) 功 能 。 这 两 种 模 式 可 用 来 发 展 语 音 命 令 和 语 音 查 询 等 应 用 。
支 援 连 续 语 音 辨 识 ( CSR,Continuous Speech Recognition ) 功 能 。 此 模 式 可 用 来 发 展 语 音 听 写 输 入 ( voice dictation ) 方 面 的 应 用 。
支 援 文 字 转 语 音 ( TTS,Text-To-Speech ) 功 能 。 利 用 此 功 能 可 用 语 音 来 告 知 使 用 者 相 关 讯 息 以 发 展 更 互 动 性 的 软 件 。
支 援 使 用 特 定 说 话 者 的 声 音 模 型 和 资 源 设 定 值 , 所 以 语 音 引 擎 可 以 根 据 个 别 说 话 者 的 声 音 差 异 来 调 整 辨 识 参 数 设 定 。
无 语 音 资 料 记 忆 体 大 小 限 制 , 使 用 者 可 持 续 作 语 音 辨 识 而 不 用 担 心 语 音 资 料 过 多 造 成 记 忆 体 爆 满 。
使 用 者 可 动 态 地 在 程 序 中 改 变 所 使 用 的 语 音 模 型 及 词 库 而 达 到 最 大 的 方 便 性 与 弹 性 。
使 用 者 可 在 程 序 中 动 态 地 增 加 或 删 除 词 汇 , 进 而 定 义 新 词 或 自 己 专 属 的 词 汇 。
使 用 callback 的 方 式 来 通 知 应 用 程 式 辨 识 结 果 以 使 辨 识 更 有 效 率 。
在 同 一 应 用 程 序 中 可 使 用 好 几 个 辨 识 引 擎 物 件 , 例 如 有 多 条 电 话 线 的 情 况 之 下 , 可 对 多 个 来 源 的 声 音 同 时 进 行 辨 识 。
采 用 不 同 的 执 行 线 程 ( thread ) 来 执 行 不 同 的 工 作 以 增 进 辨 识 的 效 率 。
使 用 C ++ 物 件 模 型 程 序 界 面 ( C ++ object model programming interface ) 的 设 计 方 式 , 以 物 件 导 向 程 序 设 计 ( object-oriented programming ) 的 方 式 使 程 序 发 展 及 维 护 更 为 容 易 。
使 用 者 可 以 根 据 其 应 用 程 序 的 需 求 来 调 整 辨 识 引 擎 的 参 数 以 调 整 辨 识 引 擎 的 效 能 及 准 确 率 。
支 援 语 音 播 放 及 存 档 的 功 能 。
下 图 为 语 音 识 别 引 擎 的 系 统 结 构 :
声 硕 科 技 的 “ SpeechDirect ” 语 音 辨 识 应 用 软 件 发 展 工 具 ( SDK ) 为 一 个 包 含 最 先 进 中 文 语 音 辨 识 引 擎 的 应 用 软 件 发 展 工 具 , 其 目 的 是 帮 助 在 微 软 视 窗 作 业 系 统 发 展 应 用 软 件 的 厂 商 , 能 快 速 而 简 易 地 将 语 音 辨 识 功 能 加 进 他 们 的 软 件 中 。 “ SpeechDirect SDK ” 提 供 一 个 简 单 易 用 的 语 音 应 用 程 序 界 面 ( speech API, Application Programming Interface ) 给 使 用 者 作 语 音 辨 识 上 的 应 用 , 同 时 又 不 失 使 用 上 的 弹 性 和 扩 充 性 , “ SpeechDirect SDK ” 的 内 容 除 了 声 硕 科 技 的 中 文 语 音 辨 识 引 擎 外 , 还 包 括 使 用 说 明 文 件 、 范 例 程 序 、 相 关 工 具 及 语 音 资 料 库 、 教 育 训 练 和 技 术 咨 询 支 援 等 等 。
下 列 为 建 议 的 系 统 需 求 :
操 作 系 统 Microsoft Windows95,Window98 或 WindowsNT 。
CPU : Pentium III 处 理 器
内 存 32 MB 以 上 。
与 Windows 相 容 的 16 位 声 卡 及 喇 叭 。
品 质 良 好 的 麦 克 风 。
声 硕 科 技 将 持 续 提 升 语 音 辨 识 的 正 确 率 , 并 朝 电 话 语 音 辨 识 及 语 音 集 成 的 方 向 发 展 , 此 外 , 也 会 开 发 支 援 微 软 语 音 程 序 界 面 ( SAPI ) 的 语 音 辨 识 引 擎 , 使 语 音 程 序 界 面 标 准 化 。
主要语音引擎及开发工具 2002-01-30 |
声扬语音识别系列开发工具 2002-01-30 |
ASR:“说得出做得到” 2002-01-30 |
IBM ViaVoice语音软件开发工具 2002-01-30 |
语音识别的应用前景 2002-01-30 |