首页   新闻  文摘   行业   产品  技术  厂商  标准  BBS  导航  搜索
呼叫中心 | CRM | 统一通信 | 企业通信 | VoIP | 视像通讯 | 语音应用 | 热点专题
首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品


语音辨识基础知识

近 年 来 , 由 于 电 脑 在 软 件 上 的 长 足 进 步 , 类 似 电 视 影 集 霹 雳 游 侠 中 李 麦 克 与 霹 雳 车 伙 计 之 间 能 够 使 用 人 类 语 言 和 电 脑 沟 通 的 情 节 已 不 再 是 梦 想 , 语 音 辨 识 科 技 这 一 两 年 来 已 慢 慢 从 实 验 室 里 的 研 究 走 入 到 我 们 的 生 活 之 中 。 声 硕 科 技 通 过 台 湾 大 学 李 琳 山 教 授 在 中 文 语 音 辨 识 方 面 研 究 成 果 , 专 注 于 语 音 辨 识 技 术 的 商 品 化 , 目 前 是 华 人 地 区 唯 一 掌 握 中 文 语 音 辨 识 核 心 并 推 出 产 品 的 公 司 。

什 么 是 语 音 辨 识

语 音 辩 识 最 基 本 的 定 义 , 就 是 “ 电 脑 能 听 懂 人 类 说 话 的 语 句 或 命 令 , 而 做 出 相 对 应 的 工 作 ” 。 也 就 是 说 , 如 果 电 脑 配 置 有 “ 语 音 辨 识 ” 的 程 序 组 , 那 么 当 你 的 声 音 通 过 一 个 转 换 装 置 输 入 电 脑 内 部 、 并 以 数 位 方 式 储 存 后 , 语 音 辨 识 程 序 便 开 始 以 你 输 入 的 声 音 样 本 与 事 先 储 存 好 的 声 音 样 本 进 行 对 比 工 作 。 声 音 对 比 工 作 完 成 之 后 , 电 脑 就 会 输 入 一 个 它 认 为 最 “ 象 ” 的 声 音 样 本 序 号 , 就 可 以 知 道 你 刚 才 念 的 声 音 是 什 么 意 义 , 进 而 执 行 此 命 令 。 说 起 来 简 单 , 但 要 真 正 建 立 辨 识 率 高 的 语 音 辨 识 程 序 组 , 却 是 非 常 困 难 而 专 业 的 , 世 界 各 地 的 学 者 们 也 还 在 努 力 研 究 最 好 的 方 式 。 例 如 , “ 声 音 样 本 ” 要 如 何 建 立 呢 ? 简 单 来 说 , 如 果 要 辨 识 10 个 字 , 那 就 是 先 把 这 10 个 字 的 声 音 念 入 电 脑 中 , 存 成 10 个 参 考 样 本 , 辨 识 时 , 只 要 把 本 次 所 念 的 声 音 ( 测 试 样 本 ) 与 事 先 存 好 的 10 个 参 考 样 本 一 一 对 比 , 找 出 与 测 试 样 本 最 象 的 样 本 , 即 可 把 测 试 样 本 辨 识 出 来 ; 问 题 是 , 每 个 使 用 者 念 入 电 脑 的 语 音 长 度 、 音 调 、 频 率 都 不 一 样 ; 甚 至 同 一 个 人 , 尽 管 每 次 都 念 相 同 的 声 音 , 但 波 形 却 也 不 尽 相 同 , 如 果 在 一 个 有 杂 音 的 环 境 中 , 那 情 况 就 更 糟 了 。 因 此 , 专 家 学 者 们 研 究 出 许 多 破 解 这 个 问 题 的 方 法 , 如 傅 立 叶 转 换 、 倒 频 谱 参 数 等 , 使 目 前 的 语 音 辨 识 系 统 已 达 到 一 个 可 接 受 的 程 度 , 并 且 辨 识 度 愈 来 愈 高 。

语 音 辨 识 技 术 的 应 用 层 面

  1. 电 脑 软 件 是 目 前 最 被 视 广 为 应 用 的 方 向 。 例 如 : 语 音 命 令 、 语 音 输 入 , 对 话 系 统 、 查 询 系 统 、 教 学 软 件 、 游 戏 软 件 等 。

  2. 消 费 性 电 子 产 品


  3. -- 例 如 : 电 子 记 事 本 、 声 控 玩 具 、 语 音 拔 号 功 能 的 手 机 等 。

  4. 工 业 产 品


  5. -- 例 如 : 车 用 移 动 电 话 、 车 用 导 航 系 统 等 。

  6. 电 话 系 统 -- 例 如 : 语 音 辨 识 总 机 服 务 、 语 音 拔 号 、 语 音 订 票 订 位 等 。

SpeechDirect SDK
声 硕 科 技 在 1999 年 初 开 发 了 "SpeechDirect SDK" 语 音 辨 识 应 用 软 件 开 发 工 具 , 利 用 这 套 开 发 工 具 , 电 脑 软 件 开 发 厂 商 可 以 开 发 出 各 式 各 样 的 语 音 相 关 应 用 软 件 。 “ SpeechDirect SDK ” 语 音 辨 识 应 用 软 件 开 发 工 具 可 以 提 供 电 脑 软 件 厂 商 一 个 简 单 易 用 的 语 音 辨 识 程 序 界 面 , 开 发 关 于 语 音 控 制 、 自 然 语 音 资 料 库 搜 寻 、 及 中 文 连 续 语 音 输 入 等 等 的 应 用 。 其 内 含 的 中 文 语 音 辨 识 引 擎 可 以 支 援 单 词 辨 识 ( ISR,Isolated Speech Recognition ) 、 关 健 词 辨 识 ( KWS,Keyword-Spotting ) 、 甚 至 连 续 语 音 辨 识 ( CSR,Continuous speech recognition ) 。 此 外 还 支 援 电 脑 合 成 语 音 的 功 能 ( TTS , Text-To-Speech ) 可 将 文 字 转 为 语 音 , 使 电 脑 不 仅 能 够 听 得 懂 人 说 的 话 而 已 , 更 可 以 用 人 的 语 言 与 人 类 沟 通 。 声 硕 科 技 的 语 音 辨 识 引 擎 在 语 音 控 制 方 面 ( 包 括 单 词 辨 识 及 关 键 词 辨 识 ) , 不 需 要 口 音 训 练 即 可 使 用 , 可 避 免 因 口 音 训 练 而 带 给 使 用 者 的 不 便 。

“SpeechDirect” 语 音 引 擎 主 要 包 含 下 列 功 能 :

  • 语 音 命 令 控 制 ( Voice Command & Control ) 功 能 。

  • 关 键 词 辨 识 ( Keyword-Spotting ) 功 能 。

  • 文 字 转 语 音 ( Text-To-Speech,TTS ) 功 能 。

  • 连 续 语 音 辨 识 ( Continuous Speech Recognition,CSR ) 功 能 。

在 语 音 辨 识 率 方 面 , 使 用 语 音 命 令 功 能 的 辨 识 率 大 概 在 90%--95% 之 间 , 下 表 显 示 语 音 命 令 的 个 数 与 辨 识 率 之 间 的 关 系 。

语 音 命 令 个 数
辨 识 率
50
95.1%
100
93.8%
200
93%
300
92.3%
500
90.1%

“SpeechDirect” 语 音 辨 识 引 擎 的 特 色 有 :

  • 支 援 单 词 语 音 辨 识 ( ISR,Isolatod Speech Recognition ) 和 关 键 词 辨 识 ( KWS,Key word-Spotting ) 功 能 。 这 两 种 模 式 可 用 来 发 展 语 音 命 令 和 语 音 查 询 等 应 用 。

  • 支 援 连 续 语 音 辨 识 ( CSR,Continuous Speech Recognition ) 功 能 。 此 模 式 可 用 来 发 展 语 音 听 写 输 入 ( voice dictation ) 方 面 的 应 用 。

  • 支 援 文 字 转 语 音 ( TTS,Text-To-Speech ) 功 能 。 利 用 此 功 能 可 用 语 音 来 告 知 使 用 者 相 关 讯 息 以 发 展 更 互 动 性 的 软 件 。

  • 支 援 使 用 特 定 说 话 者 的 声 音 模 型 和 资 源 设 定 值 , 所 以 语 音 引 擎 可 以 根 据 个 别 说 话 者 的 声 音 差 异 来 调 整 辨 识 参 数 设 定 。

  • 无 语 音 资 料 记 忆 体 大 小 限 制 , 使 用 者 可 持 续 作 语 音 辨 识 而 不 用 担 心 语 音 资 料 过 多 造 成 记 忆 体 爆 满 。

  • 使 用 者 可 动 态 地 在 程 序 中 改 变 所 使 用 的 语 音 模 型 及 词 库 而 达 到 最 大 的 方 便 性 与 弹 性 。

  • 使 用 者 可 在 程 序 中 动 态 地 增 加 或 删 除 词 汇 , 进 而 定 义 新 词 或 自 己 专 属 的 词 汇 。

  • 使 用 callback 的 方 式 来 通 知 应 用 程 式 辨 识 结 果 以 使 辨 识 更 有 效 率 。

  • 在 同 一 应 用 程 序 中 可 使 用 好 几 个 辨 识 引 擎 物 件 , 例 如 有 多 条 电 话 线 的 情 况 之 下 , 可 对 多 个 来 源 的 声 音 同 时 进 行 辨 识 。

  • 采 用 不 同 的 执 行 绪 ( thread ) 来 执 行 不 同 的 工 作 以 增 进 辨 识 的 效 率 。

  • 使 用 C ++ 物 件 模 型 程 序 界 面 ( C ++ object model programming interface ) 的 设 计 方 式 , 以 物 件 导 向 程 序 设 计 ( object-oriented programming ) 的 方 式 使 程 序 发 展 及 维 护 更 为 容 易 。

  • 使 用 者 可 以 根 据 其 应 用 程 序 的 需 求 来 调 整 辨 识 引 擎 的 参 数 以 调 整 辨 识 引 擎 的 效 能 及 准 确 率 。

  • 支 援 语 音 播 放 及 存 档 的 功 能 。

  • 支 援 单 词 语 音 辨 识 ( ISR,Isolatod Speech Recognition ) 和 关 键 词 辨 识 ( KWS,Key word-Spotting ) 功 能 。 这 两 种 模 式 可 用 来 发 展 语 音 命 令 和 语 音 查 询 等 应 用 。

  • 支 援 连 续 语 音 辨 识 ( CSR,Continuous Speech Recognition ) 功 能 。 此 模 式 可 用 来 发 展 语 音 听 写 输 入 ( voice dictation ) 方 面 的 应 用 。

  • 支 援 文 字 转 语 音 ( TTS,Text-To-Speech ) 功 能 。 利 用 此 功 能 可 用 语 音 来 告 知 使 用 者 相 关 讯 息 以 发 展 更 互 动 性 的 软 件 。

  • 支 援 使 用 特 定 说 话 者 的 声 音 模 型 和 资 源 设 定 值 , 所 以 语 音 引 擎 可 以 根 据 个 别 说 话 者 的 声 音 差 异 来 调 整 辨 识 参 数 设 定 。

  • 无 语 音 资 料 记 忆 体 大 小 限 制 , 使 用 者 可 持 续 作 语 音 辨 识 而 不 用 担 心 语 音 资 料 过 多 造 成 记 忆 体 爆 满 。

  • 使 用 者 可 动 态 地 在 程 序 中 改 变 所 使 用 的 语 音 模 型 及 词 库 而 达 到 最 大 的 方 便 性 与 弹 性 。

  • 使 用 者 可 在 程 序 中 动 态 地 增 加 或 删 除 词 汇 , 进 而 定 义 新 词 或 自 己 专 属 的 词 汇 。

  • 使 用 callback 的 方 式 来 通 知 应 用 程 式 辨 识 结 果 以 使 辨 识 更 有 效 率 。

  • 在 同 一 应 用 程 序 中 可 使 用 好 几 个 辨 识 引 擎 物 件 , 例 如 有 多 条 电 话 线 的 情 况 之 下 , 可 对 多 个 来 源 的 声 音 同 时 进 行 辨 识 。

  • 采 用 不 同 的 执 行 线 程 ( thread ) 来 执 行 不 同 的 工 作 以 增 进 辨 识 的 效 率 。

  • 使 用 C ++ 物 件 模 型 程 序 界 面 ( C ++ object model programming interface ) 的 设 计 方 式 , 以 物 件 导 向 程 序 设 计 ( object-oriented programming ) 的 方 式 使 程 序 发 展 及 维 护 更 为 容 易 。

  • 使 用 者 可 以 根 据 其 应 用 程 序 的 需 求 来 调 整 辨 识 引 擎 的 参 数 以 调 整 辨 识 引 擎 的 效 能 及 准 确 率 。

  • 支 援 语 音 播 放 及 存 档 的 功 能 。


 

下 图 为 语 音 识 别 引 擎 的 系 统 结 构 :



声 硕 科 技 的 “ SpeechDirect ” 语 音 辨 识 应 用 软 件 发 展 工 具 ( SDK ) 为 一 个 包 含 最 先 进 中 文 语 音 辨 识 引 擎 的 应 用 软 件 发 展 工 具 , 其 目 的 是 帮 助 在 微 软 视 窗 作 业 系 统 发 展 应 用 软 件 的 厂 商 , 能 快 速 而 简 易 地 将 语 音 辨 识 功 能 加 进 他 们 的 软 件 中 。 “ SpeechDirect SDK ” 提 供 一 个 简 单 易 用 的 语 音 应 用 程 序 界 面 ( speech API, Application Programming Interface ) 给 使 用 者 作 语 音 辨 识 上 的 应 用 , 同 时 又 不 失 使 用 上 的 弹 性 和 扩 充 性 , “ SpeechDirect SDK ” 的 内 容 除 了 声 硕 科 技 的 中 文 语 音 辨 识 引 擎 外 , 还 包 括 使 用 说 明 文 件 、 范 例 程 序 、 相 关 工 具 及 语 音 资 料 库 、 教 育 训 练 和 技 术 咨 询 支 援 等 等 。

下 列 为 建 议 的 系 统 需 求 :

  • 操 作 系 统 Microsoft Windows95,Window98 或 WindowsNT 。

  • CPU : Pentium III 处 理 器

  • 内 存 32 MB 以 上 。

  • 与 Windows 相 容 的 16 位 声 卡 及 喇 叭 。

  • 品 质 良 好 的 麦 克 风 。

声 硕 科 技 将 持 续 提 升 语 音 辨 识 的 正 确 率 , 并 朝 电 话 语 音 辨 识 及 语 音 集 成 的 方 向 发 展 , 此 外 , 也 会 开 发 支 援 微 软 语 音 程 序 界 面 ( SAPI ) 的 语 音 辨 识 引 擎 , 使 语 音 程 序 界 面 标 准 化 。

 


发表评论


  ·融合通信专家Dialogic——传真主题巡展 [7月8-15日 北京 上海 广州]
  ·思科统一通信开发者日 [7月8-11日 上海 广州 北京]
  ·“呼动中国”:东进技术多媒体呼叫中心招募增值渠道合作伙伴
  ·招聘:东进通讯 亿迅(中国) 亿博科创 信普飞科 正音科技 奈科科技 中科大讯飞 易宣科技

  ·大唐电信DC-NGNCC IP呼叫中心平台
  ·《2007中国企业通信(呼叫中心)市场研究报告》出版  
  ·最新资料:《企业呼叫中心建设指南》 《企业通信案例及方案大全》
  ·免费索取:《多媒体交换机资料》   《IP、无线和视频方案》

  ·东进Seegoe Enterprise/Office呼叫中心产品介绍
  ·新太科技成功中标康佳集团呼叫中心项目
  ·讯飞新一代语音合成系统Interphonic5.0强势推出

            


企业会员
恒生电子 恒融数码 Nuance
一维天地 新太科技 敏迪网络
加入办法 ->



CTI论坛推荐
·上海维卡VN系列电话语音卡推出
·大唐电信DC-NGNCC IP呼叫中心平台
·"CTstage 5i"客户联络中心-适用大规模分散网点
·三友亚星:上海红孩子电话营销和客服系统
·什么是IP分布式呼叫中心
·北京网音:助力企业通讯系统平滑升级
·讯飞ViviVoice开启语音娱乐新时代(TTS演示)
·东进技术:Seegoe Enterprise/Office呼叫中心
   
相关链接
CTI论坛周刊 融合通信专栏
行业案例汇编 免费发布新闻
管理员俱乐部 服务与营销论坛

热 点 专 栏
|业界新闻|论坛文摘|行业应用|产品展示|技术天地|厂商汇总|免责声明|咨询服务|公司简介|联系方法|广告服务|企业会员|

编辑投稿信箱      如何查找厂商联系方法

电话:010-82012787,82079677   传真:010-62041062
呼叫中心建设及运营管理咨询服务:优胜资讯(010)87768798 87768726