首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品


声扬语音识别系列开发工具

中国科学院自动化研究所国家模式识别实验室

一、总 体 介 绍

声 扬 语 音 识 别 系 列 开 发 工 具 ( FlyingTalk-X v2.0 ) 是 中 国 科 学 院 自 动 化 研 究 所 模 式 识 别 国 家 重 点 实 验 室 经 过 近 十 年 的 悉 心 研 究, 开 发 成 功 的 的 系 列 语 音 识 别 核 心, 是 国 内 自 主 开 发 的 拥 有 完 全 知 识 产 权 的 第 一 个 商 用 化 语 音 识 别 系 列 核 心 引 擎。 该 系 列 开 发 工 具 包 括 四 套 独 立 的 API。 FlyingTalk-Navigation, FlyingTalk-FormFill, FlyingTalk-Dictation。 其 中 FlyingTalk-Navigation 支 持 非 特 定 人 多 命 令 集 语 音 控 制 和 输 入;FlyingTalk-FormFill 可 以 自 行 定 义 有 关 语 法 和 词 汇, 进 行 特 定 句 型 的 非 特 定 人、 连 续 语 音 识 别;FlyingTalk-Dictation 则 除 了 集 以 上 功 能 于 一 体 外, 还 具 有 了 三 个 特 点: 多 个 关 键 词 的 自 动 检 测 和 顶 尖 的 说 话 人 自 适 应/ 非 特 定 人、 连 续 语 音 听 写 和 基 于 词 的 语 音 输 入。 
FlyingTalk-X 提 供 的 应 用 程 序 接 口 (API) 不 但 灵 活、 简 单, 而 且 支 持 多 命 令 集 识 别、 动 态 切 换、 英 语 命 令 识 别, 多 种 工 作 模 式 切 换( 命 令 识 别 - 有 限 句 型 识 别 - 多 个 关 键 词 检 测 - 立 词 听 写 - 连 续 语 音 听 写)、 多 种 发 音 模 式 切 换( 孤 立 语 音 - 连 续 语 音) 等 特 点, 应 用 软 件 开 发 商 只 需 要 非 常 短 的 时 间 就 能 把 该 引 擎 嵌 入 到 自 己 的 应 用 程 序 中 去。 应 用 程 序 嵌 入 本 引 擎 后 可 以 实 现 增 值 的 桌 面 声 导 功 能, 同 时 也 可 广 泛 地 应 用 于 股 票 查 询、 电 话 号 码 查 询 以 及 一 些 用 户 常 用 的 汉 语 文 字 输 入 等。 该 引 擎 识 别 速 度 快、 占 用 内 存 少, 适 合 与 各 种 不 同 规 模 的 应 用 程 序 的 结 合。 
中 国 科 学 院 自 动 化 研 究 所 模 式 识 别 国 家 重 点 实 验 室, 长 期 从 事 汉 语 语 音 识 别 和 语 音 理 解 方 面 的 研 究, 取 得 了 大 量 的 具 有 应 用 性 的 成 果。 从 有 限 词 汇 的 命 令 识 别、 关 键 词 检 测、 非 特 定 人 连 续 语 音 听 写、 口 语 人 机 对 话 直 至 直 接 语 音 翻 译 (Direct Speech Translation), 这 些 都 为 FlyingTalk-X 语 音 识 别 系 列 产 品 的 较 高 性 能 价 格 比 以 及 功 能 和 版 本 上 的 不 断 升 级 提 供 了 扎 实 的 基 础。 


二、FlyingTalk-X 产 品 特 点 

  1. 中 国 人 自 己 研 究 开 发 的 高 技 术 成 果

  2. 全 系 列 的 产 品, 能 满 足 不 同 的 需 求

  3. 灵 活 的 合 作 方 式 和 及 时 的 技 术 服 务

  4. 迅 捷 的 产 品 更 新 

三、FlyingTalk-Navigation
FlyingTalk-Navigation 是 一 个 用 于 识 别 命 令 的 语 音 识 别 开 发 工 具, 该 引 擎 识 别 速 度 快、 占 用 内 存 少, 识 别 率 高( 一 般 可 以 达 到 95% 以 上) 适 合 与 各 种 不 同 规 模 的 应 用 程 序 的 结 合。 具 体 指 标 如 下: 
  1. 词 汇 长 度 从 1 到 8 个 汉 字, 定 义 简 单 
  2. 每 个 命 令 集 词 汇 数 可 以 大 于 500, 支 持 多 达 几 十 个 在 线 命 令 集 
  3. 可 以 动 态 地 设 置 词 汇 的 识 别 和 搜 索 范 围 
  4. 系 统 占 用 内 存 小 于 5 M。 
  5. 灵 活 调 节 识 别 的 可 信 度, 具 有 可 靠 的 集 外 词 拒 识 功 能 等 
应 用 场 合: 菜 单 命 令 控 制, 短 语 录 入, 人 机 对 话 系 统 等

四、FlyingTalk-FormFill

专 门 用 于 限 定 句 子 类 型 的 汉 语 连 续 语 音 输 入 和 计 算 机 声 音 控 制。 该 核 心 可 满 足 识 别 几 百 词 汇、 几 十 种 句 型 的 任 务 需 求, 在 一 般 的 应 用 任 务 下 准 确 率 几 乎 能 够 达 到100%。FlyingTalk-II 特 别 适 合 于 支 持 表 格 模 式 下 的 填 充 录 入 以 及 带 有 多 个 关 键 词 的 自 然 语 言 理 解 声 控 功 能。 该 引 擎 识 别 速 度 快、 占 用 内 存 少, 适 合 与 各 种 不 同 规 模 的 应 用 程 序 的 结 合。 基 本 指 标 同 上。 


应 用 场 合: 各 种 规 范 语 句 和 表 格 的 填 充, 人 机 对 话 系 统 

例 如 财 务 帐 单: 上 面 有 日 期, 金 额, 报 销 人 姓 名, 单 位 名 字 等 等, 其 中 日 期, 金 额 是 典 型 的 固 定 句 型。 

五、FlyingTalk-Dictation

FlyingTalk-Dictation 除 了 把 FlyingTalk-Navigation、FlyingTalk-FormFill 集 成 在 一 起 外, 更 重 要 的 是 加 入 了 多 个 关 键 词 的 连 续 检 测 和 非 特 定 人 连 续 语 音 听 写, 提 供 了 命 令 控 制、 有 限 句 型 识 别、 关 键 词 检 测 和 语 音 听 写 等 四 种 工 作 模 式, 用 户 可 以 任 意 选 择 和 切 换。 FlyingTalk-Dictation 大 大 拓 宽 了 语 音 技 术 的 应 用 范 围。
FlyingTalk-Dictation 特 点 如 下: 
  1. 具 有 非 特 定 人 连 续 语 音 听 写 功 能, 还 可 以 切 换 到 孤 立 词 听 写 状 态, 用 于 通 用 的 汉 字 输 入; 对 于 有 口 音 的 人 具 有 说 话 人 自 适 应 功 能 
  2. 具 有 多 个 关 键 词 的 检 测 功 能; 例 如 用 于 说" 请 汇 总 那 个, 去 年 去 年 的 总 帐, 马 上", 系 统 就 能 获 取 所 定 义 的 汇 总, 去 年 和 总 帐 三 个 关 键 词。 
  3. FlyingTalk-Navigation 和 FlyingTalk-FormFill 中 的 功 能 
  4. 四 种 模 式 可 以 并 行 存 在 与 系 统 中, 支 持 这 四 种 模 式 之 间 的 在 线 切 换。 其 中 听 写 状 态 下 听 写 和 命 令 的 混 合 识 别, 两 者 可 以 并 行 使 用, 使 得 具 有 常 用 编 辑 命 令 的 声 音 控 制。 
  5. 在 线 词 汇 词 汇 管 理, 以 提 高 听 写 系 统 的 效 率; 
  6. 其 中 关 键 词 检 测 率 几 乎 100% 
  7. 听 写 系 统 识 别 率 一 般 可 以 达 到 85% 以 上, 新 闻 类 语 料 准 确 率 达 到 90% 以 上。 
六、FlyingTalk-PalmPC/WinCE
FlyingTalk-PalmPC/WinCE 是NLPR 承 接"863" 智 能 计 算 机 课 题" HPC 中 文 语 音 识 别 API 设 计 与 实 现" 基 础 上 研 制 开 发 的 国 内 第 一 个 专 用 于 掌 上 型 计 算 机 的 语 音 识 别 应 用 系 统。 由 于 掌 上 型 计 算 机 没 有 键 盘, 目 前 普 遍 采 用 手 写 体 识 别 作 为 主 要 的 输 入 手 段, 语 音 作 为 新 一 代 人 机 语 音 交 互 的 手 段, 在 掌 上 型 电 脑 上 尤 其 具 有 其 独 特 的 优 势。 但 是 目 前 的 掌 上 型 计 算 机 由 于 受 到 内 存 容 量、 计 算 能 力 以 及 其 低 信 噪 比 的 声 音 输 入 设 备 等 原 因, 语 音 输 入 在 该 类 电 脑 上 还 没 有 得 到 很 好 的 应 用。 
模 式 识 别 实 验 室 在 多 年 工 作 积 累 的 基 础 上, 结 合 PalmPC/HPC 电 脑 专 人 专 用 的 特 点, 开 发 成 功 了 这 个 特 定 人 限 定 词 汇 量 语 音 识 别 应 用 程 序 接 口。 利 用 本 套 API, 开 发 商 可 以 非 常 简 单 地 在 其 诸 如 声 音 拨 号、 名 片 管 理、 菜 单 命 令 控 制 等 应 用 中 加 入 语 音 识 别 功 能。 其 特 点 以 及 功 能 如 下: 
  1. 其 设 计 最 大 词 汇 量 可 以 达 到 200 个 左 右 
  2. 对 一 般 人 名 的 识 别 准 确 率 超 过 95%, 采 用 多 个 侯 选 后 识 别 率 为 100% 
  3. 同 口 音、 方 言 以 及 语 种 无 关, 使 用 者 可 以 随 心 所 欲。 
  4. 当 加 入 一 个 新 的 命 令 时, 只 需 要 重 复 该 命 令 二 到 三 遍 发 音 就 可 完 成 训 练, 训 练 过 程 是 渐 进 的, 也 就 是 可 以 在 任 何 时 间 根 据 需 要 加 入, 减 少 用 户 训 练 的 疲 劳 度。 
  5. 训 练 的 语 音 数 据 自 动 回 放, 用 户 用 得 放 心。 


相关链接:
主要语音引擎及开发工具 2002-01-30
ASR:“说得出做得到” 2002-01-30
IBM ViaVoice语音软件开发工具 2002-01-30
语音识别的应用前景 2002-01-30
语音识别技术的发展趋势 2002-01-30

分类信息:     技术_语音识别_文摘