ファジィコードブックマッピング方式連続音声認識装置 (ATR自動翻訳電話研究所)

ホーム / ファジィコードブックマッピング方式連続音声認識装置 (ATR自動翻訳電話研究所)

事例名

ファジィコードブックマッピング方式連続音声認識装置

企業・団体名

ATR自動翻訳電話研究所

出展

日刊工業新聞 1991年

内容

 エイ・ティ・アール自動翻訳電話研究所(京都府相楽郡精華町乾谷・三平谷、社長榑松明氏)は、三菱電機とシャープの協力を得て、話者適応機能を備え、大語彙(い)連続文書音声を高精度、高速に認識できる連続音声認識装置を開発した。従来のワークステーションを用いた音声認識では数10秒から百数10秒かかっていたのが、同装置では文の長さにかかわらず3、4秒で音声認識でき、数倍ないし数10倍の高速化が達成できた。日本語大語彙を認識する連続音声認識装置の開発はこれが初めてで、これにより自動翻訳電話の研究が大きく前進するものと期待される。数十倍に高速化 自動翻訳へ大きな前進 音声認識、3~4 秒で ATR自動翻訳電話研が新装置 従来の連続音声認識では、語彙が多くなると認識精度も速度も落ちるうえ、装置が大型化するのが難点だった。エイ・ティ・アール自動翻訳電話研究所が今回開発した装置は、日本語の文法から予測しながら音素(母音や子音のこと)を認識する独自開発の「HMM-LR」(隠れマルコフモデル=左から右構文解析)方式を採用することによって、高精度で約1,000語の大語彙連続音声認識ができるのが特徴。音素の長さが極端に変化しないという性質を利用する音素継続時間制御を行い、精度を高めた。まただれの声でも認識できる不特定話者音声認識だと、話者の特性を十分に生かせず認識精度に限界があるため、話者の特徴を少量の音声から抽出し、それに装置を適応きせる独白のファジィコードブックマッピング方式で話者適応機能を持たせた。高速化のため、ハードウエアの設計も工夫されている。音声の特徴抽出はパイプライン処理で、HMM計算は並列処理で、発話単位ごとのLR構文解析計算は分散処理でそれぞれ行い、これらを33個のDSP(信号処理プロセッサー)により実行している。また話者適応は、2個のDSPで高速処理を行っている。現在、同装置に言語翻訳部と音声合成部を接続して、日本語から英語への音声翻訳実験を進めており、同装置の利用により自動翻訳電話の研究の効率化が図れるものとみている。話者適応で高精度 連続1,000語も可能

Contact

学会入会・学会全般に関するお問い合わせ

  • 0948-24-3355

  • 〒820-0067 福岡県飯塚市川津680-41
    一般財団法人ファジィシステム研究所内