2010年1月6日水曜日

すでに解かれている問題か?

テキストとそれを朗読した音声が与えられたとき、その音声データをテキストに対応するように、時系列に分割すること。
音声認識のときは、テキスト部分が不明の状態のまま、テキストデータを推定するわけだが、テキストが予め与えられているところが違う。

まあ、テキストから合成した音声と、音声とをなんらかの形で比較して、その誤差が最小になるように分割するということなのだろうけれど。
juliusをちょっと調べてみるかな。

0 件のコメント:

コメントを投稿