gtalkは、chasenとchaoneというプログラムを補助に呼び出しているのだが、どうも、このchaoneというプログラムが、メモリ食いのようで、Segmentation faultを引き起こす。
160MBのメモリでは処理しきらないようだ。(一応 swapとして 256MBは用意してあるのだが、swapは使っていないみたいだ )
結局、動作優先で用意した gentoo linux(メモリ160MB)では動作せず、実稼働用のFreeBSD(メモリ384MB)上の方が、安定動作という皮肉な結果に。
(もちろん、FreeBSD上で動かすには、何箇所か修正を加える必要がある)
chaoneの処理部分だけ、別の機械上で処理した結果を、上のgentoo linuxにもってきて処理を続行させれば、発音するので、gtalkそのもの問題ではないのだろう。たぶん、chaoneが使用している xsltあたりがメモリ食いなのだと思う。
でも、せいぜい 1MB程度しかない音声データで、これだけの品質の音声が合成できるというのは、すごい。
2007年2月25日日曜日
2007年2月24日土曜日
galatea talk (その3)
gtalk (galatea talk の音声合成部分)を、比較的新しい、2006/10/23版に取り替えてみた。
sil[10] h[70] a[65] j[75] i[60] m[60] e[65] n[45] i[75] k[85] o[60] t[65] o[65] b[50] a[70] g[50] a[100] a[75] cl[90] t[110] a[90] sil[480] sil[475] k[125] o[70] t[65] o[65] b[50] a[85] w[60] a[75] k[85] a[65] m[60] i[65] t[90] o[75] t[80] o[65] m[60] o[65] n[45] i[85] a[75] cl[90] t[110] a[90] sil[480] sil[475] k[125] o[70] t[65] o[65] b[50] a[85] w[60] a[170] k[85] a[65] m[60] i[65] d[50] e[80] a[85] cl[90] t[110] a[90] sil[10]
だいぶ、聞きやすくなっている。カミの部分は、最初のが、
k[85] a[65] m[60] i[65]
後のも、
k[85] a[65] m[60] i[65]。
賢くなったのかどうかは、他のサンプルも聞いてみないとわからないけれど。
sil[10] h[70] a[65] j[75] i[60] m[60] e[65] n[45] i[75] k[85] o[60] t[65] o[65] b[50] a[70] g[50] a[100] a[75] cl[90] t[110] a[90] sil[480] sil[475] k[125] o[70] t[65] o[65] b[50] a[85] w[60] a[75] k[85] a[65] m[60] i[65] t[90] o[75] t[80] o[65] m[60] o[65] n[45] i[85] a[75] cl[90] t[110] a[90] sil[480] sil[475] k[125] o[70] t[65] o[65] b[50] a[85] w[60] a[170] k[85] a[65] m[60] i[65] d[50] e[80] a[85] cl[90] t[110] a[90] sil[10]
だいぶ、聞きやすくなっている。カミの部分は、最初のが、
k[85] a[65] m[60] i[65]
後のも、
k[85] a[65] m[60] i[65]。
賢くなったのかどうかは、他のサンプルも聞いてみないとわからないけれど。
2007年2月23日金曜日
galatea talk (その2)
いろいろ試行錯誤の結果、galateatalk が動きだした。
まだ、アクセントがおかしい。
初 めに言 があった。言 は神 と共 にあった。言 は神 であった。
で、アクセント指定するのだが、解析結果は
sil[355] h[80] a[70] j[75] i[65] m[55] e[75] n[45] i[75] k[90] o[60] t[60] o[65] b[50] a[65] g[50] a[70] a[65] cl[165] t[50] a[95] sil[345] k[100] o[70] t[65] o[50] b[50] a[85] w[60] a[70] k[90] a[55] m[60] i[65] t[75] o[85] t[80] o[55] m[55] o[75] n[45] i[125] a[70] cl[165] t[40] a[95] sil[345] k[100] o[70] t[65] o[70] b[50] a[85] w[60] a[70] k[90] a[55] m[60] i[80] d[50] e[65] a[70] cl[150] t[40] a[95] sil[345]
はじめの「カ’ミ」は、k[90] a[55] m[60] i[65] でほぼ正しいのだが、2回目の「カ’ミ」は、k[90] a[55] m[60] i[80]となって、期待通りの発音をしてくれない。
茶筌の辞書を直せばいいのか、それとも別の原因なのか。
もう少し直接的にアクセントを指定できればよいのだが...
まだ、アクセントがおかしい。
で、アクセント指定するのだが、解析結果は
sil[355] h[80] a[70] j[75] i[65] m[55] e[75] n[45] i[75] k[90] o[60] t[60] o[65] b[50] a[65] g[50] a[70] a[65] cl[165] t[50] a[95] sil[345] k[100] o[70] t[65] o[50] b[50] a[85] w[60] a[70] k[90] a[55] m[60] i[65] t[75] o[85] t[80] o[55] m[55] o[75] n[45] i[125] a[70] cl[165] t[40] a[95] sil[345] k[100] o[70] t[65] o[70] b[50] a[85] w[60] a[70] k[90] a[55] m[60] i[80] d[50] e[65] a[70] cl[150] t[40] a[95] sil[345]
はじめの「カ’ミ」は、k[90] a[55] m[60] i[65] でほぼ正しいのだが、2回目の「カ’ミ」は、k[90] a[55] m[60] i[80]となって、期待通りの発音をしてくれない。
茶筌の辞書を直せばいいのか、それとも別の原因なのか。
もう少し直接的にアクセントを指定できればよいのだが...
2007年2月19日月曜日
gentoo linux ...
なかなか好みにあうディストリビューションがなくってね。
それでも、ときどきは、いろんなものに手をだしてみる訳だが、
う〜ん、パーティション分けしてバイナリーをインストールをした後は、ブートローダをインストールする前に、カーネルのコンパイルとな。( Sunですら、カーネルの再構築はインストールが終わってからの仕事だってのに。)
確かにマニアックと呼ばれるだけのディストリビューションだな。
てな訳で、今は modules のコンパイル中だ。遅い機械にインストールするのは考えものだね。
それでも、ときどきは、いろんなものに手をだしてみる訳だが、
う〜ん、パーティション分けしてバイナリーをインストールをした後は、ブートローダをインストールする前に、カーネルのコンパイルとな。( Sunですら、カーネルの再構築はインストールが終わってからの仕事だってのに。)
確かにマニアックと呼ばれるだけのディストリビューションだな。
てな訳で、今は modules のコンパイル中だ。遅い機械にインストールするのは考えものだね。
2007年2月14日水曜日
SMIL
正確には、Synchronized Multimedia Integration Language というのが、マルチメディアコンテントツの間の同期をとるための記述言語。
卑近な例でいえば、カラオケで、字幕と曲を同期させるようなものだ。
以前、Quick Time 絡みで、「Smil Scripting Guide for QuickTime」というのを読んだ記憶があったので、てっきり QuickTime は SMIL に対応しているものだと思っていたのだけれど、どうもそういうものでもないらしい。
どうやら、QuickTimeでの同期記述は、SMIL風に書けるし、別のソフトの同期記述も、SMIL風に書ける。けれども、その二つの間の互換性はあまりない、といった感じのようだ。( 詳しく調べたわけじゃないので、思い違いかもしれないけれど。)
大体、マルチメディア系のツールっていうのは、作成用のプログラムと再生用のプログラムが対になって構成されていることが多くて、動作検証もその対になっているプログラムでしか行わないことが多い(というか、ジャンルによっては、それが、de facto standard なんだな。他に検証手段がない)ので、文法通りと、期待通りが、ちょっと乖離しているみたい。。。
卑近な例でいえば、カラオケで、字幕と曲を同期させるようなものだ。
以前、Quick Time 絡みで、「Smil Scripting Guide for QuickTime」というのを読んだ記憶があったので、てっきり QuickTime は SMIL に対応しているものだと思っていたのだけれど、どうもそういうものでもないらしい。
どうやら、QuickTimeでの同期記述は、SMIL風に書けるし、別のソフトの同期記述も、SMIL風に書ける。けれども、その二つの間の互換性はあまりない、といった感じのようだ。( 詳しく調べたわけじゃないので、思い違いかもしれないけれど。)
大体、マルチメディア系のツールっていうのは、作成用のプログラムと再生用のプログラムが対になって構成されていることが多くて、動作検証もその対になっているプログラムでしか行わないことが多い(というか、ジャンルによっては、それが、de facto standard なんだな。他に検証手段がない)ので、文法通りと、期待通りが、ちょっと乖離しているみたい。。。
登録:
投稿 (Atom)