パソコンに喋らせてみよう

パソコンにしゃべらせてみよう

音声合成について

音声合成というのは、コンピュータ上で、書かれた文章を自動的に読み上げ、声を生成する技術です。この "音声合成" は "テキスト読み上げ" ともいわれます。この音声合成技術を、Microsoft では 「Text-to-Speech」 略して TTS と呼んでいます。そして音声合成技術の基本部分である 「Text-to-Speech ENGINE」 を 「フリー」 で提供しています。
ところが最近になって調べてみると、日本で制作され、しかもフリーソフトで使いやすいものがいくつか見受けられるようになりました。

フリーソフト一覧 (アルファベット順)

名称作者(敬称略)ソフト種類対応言語
Adobe Reader 8 読み上げ機能Adobe systems Inc.付属機能フリーソフト日本語/多国語
akJ Speechtoolsakjオープンソース日本語/英語
ALTAIR日本障害リハビリテーション協会フリーソフト日本語/多国語
AquesTalk株式会社アクエストフリーソフトミドルウエア日本語のみ
EasySpeechEasySpeech.jpフリーソフト日本語/多国語
Fire Fox 拡張機能
Fire Vox
Charles L. Chen拡張機能フリーソフト日本語/多国語
Fire Fox 拡張機能 Click,SpeakCharles L. Chen拡張機能フリーソフト日本語/多国語
Free NaturalReader 9.0NaturalSoftフリーソフト日本語/多国語
GalateaTalkSource Forge.jpオープンソース日本語
MOSpeechLabor Economics.orgフリーソフト日本語/英語
NVDA(日本語版)NVDA
Japanese Users
フリーソフト日本語
ParoleSIGEYOSIフリーソフト日本語/多国語
proEditTea & Eyesフリーソフト日本語のみ
SofTalkCNCCフリーソフト日本語のみ
SofTal WEBCNCCフリーソフト日本語のみ
SpchWMilord Clubフリーソフト日本語/多国語
SpeechAppFREE WINGフリーソフト日本語/多国語
Text To Wav v6.1Noahフリーソフト日本語/多国語
TTSAPP/SimpleTTS (DHTML)Microsoftフリーソフト日本語/多国語
おしゃべりテキスト V.3くろだんごフリーソフト日本語/多国語
簡読★TextSoftFarm.netフリーソフト日本語/多国語
ドキュメントトーカーPlusV2.1
Free版
クリエートシステム開発株式会社フリーソフト日本語/英語
ボイトレ先生楓ソフトウエア研究所フリーソフト日本語
棒読みちゃんみちあきフリーソフト日本語
読み上げくんまぁさフリーソフト日本語/英語
楽SpeechSFree'sフリーソフト日本語/多国語

5.1 Language Pack SpeechSDK51LangPack.exe

(81.5MB)音声認識の機能も使いたい場合はこれをインストール cumentation sapi.chm .3MB)

使用説明書 ただし、音声合成ではデフォルトで日本語がなく、Microsoft Mike (英語)/ Microsoft Mary (英語) / Microsoft Sam (英語) / Microsoft Simplified Chin ese (中国語) / Sample TTS Voice (英語) のみで、 Microsoft OfficeXP をインストールすると LH Kenji (日本語)/ LH Naoko (日本語) の2つが追加されます。 もちろん、SAPI 5 対応の Speech Engi ne 例えば 「ドキュメントトーカ日本語音声合成エンジン 」 などをインストールすれば日本語の 「たかし」 「けいこ」 「太郎」 「花子」 「小太郎」 「はんちゃん」 「ロボ太郎」 「ロボ子」 などが使えるようになります。 しかし、SAPI 4 に比べると対応する各国言語の数、音声の種類が、とくにフリーのものがほとんどなく、選択の幅が狭くなります。 また、音声認識では日本語、英語、中国語などに対応しています。 Julius for SAPI を導入すれば優れた音声認識システムを構築することができます。 おしゃべりテキストを使ってみる音声合成のソフトはそれぞれに特徴があって用途により適切なものを選択すればよいでしょう。

【おしゃべりテキスト】とReadPlease】

ここでは、もっとも使いやすく、機能も多く、Windows 7 にも対応している【おしゃべりテキスト」を取り上げてみました。【おしゃべりテキスト】 のセットアップと使い方については、ソフトに同梱のヘルプファイルで非常に詳しく懇切丁寧に解説されています。【おしゃべりテキスト】 では Microsift からフリーソフトとしてリリースされている 「SAPI 4」 や 「Text-to-Speech Engine」 を利用しますので、あらかじめこれをインターネットからダウンロードして、インストールする必要があります。 まずインターネット上で
https://www.microsoft.com/msagent/downloads/user.aspx  (上記のリンクは目的と違うページにリンクされています。 目的のページは別項の方法で閲覧できます。
別項 【リンク切れのページを閲覧】 参照) にアクセスすると、「Microsoft Agent and localization support:」という項目がありますから Download the Microsoft Agent core components (395 KB exe) の行をクリックしてダウンロードし、ダウンロードしたファイルをダブルクリックしてインストールします。 Text-to-speech engines のダウンロード(各国言語)とインストール 同じページのなかに下の図のような [Text-to-speech engines:] という項目があります。 図に示したように、 【Select a text-to-speech(TTS) engine】 の右端にある▼矢印をクリックするとリストが表示されます。 その中から 【Lernout & Hauspie(p):TTS3000 TTS engine - Japanese(3MB exe】の項目を選択します。 【Download selected engine】をクリックするとダウンロードできます。 他にも使ってみたい言語があれば同時にダウンロードしておくとよいでしょう。 ダウンロードされたファイル ( lhttsjpj.exe ) をダブルクリックして、実行させます。自動的にインストールされる途中で許諾を求められたら 「はい」 を選択します。インストール画面が消えるまで待ちます。 なお、MS Agent などで利用することもあるので、 「Lernout & Hauspie(R) TrueVoice TTS - American English engine (1MB exe)」 も同じようにダウンロードしたファイル ( tv_enua.exe) ダブルクリックしてインストールしておいてください。 SAPI4 runtime binaries のダウンロードとインストール つぎに「SAPI4 runtime」をインストールします。 前述と同じページのなかに下記のような [SAPI 4.0 runtime support:] という項目があります。【Download the Microsoft SAPI 4.0a runtime binaries (824KB exe)】 をクリックするとダウンロードが始まります。 ダウンロードされたファイル ( spchapi.exe ) をダブルクリックして、実行させると自動的にインストールされます。 SAPI 5 の機能が必要ならば、 Microsoft Speech SDK 5.1 をダウンロードしインストールします。 おしゃべりテキストのダウンロードとインストール つぎに (Vector)から ( 「おしゃべりテキスト」 OsyaTx302.zip )  というファイルをダウンロードします。 このファイルを解凍すると OsyaTx302 というフォルダーができます。このフォルダーを適当な位置におきます。 なお、AquesTalk を組み込むと音声の種類が増えるのでヘルプファイルを参照し Plugin フォルダーを新規に作成し組み込んでください。 このフォルダーの中にある ( osyaberiText.exe )を起動させると下図のように表示されます。 ここで SAPI 4 を使う場合は [SpeechAPIVersion4] にチェックをして、[設定]⇒[音声の選択」 をクリックます。SAPI 5 を使う場合は [SpeechAPIVersion5] にチェックをして、[設定]⇒[音声の選択」 をクリックます。 AquestTalk を使う場合は [AquesTalk] にチェックをして、[設定]⇒[音声の選択」 をクリックます。下図のような 「声選択」 の窓で使用したい音声を選択します。上記 (2) の手順で Lernout & Hauspie(p):TTS3000 TTS engine - Japanese.exe のみインストールした ときは、Adult Male #1 Japanese (L&H) と Adult Female #1 Japanese (L&H) の2項目しかリスト に表示されません。 各国語のText-to-Speech engine のインストールすれば、各国語に対応した男声、女声などが選択できます。 あるいはもっと簡単に 「音声エンジン」 のツールバーの SAPI4、SAPI5、AquesTalk のボタンをチェックしてから、すぐ右にある窓で使用する音声を選択することもできます。 読み上げさせたいテキストを メニューの「ファイル」⇒「開く」か、あるいはメモ帳などで開いたテキストをコピーし、テキスト領域に貼り付ける。 テキスト領域では、メモ帳のように自由に編集できます。 メニューの「再生」⇒「再生」か、F5キー、または 「コントロールパネル」の右向き矢印をクリックすると、読み上げが始まります。 読み上げる速度をかえることもできます。Speed ボタンの右側にあるスライダーで変更できます。さらに、声の音程を上げたり、下げたり、読み上げる速度をかえることもできます。そのようなときは メニューの「設定」⇒「一般設定」を選択すると、下図のようなコントロール窓が表示されますので、 声の高さ、速さなど変更できます。 この[コントロール]の内容は選択した各言語engine によって違いますが、基本的には同じです。以上、《おしゃべりテキスト》 のインストールと使い方を簡単にご紹介しました。あとは付属のヘルプ・ファイルを参考に、音声合成の面白さをお楽しみください。そのほかのアプリケーションもソフト名をクリックすればそれぞれのホームページにアクセスできますから、ダウンロードしてトライしてみてください。
 音声合成エンジンに関する参考事項 Speech Engine の多くは、各ボイスごとに音量・ピッチ・速度を変更できますが、アクセントや抑揚の変更はできません。 しかし、なかには ProTALKER のように抑揚を変更できるものや、ボイスソムリエのようにアクセントの調整や韻律の調整のできるものがあり、このような Speech Engine では不自然な発音を修正したり、話し方を変えることにより雰囲気や印象を変えることができます。(次ページ「感情音声合成に関する考察と提案」参照) (読み上げるときの抑揚など不自然なところがありますが句読点やスペースを適当に入れると直ることがあります。 日本語の発声はアクセントなど不自然なところがありますが外国語はかなりNATIVE な発音だとされています。 外国語テキストをテキスト領域に書き込んだとき、WindowsXPでは正常に表示されないようです。たとえばドイツ語の"ウムラウト"など。しかし発声は正常なようです。 この問題はWindows98上では発生しないようで、文字も正常に表示され、発声も正常です。 MS Text-to-Speech Engine は一旦インストールすると、通常の方法では削除(アンインストール)できません。 「システムの復元」 しか元に戻すことことができないと説明されています。 読み上げソフトのなかにはEasySpeech やreporter などは、「クリップボード読み上げ機能」 を持っているものがあります。

「クリップボード読み上げ機能」 

「クリップボード読み上げ機能」というのは、読み上げソフトを立ち上げておけば、Internet Explorerや、Outlook Express や、メモ帳のテキストの一部を(ドラッグ反転、右クリック、コピーで)クリップボードにコピーしただけで読み上げてくれる機能です。 Speech Engine によっては、疑問文・感嘆文などは平叙文とイントネーションを変えて発声することができるものがあります。平叙文に ? マーク、あるいは ! マークを付け加えただけで発声が変わります。 たとえば TrueVoice Engine の Adult Male American English では (各行をクリックして聞いてみて下さい。)        This is a pen.        This is a pen?      This is a pen! 上の各文章でそれぞれ発声が変わります。Engine のなかには 疑問文だけ発声を変えるものもあります。 AT&T Natural Voices は対応していないみたい。 日本語では Voice Text は ? マークのついた疑問文などには対応しているようです。 音声合成ソフトの選択について私見ですが パーソナルユースで全部フリーですませたいなら、設定が簡単でわかりやすく、SAPI 4 と SAPI 5 にも対応している「おしゃべりテキスト」がお勧めでしょう。 Speech Engine をフリーの  Mictosoft Text-to-Speech 、True Voice、L&H (Lernout & Hauspie TTS3000) などをインストールしておけば、ほとんどの言語で使えます。 少し懐に余裕のある方は 「ドキュメントトーカ Plus Free版 Vista対応済み」に、有料の日本語音声合成エンジンを導入すれば、音質もよく、「歌うアプリケーション」 もついてきてお得でしょう。 あるいは、少し価格は張りますが音質のよい Voice Text がお勧めでしょう。 価格を気にしない方は、ボイスソムリエなどは音声のカスタマイズに便利は機能がついていて、いいのではないでしょうか。 外国語なら、TextAloud に 高品位の音声が期待できる AT&T Natural Voices などはいかがでしょうか。 [#a6d17426]

まとめ

Speech Engine はフロントエンドとバックエンドから構成されていて、フロントエンドにアプリケーションから入力された文章を発音記号に変換した配列を出力し、バックエンドはフロントエンドから出力された発音記号配列を音声波形に変換します。もう少し詳しく言うならば、フロントエンドでは文章を解析し、単語、熟語、文節などに分別し、単語、熟語は辞書により【発音記号;ピッチ;持続時間】の組み合わせに変換し、文節に対しては韻律(イントネーション)の規則にしたがって、【発音記号;ピッチ;持続時間】の組み合わせを時系列に並べた一連の配列に変換します。
たとえば、入力された漢字混じり文章を、かりに「昔々、ある所にお爺さんとお婆さんが住んでいました。」とすると、フロントエンドからは   「ムカ’シムカ’シ、ア’ルトコロニ/オジイ’サント/オバア’サンガ/スン’デ/イマシタ。」のような記号化された配列を出力します。
この例では、カタカナが発音記号を表し、【’】はアクセントを、句読点や【/】はイントネーションを決める文節の境界を示しています。
この配列を元に【発音記号;ピッチ;持続時間】の要素を時系列的に並べた配列をバックエンドに渡せば、バックエンドは、その配列を音声波形に合成してアプリケーションに渡し、アプリケーションがスピーカーを通して音声を発生させます。音声合成のメカニズムは以上のようなものです。
上に列挙した各種の音声合成ソフト、または読み上げソフトなどのアプリケーションは、実はいわゆるヒューマンインターフェースであって、その中身は Speech Engine です。したがってアプリケーション別の分類ではなくて Speech Engine の種類別の説明をすべきであったかもしれません。文章の読み上げそのものの品質はアプリケーションではなくて、内蔵された Speech Engine に依存します。Speech Engine によっては疑問文や感嘆文を区別して発声するものがあることは上に書きました。また、音色は Speech Engine の合成メカニズムに依存し、音声から受ける印象を左右するアクセントは Speech Engine の登録辞書に依存し、イントネーションは Speech Engine の韻律性能に依存します。イントネーションに影響をもたらすものとして、音声の速度、ピッチ、抑揚などがありますが、それらを制御できるもの、速度しか制御できないものなどいろいろあります。また、最近は音声に感情を持たせようと試みる感情音声合成も、大企業、ベンチャー企業、大学、研究所など様々な所で研究、開発Xされています。(以下参照)
 -----------
a:5568 t:2 y:0