音声合成(TTS)と音声認識(SR)

ソフトウェアの多くは音声合成や音声認識が使われており、SAPIと呼ばれる一般的なインターフェイスを使用しています。

音声合成

タイプ入力された文字を音声で読み上げる機能で、ソフトウェア内のプロンプトとして使用したり、MP3やWAVなどの音声ファイルとして保存するためなどに使われます。

ソフトウェアにこの機能が搭載されているかどうかを確認するには、ソフトウェアをインストールし「音声合成」オプションを選択します。機能が搭載されている場合は読み上げ用のボイス一覧が表示されます。

一覧が表示されない場合はwww.nch.com.au/speech/jp/index.htmlをご参照下さい。Microsoftの無料スピーチエンジンなどをダウンロードいただけます。

音声認識

話し声(例えばインタビューやディクテーションなどの録音音声)を文字として書き起こす機能で、書き起こした文章は文書ファイルとして保存したり電子メールで送信したりすることができます。

より正確な書き起こしを行うためには、音声認識エンジンをトレーニングする必要があります。トレーニングの方法などの詳細についてはお使いの音声認識エンジンのマニュアルをご覧ください。

複数の話者の音声を書き起こす場合は、NCH製品のオプション画面で正しい音声認識エンジンとユーザーの選択を行ってください。ここで言うユーザーとはソフトウェアのユーザーではなく、音声ファイルに録音されている声の持ち主のことです。ExpressScribeテープ起こしソフトなどを使って様々な話者のテープ起こしを行う場合などは、話者情報を入力することでより正確な下書き原稿を作成することができます。

関連ソフトウェア