前々回の記事ではGoogle Speech-to-Textに関する説明、またテキストに落とす音声ファイルの準備に関してご説明致しました。
また前回の記事ではGoogle Cloud Platformでのプロジェクトの設定からGoogle Cloud SDKのインストールまで説明致しました。
悩む人①Google Speech to Textを使ってみたいけど、どうしていいかわからない… 悩む人②サイトの説明を読んでもよくわからない… このような悩みを持つ方は沢山いらっしゃるのではないでし ... 前回の記事ではGoogle Speech-to-Textに関する説明、またテキストに落とす音声ファイルの準備に関してご説明致しました。 今回の導入編ではGoogle Cloud Plat ...
Google Speech to Textを実際に使用してみました! 準備編
Google Speech to Textを実際に使用してみました! 導入編
今回は実践編ではサービスアカウントキーが含まれるJSONファイルのパスの設定し、実際に音声ファイルの文字変換を行いたいと思います。
記事の内容
記事の内容
JSONファイルのパスの設定
Google Speech-to-Textの音声ファイルの文字変換
全体作業フロー
<準備編>
①Google Speech-To-Textの基本
②変換する音声ファイルを準備する
<導入編>
③Google Cloud Platformでプロジェクトを設定する
④Google Cloud SDKをインストールする
<実践編>←今回はここ!
⑤サービスアカウント キーが含まれる JSON ファイルのパスの設定する
⑥実際に音声ファイルの文字変換を行う
<実践編> ⑤サービスアカウント キーが含まれる JSON ファイルのパスの設定する
まずGoogle Cloud SDKインストール後に作成される「Google Cloud SDK Shell」を開きます。
*以降はコマンドプロンプトではなく、Google Cloud SDK Shellで起動します。
Google Cloud SDKを使用するには環境変数GOOGLE_APPLICATION_CREDENTIALSをサービスアカウントキーが含まれるJSON ファイルのパスに設定する必要があります。
この変数はセッション毎に設定する必要があります。
例えば一度パスを設定しても、Google Cloud SDK Shellを閉じた場合、毎回設定する必要がございます。
このパスの設定方法は下記Googleの説明ページの「環境変数GOOGLE_APPLICATION_CREDENTIALS」の項目で説明されています。
MacとWindowsでは設定の方法が異なりますのでお気をつけください。
*今回はWindowsの環境での設定方法をご紹介致します。詳しくはこちらのリンクを参照ください。
下記の通りサービスアカウントキーが含まれるJSON ファイルが格納されているディレクトリを指定します。
ちなみに設定してもパスの指定が正しい場合でも間違っている場合でも特にメッセージは表示されません。
何もメッセージが表示されなくても間違っていないのご心配なく。
<実践編> ⑥実際に音声ファイルの文字変換を行う
サービスアカウントキーが含まれるJSON ファイルのパス設定後、Google Speech-to-Textの機能を使用していきます。
Gcloudでは下記の通りコマンドを入れていきます。
このURIはバケット上にアップロードされたファイルを選択すると確認することができます。
下記のURIのアドレスを[URI]の欄に追加します。
例えばURIがgs://onsei/onsei2.flacの場合は下記となります。
リクエストが成功するとサーバーからIDが帰ってきます。
*「name」の後に表示されている番号です。
そしてSpeech-To-Textの結果を確認するリクエストを打ちます。
例えばIDが12345678910である場合、コマンドは下記となります。
するとこんな感じで結果が返ってきます。
ConfidenceはSpeech-to-Textの正確性のスコアです。
今回の音声では0.94ぐらいでした。
詳しく内容を確認するとよく音声は拾えていますが、まだまだ改善が必要なことがわかります。
特に句読点はデフォルトでは追加されませんし、同音異義語が間違っていることが多いようです。
ただし、非常に安いコストでこのようなサービスを使用できるのは魅力的かもしれません。
また、今後もGoogleはどんどんデータを蓄積していきSpeech-To-Textの精度を上げていくと思います。
皆様もGoogle Speech-To-Textをご自身のPCで利用してみてはいかがでしょうか。