Google Speech APIを使ってみる
さて、Thanks Givingはお家でプログラミング。だいぶご無沙汰だったGoogleの機械学習APIから、Speech APIを使ってみました。音声をテキストに落とし込めるAPI。すげーなぁ、Google。FLACって可逆圧縮だから、音を劣化させることなく圧縮できる音声フォーマットなんだそうな。自称ミュージシャンとしてこの辺りの知識も整理したい。
Speech API - Speech Recognition | Google Cloud Platform
0. Google Cloud SKDのインストール、アカウントkeyの入手があること前提。詳しくはこちらで
1. シェルでログイン
$ gcloud auth activate-service-account --key-file=service-account-key-file
2. Audio fileをFLAC形式で準備
"Hello Google"って言ってる音声ファイルをつかいます。
$ ffmpeg -i hello.wav -ar 16000 -acodec flac hello.flac
3. pythonファイルをつくって、実行
結果
{"results": [
{"alternatives": [
{ "confidence": 0.982679,
"transcript": "hello Google"
}]}]}
参考サイト:
[ Linkit Smart 7688 ] 透過 Python 使用 Google Speech Recognition 語音辨識服務