シリコンバレーのマーケター日記

東京、シンガポールを経てシリコンバレーで働く、マーケター。英語、プログラミング、データ分析は次世代マーケターの必須スキルだと信じて進む。

Google Speech APIを使ってみる

さて、Thanks Givingはお家でプログラミング。だいぶご無沙汰だったGoogleの機械学習APIから、Speech APIを使ってみました。音声をテキストに落とし込めるAPI。すげーなぁ、Google。FLACって可逆圧縮だから、音を劣化させることなく圧縮できる音声フォーマットなんだそうな。自称ミュージシャンとしてこの辺りの知識も整理したい。

Speech API - Speech Recognition  |  Google Cloud Platform

0. Google Cloud SKDのインストール、アカウントkeyの入手があること前提。詳しくはこちらで

1. シェルでログイン

$ gcloud auth activate-service-account --key-file=service-account-key-file 

2. Audio fileをFLAC形式で準備

"Hello Google"って言ってる音声ファイルをつかいます。

$ ffmpeg -i hello.wav -ar 16000 -acodec flac hello.flac

3. pythonファイルをつくって、実行

f:id:yuyutata:20161125184214p:plain

結果

{"results": [
   {"alternatives": [
{  "confidence": 0.982679,
   "transcript": "hello Google"
}]}]}

参考サイト:

[ Linkit Smart 7688 ] 透過 Python 使用 Google Speech Recognition 語音辨識服務