zoomの録画ファイル(mp4)から、AWS Transcribe(音声テキスト化)を使って、文字起こししてみた。

zoomの録画ファイル(mp4)から、AWS Transcribe(音声テキスト化)を使って、文字起こししてみた。

概要:
1, mp4ファイルを、S3にアップロード
2, アップロード・トリガーで、lambda→Transcribeを実行
3, 出力された文字起こし.txtを、S3に保存。手動でダウンロードする

参考URL

AWS Transcribeを利用した自動文字起こしハンズオン

区切りが無くて見づらいので、複数話者フラグを追加(ShowSpeakerLabels)
構造的にややこしくなったjson出力から、speaker別に整形(aws-transcribe-transcript)
半角スペースがあって見づらいので置換。まあまあ、チャットっぽい感じになった。

参考URL
https://qiita.com/sakaia/items/867d42c893064b84dde9

詳細な操作:

1, S3バケット(入力用・出力用)作成。これって同じS3バケットじゃダメなの?
in-transcribe-20230912
out-transcribe-20230912

2, lambda生成。設計図からs3getを選択、S3バケット(in-transcribe-20230912)を選択。suffixを.mp4にする(mp4ファイル以外は動作させない!)
lambda関数に『AmazonS3FullAccess』と『AmazonTranscribeFullAccess』の2つのポリシーを付与する

※エラーが出たけど無視!
Lambda 関数「Transcribe_function」は正常に作成されましたが、トリガーの作成時にエラー Unable to validate the following destination configurations が発生しました。