slack投稿をs3にjson形式で保存したので、athenaでデータ分析してみた

slack投稿をs3にjson形式で保存したので、athenaでデータ分析してみた

slack投稿時にlambdaを実行させる。その後、投稿内容をS3に保存

slack投稿毎に、ファイル名は日時にして、JSONファイルとしてS3に保存

athenaって、S3にあるファイルを、なんでもSQLで検索できるみたいなイメージがあったけど、最初にテーブル定義しないと駄目なのね~。
さらに、クエリ結果を保存するためのS3バケットも必要。

athenaのクエリエディタに行って
テーブルとビューの作成ボタンを押す。SQLから作成で、以下のSQLでテーブル生成

eventカラムの中身が入れ子になっているので、mysqlなら別テーブルにするけど、structで表現するらしい。

後は、通常のSELCT文を実行できる。
結果はブラウザ上に表示され、S3バケットにも保存される。

キュー内の時間: 104 ミリ秒
実行時間: 1.023 秒
スキャンしたデータ: 4.35 MB

athenaの料金は、1TBで5USD(750円)だから、1GBで0.75円。
だいたい、1円で1GB弱ファイルのスキャンが出来るって感じか?

struct内カラムへのアクセスは、ドットでつなげる

レコード数が少ない&単純なSELECT文なのに、1~2秒と結構時間がかかる…。