2022年6月21日に「MoT TechTalk #12 タクシーアプリ『GO』大規模トラフィックを捌く分析データ基盤の全容に迫る!」(connpass)を開催しました。
本記事では当日の内容を簡単に紹介します。
スライドはこちらです。記事の最後にアーカイブ動画も掲載しているので、そちらもぜひご覧ください!
MoT TechTalkは、Mobility Technologiesのエンジニアたちが、タクシーアプリGOをはじめとしたサービスやプロダクトを開発する中で得た技術的ナレッジを共有するイベントです。
12回目となる今回は、大規模な交通トラフィックを捌くためのストリーミングパイプラインや、データをPDCAに活かすためのいくつかの分析基盤、AIサービスで利用する際のML基盤についての詳細、そしてそれらを実運用する上で直面した課題やその解決策について紹介しました。
またこちらのツイートのスレッドで当日の様子や雰囲気を感じていただけると思います。
MoT TechTalk #12 「タクシーアプリ『GO』大規模トラフィックを捌く分析データ基盤の全容に迫る!」が19:00からはじまります!
— GO Inc. dev | タクシーアプリ『GO』 (@goinc_techtalk) June 21, 2022
ライブ配信: https://t.co/iVOmKCK2f0
イベント説明: https://t.co/9vrmI9nTIF#mot_tech_talk
今回はこちらのメンバーが登壇しました。
MoTでは提携している全国のタクシーから車両の位置情報を含む車両動態情報を収集し、タクシーアプリGOでの配車以外にも以下のような機械学習を使ったサービスで活用しています。
この車両動態情報を分析・ML基盤に取り込むパイプラインにDataflowを採用しています。
ここではDataflowの紹介と、採用し現状の構成に至った背景、実際に運用する際での実装ノウハウ、現状発生している課題と将来の展望について紹介しました。
変更を完全に把握した履歴テーブルを作りたいという目的で、試験的に CDC を小さい DB に対して導入しました。ここではその検証結果を紹介しました。
CDCツールには GCPのDatastreamと OSSのDebeziumを比較検討し、今回は Debeziumを採用しました。その採用理由や、実際に導入・運用してみての気付きも紹介しています。
MoTの分析チームには以下のような改善の余地がありました。
これらを改善するため、データエンジニアだけではなくデータアナリストもデータマートが作れるようにし、またデータアナリストが触りやすいGUIツールを導入したいと考え、dbt もしくは Dataformの導入を検討しました。
今回は Dataform を採用するに至ったのですが、ここでは以下の軸で評価を行った結果と今後の展望について紹介しています。
詳細は過去のブログでも紹介しているので、こちらもぜひご覧ください。
参考)dbt と Dataform を比較して Dataform を利用することにしました
タクシーアプリGOで提供しているAI予約サービスでは、雨や電車遅延などの直近トレンドに追従するために直近の分析データを利用しているのですが、それに伴い発生する弊害や、地域の周辺施設や季節性の変化によって推論精度が経年劣化してしまう課題が存在していました。
ここでは、それらの課題に対応するためのMLパイプラインと、各ステップの詳細を紹介しました。実サービスにAIを導入するにあたって気にかけなければならないことについて参考になるかと思いますので、ぜひ動画もご覧ください。
今回も多くの質問や感想をいただきました。ありがとうございました。アーカイブ動画の中では以下の質問にもお答えしていますのでぜひ視聴いただければと思います。
MoT Online Tech Talk は不定期開催しています。過去の開催レポートは こちら にもありますので、ぜひご覧ください!
MoTの最新技術情報は公式Twitterアカウント @mot_techtalk で随時発信していきますので、ぜひフォローして続報をお待ちください!
MoT では多くの専門領域でエンジニアを大募集しています。興味のある方は 採用情報ページ まで!