MoTLab -GO Inc. Engineering Blog-MoTLab -GO Inc. Engineering Blog-

タクシーアプリ『GO』大規模トラフィックを捌く分析データ基盤の全容に迫る! #mot_tech_talk

techtalk
July 06, 2022

2022年6月21日に「MoT TechTalk #12 タクシーアプリ『GO』大規模トラフィックを捌く分析データ基盤の全容に迫る!」(connpass)を開催しました。

本記事では当日の内容を簡単に紹介します。


当日のスライド

スライドはこちらです。記事の最後にアーカイブ動画も掲載しているので、そちらもぜひご覧ください!

MoT TechTalkとは?

MoT TechTalkは、Mobility Technologiesのエンジニアたちが、タクシーアプリGOをはじめとしたサービスやプロダクトを開発する中で得た技術的ナレッジを共有するイベントです。

12回目となる今回は、大規模な交通トラフィックを捌くためのストリーミングパイプラインや、データをPDCAに活かすためのいくつかの分析基盤、AIサービスで利用する際のML基盤についての詳細、そしてそれらを実運用する上で直面した課題やその解決策について紹介しました。

またこちらのツイートのスレッドで当日の様子や雰囲気を感じていただけると思います。

登壇者紹介

今回はこちらのメンバーが登壇しました。

  • 牧瀬 芳太郎
  • 伊田 正寿
  • 鈴木 隆史
  • 渡部 徹太郎(@fetarodc
  • 井立 良子

Dataflow による車両位置情報のストリーミング収集パイプライン

MoTでは提携している全国のタクシーから車両の位置情報を含む車両動態情報を収集し、タクシーアプリGOでの配車以外にも以下のような機械学習を使ったサービスで活用しています。

  • 到着時間予測(DeNA TechCon 2022 でも紹介しています)
  • お客様探索ナビ(MoT TechTalk #10 でも紹介しています)
  • AI予約(本記事の後半で紹介しています)
  • その他

この車両動態情報を分析・ML基盤に取り込むパイプラインにDataflowを採用しています。

ここではDataflowの紹介と、採用し現状の構成に至った背景、実際に運用する際での実装ノウハウ、現状発生している課題と将来の展望について紹介しました。

An image from Notion

CDC(Change Data Capture)を使ったデータ収集の事例紹介

変更を完全に把握した履歴テーブルを作りたいという目的で、試験的に CDC を小さい DB に対して導入しました。ここではその検証結果を紹介しました。

CDCツールには GCPのDatastreamと OSSのDebeziumを比較検討し、今回は Debeziumを採用しました。その採用理由や、実際に導入・運用してみての気付きも紹介しています。

An image from Notion

dbtとDataformの検証から導入まで

MoTの分析チームには以下のような改善の余地がありました。

  • データマートのリリース速度の改善。エンジニアしかデータマートを作ることができず、アナリストのニーズに応え切れていなかった
  • 品質の改善。新規のデータマート作成を優先してしまい、テストなどに手を回せていなかった

これらを改善するため、データエンジニアだけではなくデータアナリストもデータマートが作れるようにし、またデータアナリストが触りやすいGUIツールを導入したいと考え、dbt もしくは Dataformの導入を検討しました。

今回は Dataform を採用するに至ったのですが、ここでは以下の軸で評価を行った結果と今後の展望について紹介しています。

An image from Notion

詳細は過去のブログでも紹介しているので、こちらもぜひご覧ください。

参考)dbt と Dataform を比較して Dataform を利用することにしました

AI予約サービスのMLOps事例紹介

タクシーアプリGOで提供しているAI予約サービスでは、雨や電車遅延などの直近トレンドに追従するために直近の分析データを利用しているのですが、それに伴い発生する弊害や、地域の周辺施設や季節性の変化によって推論精度が経年劣化してしまう課題が存在していました。

ここでは、それらの課題に対応するためのMLパイプラインと、各ステップの詳細を紹介しました。実サービスにAIを導入するにあたって気にかけなければならないことについて参考になるかと思いますので、ぜひ動画もご覧ください。

An image from Notion

アーカイブ動画

今回も多くの質問や感想をいただきました。ありがとうございました。アーカイブ動画の中では以下の質問にもお答えしていますのでぜひ視聴いただければと思います。

  • 分析目線で、分析基盤にストリーミングで送ることで出来るようになることや、メリットは何がありますか?
  • Debeziumの他にCDCのツールとして候補に挙がったものは何かありますか?
  • データアナリストがSQLを使ってテーブルを作成すると、ビジネスロジックの維持管理が難しくなるなどの課題は発生しないでしょうか?
  • Dataform を使おうか検討したことがあるのですが、ドキュメントが少なくて一度断念しました。運用上困ったことなどはありましたか?

開催履歴・開催予定

MoT Online Tech Talk は不定期開催しています。過去の開催レポートは こちら にもありますので、ぜひご覧ください!

MoTの最新技術情報は公式Twitterアカウント @mot_techtalk で随時発信していきますので、ぜひフォローして続報をお待ちください!

We're Hiring!

MoT では多くの専門領域でエンジニアを大募集しています。興味のある方は 採用情報ページ まで!