2020/7/5 ~ 2020/7/10 にかけて開催された ACL 2020 (The 58th Annual Meetings of the Association for Computational Linguistics) にデータサイエンスグループの 藤川 と 田口 が参加しました。
ACL は自然言語処理分野におけるトップカンファレンスの一つであり、統計的手法や機械学習を用いた手法が数多く提案されています。ACL 2020 は COVID-19 の影響もありオンラインでの開催となりました。
本記事では ACL 2020 において、藤川と田口がそれぞれ特に興味を持った論文について紹介させて頂きます。記事内では概要を説明させて頂き、より詳細な内容は Mobility Technologies と DeNA が合同で行っている技術共有会のスライドをご参照頂ければと思います。
藤川からは、best paper(+honorable mention)として選ばれた 3 つの論文について紹介させて頂きます。
NLP モデルの性能は、事前に準備された正解データに対する Accuracy や BLEU などの指標に基づいて評価するのが一般的ですが、これらの指標や評価の枠組みに対して問題提起するような論文が ACL2020 の中で多数見られました。Best paper に選ばれた Ribeiro らの論文では、NLP のタスクを解くために必要な言語学的な能力を再整理した上で、ソフトウェアのテストのようにテストケースを定義してテスト通過率を見る “CheckList” と呼ばれるテスト法を提案しています。Mathur らの論文では、機械翻訳の性能評価として用いられる BLEU などの指標の妥当性を評価する枠組みに対して問題点を指摘しています。
また、事前学習モデルの活用に関する論文も数多く見られ、fine-tuning 時に対象ドメインと類似性の高いデータで再事前学習することの有効性を Gururangan らは実験的に示しています。詳細については以下のスライドをご参照ください。
田口が紹介させていただくのは text tokenization についてです。つまり、機械学習で自然言語処理を行う際に文章をどの様な単位で扱うかというテーマです。
今回は特に、最近別の記事で書かせていただいた tweet コンペでも使用されている Byte Pair Encoding から派生する ACL 2020 の 2 つの論文と、その関連論文を紹介させていただきます。
テーマの選出理由は業務や kaggle の自然言語処理系のタスクで参考になりそうというのと、より一般に系列データ処理、あるいは統計・機械学習的な観点での考え方の応用が効きやすそうという点です。是非お楽しみ下さい :)
本記事では ACL 2020 への参加報告と論文紹介をさせていただきました。今回は初のオンラインでの学会参加でしたが、自然言語処理、あるいはそれに限らず幅広い学びを得ることができました。もし気になったら論文があれば、是非読んでみていただければと思います!
Mobility Technologies では Data Scientist / Data Analyst を募集しています。大規模多様なデータを扱い、プロダクトに大きなインパクトを与えられるだけでなく、確かな技術力を持ったメンバーとともに切磋琢磨できるポジションなので、ご興味のある方は是非ご応募を検討していただけると幸いです!
採用ページはこちら >>> https://hrmos.co/pages/mo-t/jobs