2023年振り返り

博士課程

taka8hiroshi.hatenablog.com

  • 3月に博士号を取得しました。お世話になった皆様ありがとうございます。
  • 事業会社への転籍や博士論文〆切直前のコロナ罹患等があり本当に大変でしたが、無事に終わって良かったです。

転勤

  • 京都の京阪奈にある研究所に転勤しました。
  • 弊社は現在転勤しても引越代が払われないので、東京から通っています。
  • 交通費は基本的に立て替え払いなので、今年は50万円以上立て替えていました。制度のバグを踏み抜いています。
  • 新幹線通勤の際には東海道新幹線の「S Work Pシート」がおすすめです。プラス1200円で3人がけの席の1.5人分を使えます。

論文

  • 共著論文が2件採択されました。共著者の皆様、誠にありがとうございます。

proceedings.mlr.press

proceedings.mlr.press

  • 来年は主著論文も採択されるように頑張ります。

学会

  • JSAI2023IBIS2023に参加しました。
    • 前者は座長としての参加、後者はポスター発表での参加です。

  • JSAIとIBISは可能な限り参加し続けたいですね。できれば発表者として。

社内論文読み会

  • リモートワークをきっかけに社内で開催している論文読み会が15回になりました。
2020/07/28: ICML2020論文読み会
2020/12/22: NeurIPS2020論文読み会
2021/06/15: ICLR2021論文読み会
2021/08/30: ICML2021論文読み会
2021/10/19: KDD2021論文読み会
2021/12/22: NeurIPS2021論文読み会
2022/04/20: AAAI2022論文読み会
2022/06/23: ICLR2022論文読み会
2022/10/06: ICML2022論文読み会
2022/12/14: KDD2022論文読み会
2023/03/15: NeurIPS2022論文読み会
2023/06/18: ICLR2023論文読み会
2023/09/13: AAAI2023論文読み会
2023/11/22: ICML2023論文読み会
2023/12/20: KDD2023論文読み会
  • 勉強会の運営で得られた知見を下記にまとめました。

taka8hiroshi.hatenablog.com

  • 当初は割りと盛り上がっていたのですが、現在は参加者が三分の一程度に減りました。来年は盛り上げて行きたいです。

研究

  • 博士課程が修了し、転勤したことで研究時間が大幅に増えたので、研究のやり方を色々と見直しています。
  • 今までは下記の理由から研究テーマを Variational Autoencoder (VAE) 一本に絞っていました。
    • 事前にVAE研究で会社に稟議を通してあったので、そこから外れないようにしていました。
    • また、博士課程中だったので、博士論文のまとめやすさなども考えていました。
  • 現在は上記の制約がなくなったので、もう少し興味ベース・サーベイ中心で研究していこうと考えています。

サーベイ

  • 今まではarXiv機械学習分野の新着論文をチェックすることが多かったのですが、毎日本数が多すぎて疲れるのでやめました。
    • 元々arXivのチェックを始めたきっかけが「今考えているネタと被っている論文を検知したい」という理由でした。
    • ただ、そんなに被ることもないので最近はやらなくてもいいなと思うようになりました。
  • 現在は主要国際会議のproceedingsで面白そうな論文を読み、そこから関連研究を辿っていく、という読み方をしています。
    • 結構古くて有名な論文を読むことも増えたのですが、よく書けていて本当に勉強になるなと思います。
  • 読む本数も増えて英語が辛くなってきたので、Readableを自費で契約しました。便利で良いです。
  • 論文メモをちゃんと取るようになりました。Notionにまとめています。数式が書きやすくて良いです。

Notionでの論文メモ管理

論文メモのサンプル

  • まだ慣れてないので読む時間とメモを取る時間がまばらです。午前中に終わることもあれば、結局一日かかることもあります。
  • 短く読んでまとめて毎日の週間にするのが来週の目標です。

テーマ

  • 転勤してから半年間は新ネタで一本書くことに集中していたのですが、現在は効率的なやり方を模索しています。
  • 具体的には、「転移学習」などの大枠を決めておいて、その中でサーベイを集中して行い、問題設定と手法の試行錯誤をしています。
    • うまく行っていない問題設定で悩み続けるのはつらいので、実験がうまく行かなかったら問題設定ごと変えたりしています。
  • 上記の立案から論文執筆まで、3ヶ月くらいを完遂することを目標にしています。
  • 一つのテーマに何ヶ月くらい取り組むか、一年に何本の論文を出すのが良いのかというのはよくわかっていません。今までの自分のペースだと半年に一本が目標だったのですが、もっと早くできるんじゃないかという気もしますし、もっと丁寧に取り組むべきなんじゃないかという気もしています。
  • 来年はこういった時間間隔をつかめるようになりたいです。

参考

プライベート

  • 今年は アイドルマスター ミリオンライブ! (ミリオン) と IDOLY PRIDE (アイプラ) に支えられた一年でした。
  • ミリオンのアニメは本当におすすめです。先行上映で見た時の感動は今でも忘れられません。
  • ミリオン10thライブツアーにも全通しています。最高です。
    • IBIS2023で小倉に行った週末に、隣の会場でライブがあることが分かった時は笑いました。小倉をかなり満喫しました。
  • アイプラは2月に行った横浜のライブでハマり、今ではZeppツアーを全通するようになりました。
    • クリスマスイブはZepp札幌でのライブでした。真冬の北海道でのライブは最高ですね。
  • ミリオンとアイプラのおすすめ曲は下記の二曲です。よろしくお願いします。

Rat A Tat!!!

Rat A Tat!!!

  • MILLIONSTARS
  • アニメ
  • ¥255
music.apple.com

Let's Go!Let's Go!ピース!ピース!

Let's Go!Let's Go!ピース!ピース!

  • サニーピース
  • アニメ
  • ¥255
music.apple.com

まとめ

来年は良い研究方法の模索と主著論文採択を目指して行きます。

グループ会社における論文読み会の運営

はじめに

私は現在、所属先のグループ会社の社員全員が参加できる形式で、機械学習人工知能のトップカンファレンスに関するオンライン論文読み会を主催しています。簡単に言うと、ICLR2023など、1つの学会にテーマを絞って、有志で論文を紹介するイベントです。多い時で70名程の方に参加していただいています。3年ほど主催を続けて慣れてきたので、立ち上げの経緯や運営方法などをまとめてみようと思います。

自己紹介

@taka8hiroshi といいます。機械学習の研究をしています。現在は情報通信系のグループ会社の研究所に所属しています。一時期は事業会社にも所属していました。

立ち上げの経緯

一言でいうと、研究所や各事業会社間の情報共有のきっかけになることを期待して、このようなイベントを開催しています。

私が所属しているグループ会社は、研究所や各事業会社が各地に散らばっています。例えば、研究所は東京、神奈川、茨木、京都、そして海外などに分かれています。そして、機械学習人工知能の技術は、各地の様々な部署で取り扱われています。

このような状況だと、物理的な距離が原因で、担当者間の情報共有に支障をきたします。具体的に言うと、「離れたロケの方が似たような研究をしていた」、「〇〇の技術について知りたいけど、研究所のどの部署が行っているかわからない」といったような問題が発生します。こういった問題を解決するため、各社の有志で定期的に情報共有を行っているのですが、運営が大変なためあまり高い頻度では行えず、コミュニケーションが十分に取れていないと感じていました。

そこで、上記の情報共有を補う目的で、完全オンラインでの論文読み会を主催し始めました。これには、下記のようなメリットがあると考えています。

  1. 全国各地から参加可能
  2. 完全オンラインのため運営の負担が少なく、定期的に開催可能
  3. 公知の論文を扱うだけなので、社外秘等を気にする必要がない
  4. 若手社員でも発表しやすく、周りに覚えてもらうきっかけになる
  5. 論文選びに発表者の興味が反映されるため、同好の士が見つけやすい
  6. 採択者本人が発表することで、グループ内へのアピールが可能

個人的には特に6点目が大きいと考えています。今までは、研究所や各事業会社の方がトップカンファレンスに論文を通しても、グループ内で発表する機会がありませんでした。この論文読み会で「本人枠」として発表していただき、参加者の方から「興味があるのでもっと詳しく聞きたい」、「一緒に研究したい」等と本人に連絡がいけば完璧です。

また、自身の育成的な観点もあります。普段は自身の興味がある分野のサーベイばかりしているので、他の方の発表を聞くことで、視野が広がり、その分野を調べるきっかけになることを期待しています。

現在扱っている学会はICMLNeurIPSICLRKDDAAAIの5つです。選んだ理由としては、「自分が普段読んでいる」、「自分が普段投稿している」、「グループ社員による採択本数が多い」、「参加者の要望が多い」などです。余裕があればもう少し増やせないかなとも思っているのですが、2ヶ月に1回くらいがちょうど良い気もしています。

運営方法

このように様々な目的を持って開催しているのですが、会社の後ろ盾があるわけではなく、有志の活動として行っています。上司にも説明には入っているのですが、評価されるといったこともありません。ボランティアになってしまうので運営メンバーを増やすのも申し訳なく、ほとんど私一人で運営し続けています。そのため、自身の負担を減らすべく、いかにシステム的に運用できるかが重要となってきます。

色々試行錯誤した上で、現在は下記のようにGitHubでissueを立てて、順番に消化しています。

AAAI2023論文読み会を行ったときのissue (社名が出ているところは黒塗り)

Slack チャンネルの作成

まずは連絡用のSlack Workspaceで論文読み会用のチャンネルを作成します。といっても、だいたいの場合はその学会に現地参加する方々が、現地での情報共有を目的にチャンネルを作成しているので、そこを間借りする形になります。

日程の決定

次に日程を決定します。最初の頃は発表申し込みをして頂いた方々の予定を確認した上で日程を調整していたのですが、全員のアンドが取れない場合が多く、また調整するのも大変だったので、今は日程を先に決めることにしています。

Googleフォームの作成

次に申し込み用のGoogleフォームを作成します。今回扱うのは公知の情報だけなので、気兼ねなく外部のサービスを使います。30分の本発表枠と5分〜15分のLT枠を用意し、発表者が選べるようにしています。といっても、時間が足りないことが多いので、ほとんどの方が本発表枠で発表します。

閲覧用のスプレッドシートの作成

発表者の間で読む論文がかぶらないように、フォームからスプレッドシートを生成して、全員が見れるようにしています。

周知 (発表者募集・一ヶ月が目処)

本番一ヶ月前に発表者募集の周知をします。本番一週間前まで募集するので、三週間程度募集することになります。

過去に13回主催しているのですが、発表者は一番多い時で13人、一番少ないときで5人といった感じです。平均するとだいたい7人〜8人申し込んでくれているようです。

スケジュールの調整 (一週間前が目処)

本番当日のスケジュールを決定します。発表者の方は当日他の打ち合わせがあることもあるので、そういった事情を反映しながら調整します。また、休憩時間を必ず入れるようにしています。1時間発表したら15分休憩、という感じです。

7人〜8人×30分+休憩という感じなので、4時間〜5時間くらいはだいたいかかります。午後13時スタートで、遅くても18時までには終わるように調整します。

TeamsのURLの発行

オンライン会議用のURLを作成します。これは会社の都合なのですが、私の所属している研究所のオンライン会議システムは録画が難しいので、事業会社の方にお願いして、TeamsのURLを手配して頂いています。

周知 (聴講者募集・一週間前が目処)

一週間前に当日のスケジュール、URLを記載した周知を出します。できるだけ多くの方に聴講参加してほしいので、一番目立つ場所で宣伝しつつ、各社にも周知を依頼します。

スライド作成

基本的には自身も発表することにしているので、当日までに論文を読み、スライドを作ります。結局ここが一番大変だなといつも思います。

座長の募集 (前日まで)

本番当日の座長を募集します。基本的には進行と質問の仕切りです。また、質問が出なかった場合は、座長から質問するようお願いしています。 座長が集まらなかった場合は自分が一人でやります。

余談ですが、運営の仕事の中では座長の募集がもっとも重要だと思っています。私はあまり座長が得意でないので、Slackでいつも誰かに泣きついています。

本番

ここまでくると特にやることはないです。基本的には自分から一つ以上質問を出せるようにしたいので、集中して聞いています。休憩込みでもだいたい5時間くらいあるので、終わることにはかなりへとへとになっています。

事後アンケート

参加者の方からフィードバックをいただけるよう、アンケート用のGoogleフォームも設置します。

最初の頃は色々な意見をいただきました。例えば、当初はslidoなどのサービスに加えて、slack、Teamsのチャット欄で質問を募集していたのですが、わかりにくいとのことで、Teamsでの発声もしくはslackでのチャットような形に落ち着いています。また、LT枠を設けたのもアンケートでご意見頂いたからです。需要のある学会の調査などもたまに行っています。

ビデオと資料の共有

最後に、グループ内で閲覧できる形で、当日のビデオと資料を共有します。尺の都合上ビデオは編集する必要があるので、こちらもちょっと時間がかかります。

上記のような一連の作業を、何も考えずに頭から実施しています。実際にかかる稼働は、本番当日とスライドの準備を除けば、数時間程度です。この労力でこの規模のイベントが運営できているのは良いことなのかなと思っています。

振り返りと問題点

約3年間、13回と続けているイベントなので、色々と問題点も出てきています。

発表者の偏り

グループ会社全員が発表可能ということになっているのですが、実際には研究所からの発表者が多くなっています。特に、自分がかつて所属していた部署の後輩の皆様がよく申し込んでくれていて、気を遣わせていたら申し訳ないなと思っています。彼らがいつも発表してくれるおかげでこの取り組みは成立しているのですが、いつまでも甘えているわけには行かないので、どうにかして色々な部署から発表申し込みしていただけるようにしたいと考えています。

とはいっても具体的な案がないので、現状はby nameで発表をお願いするというようなことを行っています。特に採択者本人の方にお願いしています。また、LT枠の自由度を高めて、事業会社の方も発表しやすいようにできないかと考えています。例えば、KDDKDD Cupというデータ分析コンペが同時開催され、事業会社から参加する方も多いので、その発表をお願いしたりしています。

聴講参加者の減少と偏り

聴講者は多い時で70人程度、少ない時で30人程度になっています。回数を重なるにつれて減少傾向にあります。発表者の方はかなり準備を頑張ってくれているので、できるだけ多くの方に聞いてほしいと思っているのですが、人を増やすのはやはり難しいなと感じています。

また、自身も事業会社にいたので分かるのですが、論文を読んだりできるのは時間に余裕がある部署の方が多く、研究以外の仕事がメインの事業会社からはあまり参加者が多くありません。このような偏りも解決したいと考えています。

運営・発表者へのメリットを用意できていない

上述した通り、完全に有志の取り組みなので、このイベントに関わることでの会社としてのメリットを提供できていません。運営は私一人なので別に良いのですが、発表者の方には何かしらのメリットがあってほしいと思っています。何かしらの後ろ盾を得るのが良いとは思っているのですが、特に伝手もないので難しい状況です。

また、研究的なメリットも提供できればと思っています。発表に対する質疑が盛り上がり、発表者の方に得るものがあるのが一番だと思っているので、そのためには良い質問が出る環境を整える必要があります。つまりは聴講者を増やして良い質問が出る確率を高くしたり、質問が得意な方に座長をお願いしたりといったことを行いたいと考えています。

結局のところ、イベントをうまく盛り上げ、多くの人に参加していただければ、解決できるのではという気がします。直近でグループ内のLLMの勉強会にも参加したのですが、そのときは120人程オンライン参加していたので、この取り組みもまだまだ盛り上げられるのではないかと思っています。

最後に

3年間論文読み会の主催を続けてみて、重要なのは惰性だなと思いました。特に会社から見返りがあるような取り組みではないので、私自身のモチベーションが重要ではあるのですが、3年も続けると当初の熱意は消え失せます。自身の異動や転籍のタイミングで辞めることもできたのですが、結局は惰性だけで続けています。

しかし、イベントを続けていると、自身が予期していないような良い出会いが発表者の間で起こることもあります。それはきっと良いことだと思うので、これからもあまり労力をかけずに、惰性で続けて行きたいと考えています。

社会人博士課程を修了しました

はじめに

2023年3月23日に京都大学で博士 (情報学) を取得しました。

自身の研究も大変だったのですが、

  • コロナ禍のリモート博士生活
  • 在学中に社内で複数回の異動
  • 博士論文締切前にコロナ罹患

などの経験もしたため、皆さんの参考になることを願って博士生活を振り返ります。

自己紹介

@taka8hiroshi といいます。機械学習、特に深層生成モデルの研究をしています。通信会社の研究所に所属していましたが、博士課程在学中に事業会社に異動になりました。卒業後に再び異動になり、現在は研究所で働いています。

博士学位が必要だと思ったきっかけ

修士時代から博士取得に興味があったのですが、当時は研究業績が全く無く、このまま進学しても難しいだろうということで就職を選びました。その後、会社での仕事が国際会議に採択されたこともあり、成長した今ならチャレンジできるのではないかと思い、進学を決意しました。

ほかの理由として、所属会社には研究者向けのキャリアパスがあり、博士号を持っていると有利になるという点もありました。また、独学で研究を行っていたので、体系的な研究方法を学びたかったというのもあります。

京都大学を選んだ理由

一番の理由は研究室を見学して良さそうだと思ったからなのですが、それ以外にも二つの理由があります。

一つ目の理由は、京都大学には社会人特別選抜という制度があり、社会人博士に対する理解が深いことです。

www.kyoto-u.ac.jp

具体的には下記のようなメリットがありました。

  • 授業を取らなくてもOK (ゼミは参加必須)
  • 京都以外からも通える (私は仕事の都合で東京在住)
  • 共同研究契約が結びやすい (会社での研究と大学での成果を一致させやすい)

遠方に住んでいても、仕事と両立しながら博士課程を送れるというすばらしい仕組みになっています。また、先生方も社会人博士を受け入れようとしてくださっているので、色々と相談しやすいと感じました。

二つ目の理由とは金銭面です。私の所属会社には当時学費を支援する制度がなく、入学金や学費は自費で支払う必要がありました。京都大学は国立なので学費も比較的安く、非常に助かりました。とはいっても3年間で合計200万程度かかりましたが。

研究室での3年間

3年間のスケジュール・イベント

入学まで

2019年の3月頃から進学を考えていて、色々な研究室の見学を始めました。京都大学に見学に行ったのは2019年5月頃で、そこで進学を決意しました。本当は2019年の秋入学にしたかったのですが、TOEICの受験を忘れていて、2020年春入学を目指して受験の準備をしました。

願書は2020年1月提出ですが、社会人選抜の場合は会社の上司が推薦文を書く必要があるため、準備には多少時間がかかりました。2020年2月前半に院試を受け、無事合格となりました。

卒業要件と目標

卒業要件は明文化されていなかったのですが、おそらく (修論に含まれていない) ジャーナルもしくは国際会議3本だと思います。私の場合は入学前に国際会議に何本か論文を通していたので、それらのジャーナル化と、新しい論文を国際会議に通すことを目標としました。特に後者は3年目の夏にようやく採択されたので、本当にギリギリでした。

イベントとしては中間発表と予備審査、本審査の3つがあります。中間発表は2年目の夏に行われるイベントで、現在の研究の進捗状況を話します。予備審査は3年目の1月頃に行われるイベントで、博士論文をプレゼンします。ここで審査の先生方からコメントを頂き、反映した上で、2月頃に行われる最終試験である本審査に臨みます。

リモート博士生活

入学直後にコロナ禍に突入してしまい、物理的に大学に行くことが難しくなってしましました。一方で、ゼミがリモートになったこともあり、東京に住んでいる私は参加しやすくなるというメリットもありました。ゼミは週に二種類行われ、両方とも半年に一回以上発表が必須でした。学生の皆さんがとても優秀なので、ゼミが勉強になるしモチベーションにもなりました。

ゼミ以外の時間は基本的に研究 (と事務作業) をしていました。研究所時代は「博士課程の研究=会社の研究」にできるよう、会社側で稟議を通して共同研究契約を結んでいました。1年目は比較的時間が取れていたので、新テーマとジャーナル化の作業を中心に行っていました。新テーマは難航しましたが、ジャーナルは無事に採択されました。2年目夏の中間発表もジャーナルの内容を中心に発表しました。

ここまでは順調だったのですが、この直後から異動などが重なり、ほとんど研究時間が取れなくなってしましました。

1回目の異動

2021年7月に1回目の異動となりました。これは組織再編の影響で研究所内を異動するというものでした。

研究自体は続けられる部署だったのですが、組織再編の影響で部署の実験環境が全てリセットされてしまい、一から立ち上げを行う必要がありました*1。再編後の部署だとこういったことに一番詳しかったため、率先して立ち上げを行っていましたが、上司が変わったこともありスムーズには行かず、結果として丸一年かかりました。また、業務内容も少し変わり、以前よりも契約などの事務作業等が増えてしまい、結果としてこの一年間は研究時間をほとんど取れませんでした。

これではいけないと思い、合間を縫ってなんとか新テーマを進め、2023年の5月に無事に論文が採択されました。この時点で論文の本数自体は揃ったので、卒業が見えてきたなと気楽に思っていました。しかし、なぜか論文発表での海外出張を却下されたので訝しんでいたら *2、直後にまた異動することが判明しました。

2回目の異動

2022年7月に2回目の異動となりました。これは事業会社への異動で、業務として研究を続けられなくなりました。実は異動先の会社には博士課程の支援制度があったのですが、入学前に稟議を通す必要があり、入学後に異動してきた私は支援を受けることができませんでした。また、博士過程に在学しているということも事前にちゃんと伝わっておらず *3 、結果としてプライベートで研究しなければならなくなりました。

「博士課程在学中の事業会社への異動だけは避けてほしい」と人事に何度も相談していた上、入学の際に一筆書いてもらっていたのに、よりにもよって卒業目前で異動となってしまったため、モチベーションがかなり下がりました。先生に相談しに京都大学まで行き*4、色々とアドバイスを頂き、なんとかモチベーションを回復させました。

10月頃から博論を書き始めたのですが、業務に慣れないこともありなかなか時間を取れず、2022年12月頃に精神的に参ってしまい *5 、覚悟を決めて有休を全てつぎ込んで博士論文に専念しました。

博士論文締切前にコロナ罹患

有休をつぎ込んだこともあり、博士論文自体はなんとか間に合いそうだったのですが、正月に家族経由でコロナをもらってしまいました。そこまで症状は重くなかったのですが、10日程度はまともに起きていることができませんでした。これが致命傷でした。なんとか論文は書き上げたのですが、直後の予備審査の準備が一切できておらず、また学会業務で論文の査読が山のように残っていた (しかも締切が予備審査の前日) ため、最後は泣きながら作業していました。

予備審査・本審査

2023年1月末に予備審査、2023年2月末に本審査がありました。コロナも落ち着いたので現地で行われることになり、再び京都に行くことになりました。結構大変だったとは思うのですが、建設的なコメントをいただけることもあってモチベーション高く乗り切ることができました。

余談ですが、予備審査前日から雪が降った影響で新幹線が止まるおそれがあったため、前日入りしました。新幹線は遅延しました。時間が取れたので泣きながら査読していました。

合格・卒業

本審査に無事に合格したので、博士論文の製本作業などを行いました。ちなみにここが一番スケジュールが厳しくて、大学側から提示された期限内に製本してくれる業者は見つかりませんでした。教務課に相談し、締切を伸ばしてもらい、最短で製本してくれる業者を探して、大学に送りました。製本が終わればほぼ終わりで、無事に卒業となりました。

大学には結局、異動の際の先生への相談、予備審査、本審査、卒業式の4回しか行きませんでした。物理的な移動が制限されるご時世だったため極端な回数となっていますが、今後はもっと気楽に行けるのではないかと思います。

アドバイス

会社からの理解を得る

プライベートの時間だけで社会人博士を取るのはかなり大変だと思います。私は基本的にプライベートは休みたいので、業務として研究できるように稟議を通し、共同研究契約を結んでいました。ここまでは良かったのですが、結局異動が重なって業務上でも研究時間の確保ができませんでした。

3年間は研究できる部署にいれるよう、会社に取り計らってもらうのが良いと思います。京都大学の場合は上司が推薦書を書く際、「入学後も在職の身分を保証する」よう同意しているので、いざとなったらそれを盾に交渉するのも良いと思います。ちなみに私も交渉しましたが聞き入れてもらえませんでした。

有休は残しておきましょう。最後に頼りになるのは有休です。

入学前に論文を貯めておく

経験して思いましたが、3年間でジャーナル or 国際会議3本はかなり難しいので、事前にある程度論文を貯めておくか、ネタをストックしておくのが良いと思います。

しっかりと休む

私は色々と思い詰めて参ってしまったので、気楽にやるのが大事だと思います。休日はしっかり遊んでリフレッシュして、切り替えて研究もできると良いのかなと思います。

自分のことだけに集中する

博士課程の3年間、会社ではチームのために使った時間が非常に多かったです。働きやすい環境になれば自分も仕事しやすくなると思ってやっていたのですが、結果的には異動したので自分に得はありませんでしたし、自身が学生でいられる時間を浪費しただけとなってしまいました。博士課程の3年間だけは自分のことだけを中心に考えて、自身の研究に専念するのが良いと思います。

最後に

色々あった博士生活ですが、その分博士号を取れて本当に嬉しかったです。また、大学や会社の皆様には本当にお世話になりました。今後はメンタルを回復させつつ研究を頑張っていきたいです。

*1:具体的に言うとGitHub等のサービスの契約やGPUサーバの用意、実験用ネットワークの準備などです。

*2:他部署で同じ学会に論文が通った方は出張が許可されていました。私は最終的には異動先の事業会社にお願いして出張させてもらいました。

*3:そもそも「機械学習の研究をしていた」ということさえ伝わっておらず、なぜか「開発が得意な人」として紹介されました。

*4:ちなみにこの時が入学後初めての現地通学でした。

*5:食欲が一切わかず、睡眠が取れなくなりました。直後のコロナ罹患との合せ技で、二ヶ月ほどこの症状が続きました。

KDD2022出張記

はじめに

会場のWalter E. Washington Convention Center

この度、KDD2022 (28th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining) のResearch Trackに、下記の論文が採択されました。

Hiroshi Takahashi, Tomoharu Iwata, Atsutoshi Kumagai, Sekitoshi Kanai, Masanori Yamada, Yuuki Yamanaka, Hisashi Kashima,  
Learning Optimal Priors for Task-Invariant Representations in Variational Autoencoders,  
KDD, 2022.  

https://dl.acm.org/doi/10.1145/3534678.3539291

一言で説明すると、「異なるタスクをまたいで普遍的な表現を獲得するVariational Autoencoder」を提案した論文となります。この論文の発表のため、2022/8/14-18にワシントンD.C.で開催されていたKDD2022に参加してきました。私にとって初のコロナ禍での海外出張となったのですが、色々と貴重な経験が出来たので、文章に残しておこうと思います。

KDD2022について

KDDデータマイニング分野におけるトップカンファレンスで、研究寄りのResearch Trackと、実用寄りのApplied Data Science Trackが併設されています。今年のResearch Trackの採択率は約15.0%でした。私は普段ML・AI系の会議に投稿しているのですが、それらと比べてもさらに厳しい採択率だなという印象を受けました*1。また、KDD の特徴として、KDD Cupという世界最大のデータ分析大会が併設されています。今年はAmazonによるAmazon Product Searchというコンテストと、BaiduによるWind Power Forecastというコンテストが開催されていました。

今年は3年ぶりとなる物理開催で、開催地はワシントンD.C.になりました。発表者は原則として現地参加が求められていて、国の政策などの影響で参加できない方のために、限定的なvirtual componentが用意されている、とのことでした*2

渡航・帰国準備

まず最初に、コロナ禍における海外出張の煩雑さについて書いていきたいと思います。平時であれば飛行機とホテルを手配し、海外旅行保険に加入し、パスポートを用意してESTAを申請すればOKなのですが、コロナ禍ではこれらに加えてアメリカ入国・日本帰国時に必要な手続きがあります。

アメリカ入国

2022年8月時点では、アメリカ入国時に下記の3点の書類を提出する必要がありました。

  1. ワクチン接種証明書 (海外用及び日本国内用)
  2. 米国CDCへの宣誓書
  3. 米国CDCへの情報提供書類

実際には上記の書類を揃え、航空会社に事前に提出する形になります。私はANAで飛行機を手配したので、ANA Travel Readyを用いて事前に登録しました。

さて、宣誓書と情報提供書類はすぐに準備できるので良いのですが、問題はワクチン接種証明書です。マイナンバーカードがあれば新型コロナワクチン接種証明書アプリを用いてすぐに発行できるのですが、私はマイナンバーカードを持っていませんでした。その場合は自治体に紙での発行を依頼するのですが、私が住んでいるところでは、郵送での申請で、かつ「申請書類の受理から証明書の交付まで1週間~10日間程の時間を要します。」とのことでした。

私がこの事実に気づいたのが出発10日前だったので、正直かなり焦りました。自治体に電話して事情を説明したところ、「いつまでに送ってほしいかのメモを同封し、返信用の封筒に速達料金の切手を追加で貼り付けた上で、書類一式を速達で送ってほしい」とおっしゃっていただき、そのとおり対応したところ、出発前に証明書を受け取ることができました。自治体の方には大変感謝しています。

実はこの申請に先駆けてマイナンバーカードの申請も行っていたのですが、奇跡的に出発までに発行完了し、アプリの方でも証明書を発行することができました*3

出張前で立て込んでるときに証明書の発行で10日間も待つのは本当にしんどいので、マイナンバーカードを事前に申請しておくことを強くおすすめします。今なら最大2万円分のマイナポイントがもらえるキャンペーンがやっているので、この機会に申請してはいかがでしょうか*4

日本帰国

日本帰国時には、My SOSというアプリを用いてWEB上で検疫手続きを済ませるファストトラックが便利です。 2022年8月時点では、下記の4点の書類を提出する必要があります。

  1. 質問票
  2. 誓約書
  3. ワクチン接種証明書
  4. 出国前72時間以内の検査証明書

質問票と誓約書はMy SOS上のアンケートフォームに答えるだけでOKなので、実際に用意する必要があるののは「ワクチン接種証明書」と「出国前72時間以内の検査証明書」の2点となります。前者は準備が済んでいるので、重要なのは後者です。ようするに現地でPCR検査を受けて、陰性証明書を発行してもらう必要があります*5

これが本当に怖くて、検査結果が陽性だった場合に日本に帰ってこれません。とにかく検査日まではマスクを外さないように気をつけ、検査に臨んだところ、無事陰性となったため、かなり気が楽になりました*6

8/26追記: 陰性証明は9/7から不要になる見通しとのことです。 www3.nhk.or.jp

My SOS上での申請を終えると、My SOSの画面が赤から青になり、それを検疫で見せればOK、という感じでした。色々と手間取りましたが、無事帰ってこれたので本当にほっとしています。

自身の発表に関する所感

さて、ここからはKDDに参加した感想を書いていきたいと思います。私のスケジュールは

  • 8/16 (18:00-19:30) : ポスター発表
  • 8/18 (13:30-15:30) : オーラル発表

というものでした。実は事前の調整に失敗してしまい、ポスター発表の1時間半前に現地の空港に到着するというスケジュールとなってしまいました*7。空港での移動と検疫は1時間以内に済み、すぐさまタクシーに飛び乗って現地に行ったのですが、結果として少しだけ遅れてしまいました。余談ですが、KDDでは参加受付を毎日17時ごろまで行っていて、私が到着したのは18時ごろだったので、バッジ(参加証)をもらっていない状態でした。この状態でポスター会場に行こうとしたところ「バッジが無いよ!」と怒られて入場することができませんでした。当たり前ですね。事情を説明して各所に確認していただき、無事入ることができました。皆様におかれましては、発表される際は時間に余裕を持って会場に行かれるのが良いかと思います。

急いでポスターを設置した時の写真がこちらになります。

ポスター
設置したあとに周りを見回して気づいたのですが、私の発表は機械学習寄りでかなり浮いているなという感じがしました。それでも何名か聞きに来てくれたので、とても嬉しかったです。

オーラル発表の会場はこのような感じでした*8

オーラル会場
正直自分の発表の時はあまり人がいなかったのですが、発表後に式変形について熱心に聞きに来てくれた人がいたので、とても嬉しかったです。議論が盛り上がったおかげで、気づいたら直後のクロージングがすっかり終わってしまっていました。

総じて、かなり無理矢理なスケジュールだったのですが、無事に発表することが出来て本当に良かったです。

KDD Cupに関する所感

続いて、KDD Cupについて書いていきたいと思います。私が所属しているNTTドコモでは、有志がAmazon Product Searchに参加しており、9位入賞されたとのことでした。本当にすごい。その方達は残念ながら現地参加できなかったとのことで、代わりに私が聴講してきました。

KDD Cup 9位入賞

Amazon Product Searchでは、クエリと検索結果のリストと、関連性を示すESCI (Exact, Substitute, Complement, Irrelevant) という指標が提供されているとのことです。クエリと結果は英語、日本語、スペイン語などで提供されています。これらのデータセットを使って、Amazonの商品検索の改善に直結するような3つのタスクを解くのが、本コンテストの目的となっています。各タスクごとにランキングが発表され、ドコモはタスク3での入賞となりました。

statを見たところ、参加者数、結果ともに中国の存在感が非常に大きいという印象を受けました。

国別のKDD Cup参加者
優勝チーム
day-day-upという中国のチームがタスク1で3位、タスク2・3で1位を取っており、そのチームのSolutionを見たのですが、ざっくりいうとInfoXLMというクロスリンガルなモデルを用いて特徴抽出し、LightGBMに突っ込むという感じでした。他のチームもTransformerに突っ込んでLightGBMが多かったので、テキストの処理はこの形式が主流なのかなという印象を持ちました。

私は普段アルゴリズムの研究をしているので、実際の問題へのアプローチを聞くのは新鮮で楽しかったです。とても勉強になりました。

全体に関する所感

ここからは全体の印象について話をしていきます。

雰囲気

久しぶりの物理開催となったKDDですが、コロナ前の学会の雰囲気に戻りつつあるという印象を持ちました。会場内はマスク必須なので皆マスクをしていますが、ポスターセッションもオーラルセッションも盛況でしたし、会場内では食事や飲み物が提供されていました。

ポスター会場
食事の提供
飲み物の提供
keynote

写真で見るとやはりまだ人が少ない印象は受けますが、今後も物理開催の流れは続くでしょうし、徐々に人の数も戻ってくるのではないかと思っています。

発表の傾向

私が普段参加しているML・AI系の会議と比べて、実用寄りの問題設定が多いように感じました。私は普段は実用とは遠いところで研究しているので、実課題に近いところでの発表が多いKDDはとても新鮮でした。分野としてはグラフや広告・推薦に関する発表が多いように感じましたが、非常に幅広い分野がカバーされていました。

8/26追記: Research Trackの発表についてWordCloudと頻出単語上位25位を出してみました。

WordCloud for KDD2022 Research Track Presentations

Top 25 Words for KDD2022 Research Track Presentations

やはりグラフの存在感が強いですね。推薦や公平性も多めです。TransformerやContrastive Learning、Federated LearningといったML系で最近流行りのトピックも、同じように流行っている印象を受けます。

日本人の参加率

一番驚いたのが日本人の参加率の高さです。日本は他国と比べて水際対策が厳しいこともあり、参加を認める組織は少ないだろうと思っていました。しかし、いざ現地に行ってみると、多くの日本人の方が発表や聴講で参加されていました。私が直接会っただけでも20名以上の方がいましたし、名刺だけでもは10枚ほど貰いました*9

色々な方とお話させて頂いたのですが、企業の方々は各々が抱えている課題を明確にした上で、それを解決したり、解決するための糸口を探そうとしている印象を受けました。私は普段アルゴリズムのことしか考えていないので、非常に勉強になりました。大学の方は本当に優秀な方が多く、とても眩しかったです。

私は海外が不慣れなこともあり、現地ではかなりナーバスになっていたのですが、日本人の方が食事に誘ってくれたおかげで、かなりメンタルが回復しました。極めつけには帰りの空港へのタクシーまでご一緒させていただきました。現地で会った皆様、本当にありがとうございました。

その他

食事

初日にコンビニでサンドイッチを買いましたが、高い割に美味しくなかったです。それ以降はほぼすべてマクドナルドで済ませました。マクドナルドだけが日本人を救ってくれます。安くて変わらない味、最高です。最終日は日本人の方に誘っていただき、日本食のレストランに行きました。美味しかったです。

飲み物はお店で水を買って済ませました。滞在2日目に24時間営業のスーパーに連れて行って頂き、そこでevianを大量に買ってしのぎました。

観光

空き時間でワシントン記念塔と国際スパイ博物館、ナショナル・ギャラリーに行きました。

ワシントン記念塔
国際スパイ博物館
ナショナル・ギャラリー

特にナショナル・ギャラリーは無料なのに非常に見応えがありました。一つ気になったのは、警備の方に「リュックは片方だけで背負うように」という指示を受けました。なんでですかね?

もう少し時間があったら色々と見て回れたのですが、またの機会に取っておこうと思います。

まとめ

コロナ禍での物理開催となったKDD2022ですが、非常に活気のあるものとなっていました。私も行くまでは色々と心配だったのですが、いざ行ってみると色々と刺激になることが多く、とても楽しかったです。

今後も物理開催が増えていくと思うので、積極的に参加できるように頑張っていきたいと思います。

*1:ML系の会議の採択率は20%前後のことが多いです。AI系もそのくらいですが、たまにすごく低くなります。

*2:結局virtual componentが何なのかよくわからなかったのですが、私が参加したセッションでは発表者不在でビデオを流している発表があったので、これのことなのかなと思います。

*3:こちらも自治体の方に個別対応していただきました。本当にありがとうございます。

*4:ちなみに私はマイナポイントをPayPayに付与して、飛行機用にノイズキャンセリングヘッドホンを買いました。

*5: 厚生労働省のホームページに様式があるので、印刷して検査機関に持っていき、記入していただくのが良いと思います。

*6:検査結果は1時間以内に出ました。

*7:旅行会社の方が他の便も提案してくれたのですが、どうしても直行便にしたくてこのようなスケジュールとなりました。

*8:カメラのリモート撮影を使って自分が発表しているところを撮ろうとしたのですが、うまくいきませんでした。

*9:名刺交換という文化をすっかり忘れていて、持ってくるのを失念していました。みんなちゃんと社会人してる。