Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Text gen-and-gpt2

テキスト生成に関する取り組み

  • Inicia sesión para ver los comentarios

Text gen-and-gpt2

  1. 1. Robot as a Service テキスト生成とGPT-2 2019年11月13日 野首貴嗣 takatsugu.nokubi@robotfund.co.jp
  2. 2. Robot as a Service 会社概要 2 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 Strictly Confidential 2016年設立のスタートアップ 商 号 ロボット投信株式会社 英 文 表 記 Robot Fund Co., Ltd. 設 立 2016年5月 所 在 地 東京都中央区日本橋茅場町1-8-1 茅場町一丁目平和ビル 代 表 者 代表取締役社長 野口 哲 資 本 金 308 百万円 主 要 株 主 (除 創業者) インキュベイトファンド、みずほ証券プリンシパルインベストメント、 テックアクセルベンチャーズ、三菱UFJイノベーション・パートナーズ、 SMBCベンチャーキャピタル、カブドットコム証券、みずほキャピタル 事 業 内 容 1.運用会社向けの投資信託業務効率化・デジタル化ソリューション の提供 2.証券会社・銀行向けの投資信託販売・マーケティング業務効率化 ・デジタル化ソリューションの提供 3. 投資信託データ、市場データの提供 登 録 番 号 関東財務局長(金商)第3006号 加 盟 協 会 一般社団法人 日本投資顧問業協会(会員) 一般社団法人 投資信託協会(賛助会員) 一般社団法人 Fintech協会(ベンチャー会員) 一般社団法人 東京国際金融機構(新興企業会員) W E B https://robotfund.co.jp/ 受賞歴 Mizuho Innovation Award受賞(2019/2) MUFG Digital アクセラレータ 第2期 アマゾン ウェブ サービス(AWS)賞 (2017/7) NRI HACKATHON 2016 みずほフィナンシャルグループ賞 (2016/11) NRI Hackathon 2016 Start-up Award 受賞(2016/10/4)
  3. 3. Robot as a Service 代表取締役社長 野口 哲 2007年 SBIホールディングスへ入社、決済・ 暗号・カード番号管理、Webマーケティングを 担当。2011年からピクテ投信投資顧問にて、 公募株式投信のデータ解析・マーケット分析 業務に従事。日本における貯蓄から投資へ の課題は、最終消費・販売会社・メーカー間 のUI/UXだと感じ、金融コミュニケーションの 最適化を目指すべく2016年5月、当社を創業。 中央大学経済学部卒 代表取締役会長 草鹿 泰士 1991年日本興業銀行入行、東京及びニュー ヨークにてコーポレートファイナンス業務に従事。 その後、BNPパリバ カーディフ損害保険 在日 代表、アーンスト・アンド・ヤング(EY)ジャパン (Tax) COO兼パートナーを歴任。2016年、当 社会長に就任。慶應義塾大学経済学部卒、 ハーバード大学大学院ケネディスクール修士号 社外取締役 村田 祐介 1999年にエンタープライズソフトベンダーに創 業参画し、金融機関向けオンラインサービス・ ソフトウェアの開発業務に従事。2003 年エ ヌ・アイ・エフベンチャーズ株式会社(現:大和 企業投資株式会社)入社。主にネット・モバイ ル関連企業の投資育成業務及びファンド組 成管理業務に従事。2010 年インキュベイト ファンド設立、代表パートナー就任。2016年7 月当社社外取締役就任 監査役 高崎 準二 1973年大和証券入社。本店営業部、事業法 人運用部長等を経て、大和証券グループ本 社常務取締役兼執行役員、大和証券常務取 締役、NIFベンチャーズ(現大和企業投資)専 務執行役員を歴任。現在、株式会社 MUGENUP監査役。早稲田大学第一法学部 卒。日本証券アナリスト協会検定会員、公認 内部監査人(CIA) 顧問 佐藤 節也 元日本GE専務取締役、現在東洋大学国際学 部グローバル・イノベーション学科教授。1975 年日本銀行入行。世界銀行や国際決済銀行 (BIS)への出向、産業再生機構ディレクター、 UBS エグゼクティブ・ディレクター、日本 GE 専務取締役等を歴任。東京大学経済学部卒、 オックスフォード大学経済学修士号 顧問 池森 俊文 元みずほ第一フィナンシャルテクノロジー社 長、現在統計数理研究所特命教授、日本サッ カー協会アドバイザリーボードメンバー。1977 年日本興業銀行入行し、2007年みずほ第一 フィナンシャルテクノロジー代表取締役社長に 就任。退任後、一橋大学大学院商学研究科 特任教授、みずほ第一フィナンシャルテクノロ ジー技術顧問を歴任。東京大学理学部卒 メンバー紹介:マネジメントチーム 3 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 Strictly Confidential 運用会社・銀行・証券・保険・VCのプロフェッショナル 顧問 濵 正孝 元シュローダー・インベストメント・マネジメント株式会 社取締役会長。1973年日本興業銀行入行。同行執 行役員ロンドン支店長を経て、みずほコーポレート銀 行執行役員欧州営業第ニ部長、DIAMアセットマネジ メント株式会社取締役副社長等を歴任。2010年9月 シュローダー証券投信投資顧問株式会社(現シュ ローダー・インベストメント・マネジメント株式会社)専 務取締役、2012年4月同社取締役会長就任。京都 大学法学部卒。ハーバード大学経営大学院修士。
  4. 4. Robot as a Service メンバー紹介:ビジネスチーム 4 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 Strictly Confidential 運用会社・ビッグ4・投資銀行・アマゾン等出身のプロフェッショナル集団 ヘッド・オブ・セールス 森田 政之 デロイトトーマツコンサルティング、PwCコン サルティングにて金融機関向けコンサルティ ング業務に従事。メガバンクの海外部門にお けるデータを活用した経営管理、営業活動推 進の高度化、システム導入PMO等、豊富なプ ロジェクトに関与。2018年8月より当社参画 ヘッド・オブ・プロダクト 柴田 祥 コンサルティング会社でのITコンサルタントの後、 BNPパリバ カーディフ生命保険にて新商品の ためのシステム開発、IT活用による業務改善/ 自動化プロジェクトにリーダーとして参画。アク サ損害保険にて、プロジェクト管理室 責任者と してプロジェクトポートフォリオ管理手法の改善、 プロジェクトガバナンス刷新を担当。2018年5月 当社参画 ヘッド・オブ・クオンツ 矢島 桐人 クレディ・スイス証券にて機関投資家営業に従事。 その後、BNPパリバ カーディフ損害保険にてマー ケティング、デジタル・マーケティング室の立ち上げ、 データ分析による法人営業支援立ち上げを主導。 保険数理コンサルのミリマンにて保険会社のM&A 時の企業価値算定アドバイザリー、戦略コンサル ティング・ファームのZS アソシエイツにて戦略コン サルティング業務に従事した後、2017年5月当社参 画。東京大学理学部数学科卒 ヘッド・オブ・コンプライアンス&ピープル 吉田日向 日本興業銀行入行にてコーポレートファイナンス 及び与信管理に従事。その後、GE Capital、7&i グループ、UBS銀行東京支店にて事業開発・与信 リスク管理に携わる。2018年10月、当社入社。東 京大学法学部卒、UCLA経営大学院修士。日本証 券アナリスト協会会員、CFA協会認定証券アナリ スト ヘッド・オブ・ストラテジー・ファイナンス &コミュニケーションズ 松岡 健之 大学卒業後、米国系IT、国内インターネット企業 でのファイナンス・経営企画、システム導入・業 務改革等のプロジェクト推進に従事。その後、 PwCコンサルティングを経て当社参画。米国公 認会計士(ワシントン州) ヘッド・オブ・ビジネスデベロップメント 田中宏幸 PwCコンサルティング、デロイトトーマツコン サルティングにて、金融IT戦略、FinTech戦略、 RPA/AI導入等金融機関のデジタルトランス フォーメーションを支援。東京都国際金融都 市構想の検討支援、資産運用事業者の業務 効率化の検討支援を実施。ファイナンスMBA。 2019年4月より当社参画 ディレクター 佐藤 成人 国際投信投資顧問にて外部委託運用業務、 マーケティング業務に従事。その後、シュロー ダー・インベストメント・マネジメントを経て、レオ ス・キャピタルワークスでは投資信託の直接販 売業務および金融機関経由の販売のマーケ ティング業務に従事。2018年3月当社参画。 明治大学法学部卒 ビジネスデベロップメント ディレクター 笹島啓子 シティグループで銀行、証券会社、信託銀行の業 務を経た後、シュローダー・インベストメント、ゴー ルドマン・サックスを含む複数の外資系金融機関 で14年にわたりコンプライアンス、内部監査業務を 担当。2012年から有限責任監査法人トーマツで主 として運用会社向けのコンサルティングサービスを 提供した後、2019年8月より当社に参画。
  5. 5. Robot as a Service メンバー紹介:エンジニアチーム 5 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 Strictly Confidential 内外一流のプログラマーをインハウスで擁する体制 エンジニア プロダクトディベロップメント&エンジニアリング 田島 暁雄 1985年日本NCRに入社、POSからセンターシ ステムまで流通業ソリューション全般および各 単点のシステム開発業務に従事。2000年頃か ら個人の立場でフリーソフトウェア開発に参加、 その縁で執筆業(arton名義)も始める。2017年 12月当社参画 エンジニア R&D 野首 貴嗣 凸版印刷株式会社にて研究開発エンジニアと して多くのプロジェクトをリード。また、 Namazuの開発や、GNU/Linuxディストリ ビューションDebianのメンテナーとしてオープ ンソースソフトウェア(OSS)活動や自由ソフト ウェア活動に参加。日本Linux協会会長、 NPOフリーソフトウェアイニシアティブ理事 エンジニア オペレーションズ&エンジニアリング 塚本 牧生 1998年沖ソフトウェア入社。ERPパッケージの SI、企業向けSNSの開発・提供・自社内運用に 従事。2009年より沖電気で仮想化製品および クラウド技術主幹等として提案・設計・構築から 社内技術教育まで手掛ける一方、社外でも CompTIA SMEとして活動。また2000年~ 2008年にWiki、PDAを中心とした個人活動もあ り、関連記事および書籍執筆などにも携わる。 エンジニア プロダクトディベロップメント&エンジニアリン グ カラドゥマン・アルダ 2011年より日本においてベンチャー企業等で エンジニアリングを担当。クラウド・ソリュー ション、自動化やシステム統合プロジェクト等 を得意とする。慶応義塾大学理工学部修士号 エンジニア プロダクトディベロップメント&エンジニアリング ラーマン・モハメド・ミザヌル バングラデシュの大学を卒業後、ソフト開発会 社に入社。仕事の関係で来日後、そのまま日本 で働くことを選択。これまでグリー他ベンチャー 企業、大企業でコンテンツ管理やソーシャル ゲーム・イーコマースのバックエンド、ERPソフト など、設計から開発、運用迄、幅広く担当。可用 性の高いシステム構築を得意とする エンジニア プロダクトディベロップメント&エンジニアリング トマ・ブレント 2012年よりフランスおよび日本のスタートアップ 企業、大企業にてソフトウェア・エンジニアとして 多くの経験と実績。パリ・デジタルイノベーション 大学院(EPITECH)卒、The École des technologies numériques appliquées (ETNA) 卒 ヘッド・オブ・エンジニア 八木 都志郎 携帯電話向け大規模サービスのシステム開 発を経てフリーランスのソフトウェア開発者と してスマホ向けサービス開発PJに従事。 Twilioのユーザーグループ代表
  6. 6. Robot as a Service 現状のサービス・ラインナップ 6Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 ロボレポ、アナリティクス、ロボットBIがコア・サービス ロボット・レポート 投資信託の月次レポートの データ収集、集計、チャート作成 迄をクラウド上で自動化。 ウェブコンテンツとしても利用可 ファンド・ アナリティクス 投信基準価額の変動要因を日 次で分析し、わかりやすく可視 化して提示 ロボットBI 幅広い投信データベースを基礎 にした、投信業界に特化したBI (Business Intelligence)ツール サービス名 概 要 運用会社 (ミドル・バックオフィス担当者) 販売会社 (投信販売担当者) 運用会社及び販売会社 (投信マーケティング担当者) 対象 ユーザー
  7. 7. Robot as a Service モチベーション テキスト生成をしたい Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • 日経平均株価値動きの説明文 • 論文「時系列数値データにおける変化要因の記述」再現 [青木 2018] • https://www.slideshare.net/takatsugunokubi/ss-117748764 • Data-to-Text分野 • GAN的なアプローチ • ユーザーの入力支援 Page 7
  8. 8. Robot as a Service GAN的アプローチ Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • VAE + LSTM (Generating Sentences from a Continuous Space [Brown 2015]) • Generative junji • SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient [Yu 2016] • https://qiita.com/knok/items/5e079420f05ddfc1ae75 • SeqGANを含むGANs実装 Texygen [Zhu 2018] • https://github.com/geek-ai/Texygen • Adversarial Text Generation via Feature-Mover’s Distance (FM- GAN) [Chen 2018] • https://github.com/knok/chainer-fm-gan Page 8
  9. 9. Robot as a Service GANの良さ Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • 画像で使われている手法の応用が可能 • FM-GAN • cycle loss (CycleGAN [Zhu 2017])による教師なし暗号復号 • 非ペアとなる暗号文・平文が多くあればそこそこ復号化できる • テキストのスタイル転送 • 条件付きGANの応用 • 潜在空間に意味が写像される • ラベルによる条件付けができる • cGAN, cVAE Page 9
  10. 10. Robot as a Service 言語モデルベースの生成 確率的言語モデル Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • 単語𝑠1〜𝑠 𝑛−1までが出現した時の単語, 𝑠 𝑛が生成される確率分布 • RNNによる手法 [Mikolov 2010] • word2vecの考案者でもある [2013] Page 10
  11. 11. Robot as a Service GPT-2 OpenAIによる巨大な言語モデル [Radfold 2019] Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • RNNの代わりにTransformerブロックを使用 • 40GBの吟味された巨大なコーパスを学習することでさまざまなタス クをゼロショットで実現 • 機械読解・質問応答等 • 要約 • 翻訳 • 言語モデルなので文書生成もできる • ファインチューニングすることでドメイン特化 • ソースコード補完 • 流暢な文書生成 文書作成の支援として使えそう Page 11
  12. 12. Robot as a Service GPT-2 公開されている事前訓練モデル 3種類 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • small (124M) • 2019/02公開 • medium (355M) • 2019/05公開 • large (774M) • 2019/08公開 • GPT-2: 6-Month Follow-Up • xl (1542M) • 2019/11/5公開 • GPT-2: 1.5B Release • 検出モデルも合わせてリリース Page 12
  13. 13. Robot as a Service デモサイト Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • https://talktotransformer.com/ • by Adam King • https://transformer.huggingface.co/doc/gpt2-large • by Hugging Face Inc. • https://minimaxir.com/apps/gpt2-mtg/ • by Max Woolf 演算 1+1= 6/3= 要約 TL;DR: Page 13
  14. 14. Robot as a Service 公開実装 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • 公式実装 https://github.com/openai/gpt-2 • 推論のみ • 別実装 https://github.com/ConnorJL/GPT2 • 訓練/fine tuningをサポート • トークナイズは基本的にBPE • 日本語も含まれているが、バイト列で表現される • 生成される品質が残念 • 不完全なバイト列出力 • 中国語が混在 • 世の中にある多くの「GPT-2で日本語を生成してみた」記事は英文と その翻訳 • より綺麗な日本語を出力したい Page 14
  15. 15. Robot as a Service 独自実装 Konstantin Lopuhin氏による再実装 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • https://github.com/lopuhin/transformer-lm • 完全に同一というわけではない • PyTorch (TensorFlowコードもあるがメンテ停止) • multi GPUサポート • SentencePieceによるトークナイズ • 綺麗な日本語出力が期待できそう • デフォルトはGPT-2 smallと同サイズ • 12 layers, 12 heads Page 15
  16. 16. Robot as a Service 訓練 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • データセット • 日本語Wikipedia dump • 2018/02/20のスナップショット • もっと新しいものにすべき • 特に「令和」「上皇号」といった新しい単語を含むもの • 吟味はまったく行っていない • 訓練環境 • AWS EC2 p2.8xlarge • 1週間程度 • p2.xlargeだと1epochに90時間と表示され断念 • multi GPUでresumeにバグがあった • https://github.com/lopuhin/transformer-lm/issues/21 修正された • SentencePieceモデルも一から構築 • 既存のモデルに合わせたほうが良いかも • Ex: https://github.com/yoheikikuta/bert-japanese Page 16
  17. 17. Robot as a Service 日本語Wikipediaモデルのデモ Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 % gpt-2-gen run-root4 --tokens-to-generate 100 "千利休の生涯" loading model from run-root4 generating text for prefix 千利休の生涯 千利休の生涯を描いた『大空』で、第1回講談社児童文庫新人賞を受賞。 2008年、第1回日本児童文 学者協会賞(児童文学者協会主催)受賞 2009年、第1回講談社児童文学新人賞(児童文学者協会主催)受 賞 2013年、第3回講談社児童文学新人賞(児童文学者協会主催)受賞。 受賞作『大空』で「第1回講談 社児童文学賞選考委員長」を務める。2013年、第7回講談社 児童文学新人賞(児童 % gpt-2-gen run-root4 --tokens-to-generate 100 "1日午前の東京株式市場で日経平均 株価は反落した。前日比93円81銭(0.41%)安い2万2833円23銭で前場を終えた。" loading model from run-root4 generating text for prefix 1日午前の東京株式市場で日経平均株価は反落した。前日比93円81銭 (0.41%)安い2万2833円23銭で前場を終えた。 1日午前の東京株式市場で日経平均株価は反落した。前日比93円81銭(0.41%)安い2万2833円23銭で 前場を終えた。 株価は2月1日に100円を下回った。株価は100円下落した(日経平均 株価は10円台)。 日経平均株価は1月2日に100円下落した(日経平均株価は10円台)。日経平 均株価は2月2日に100円下 落した(日経平均株価は2月3日に100円台)。日経平均株価は2月7 日に100円下落した(日経平均株価は 2月10日に100円台)。日経 Page 17
  18. 18. Robot as a Service 条件付き生成 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • VAE/GAN • 条件: 潜在ベクトル • 意味との対応付けは明確でない • ラベル (cVAE/cGAN) • 言語モデル • 条件: 最初のセンテンス • 人が見ても理解できる内容 • より細かい制御を行う手法も • Grover [Zellers 2019] • demo: https://grover.allenai.org/ • CTRL [Keskar 2019] • Google colab: https://colab.research.google.com/drive/1hVveBQShDru1Mjnhe4C21 uQv4A2eH1tV Page 18
  19. 19. Robot as a Service 言語モデルは万能か? Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • コーパスの量・質が重要 • 正例でしか学習していない • cf: BERTとその派生 • Masked Language Model, Next Sentence Prediction, ... • 教師なしでできるタスク設定 • 内容の吟味 • ある種の知識を与えている? • 知識グラフなどの構築よりはおそらく低コスト • autoregressive • exposure bias問題 • 今後の研究に期待 • DialoGPT [Zhang 2019] GPT-2を対話へ拡張 • https://github.com/microsoft/DialoGPT Page 19
  20. 20. Robot as a Service まとめ Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • テキスト生成についての取り組みを紹介 • Data-to-Text • GANベース (SeqGAN, FM-GAN) • 言語モデル (GPT-2) • 利用者が望む出力を出したい • 言語モデルベースの手法は一つの方法 • さらなる条件付けのできる手法もある • 実用性を高めていきたい Page 20
  21. 21. Robot as a Service 参考 Copyright © Robot Fund Co., Ltd. All Rights Reserved 2019 • 事前学習言語モデルの動向 / Survey of Pretrained Language Models • at ACL網羅的サーベイ報告会 (2019/11/2) • arXivTimes • https://github.com/arXivTimes/arXivTimes/issues/1384 Page 21

×