Más contenido relacionado
La actualidad más candente (14)
Similar a 自然言語処理で新型コロナウィルスに立ち向かう (13)
Más de Takahiro Kubo (19)
自然言語処理で新型コロナウィルスに立ち向かう
- 1. Copyright © TIS Inc. All rights reserved.
自然言語処理で新型コロナウィルスに立ち向かう
戦略技術センター
久保隆宏
Structure First approach will be needed for NLP in crisis
- 2. Copyright © TIS Inc. All rights reserved. 2
Agenda
◼ 新型コロナウィルス対策のための自然言語処理
◼ データセット
◼ 論文検索
◼ 質問回答
◼ 対話診断
◼ 危機的状況で問われる自然言語処理の有用性
◼ 前提
◼ 課題
◼ 学び
◼ 危機的状況での自然言語処理の役割
◼ 構造化
- 3. Copyright © TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 フィナンシャルサービス部
◼ 化学系メーカーの業務コンサルタント出身。
◼ 既存の技術では業務改善の範囲に限界があると感じ、戦略技術
センターへ異動。その後ESGxNLPの芽が出てきたので現部門に異動。
◼ ESGだけでなく広く企業の適正評価を目指し、財務/非財務一体の評価
をテーマに研究/事業化を推進。
自己紹介
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
ESG評価を支える自然言語処理
基盤の構築
(@ML@Loft #6)
Pythonで学ぶ強化学習
(@講談社サンエンティフィク)
- 4. Copyright © TIS Inc. All rights reserved. 4
ESG評価に関するTISの取り組みについて
◼ TISのフィナンシャルサービス部では、財務データの取り込み・診断
サービスを提供しています。
SCORE ENTRY
決算書から勘定と値を読み取るOCRサービス。
国内企業の決算書処理数シェア1位・銀行を中心とした
300を超える企業様に導入頂いています。
SCORE NAVI
財務データの診断サービス。財務上の問題点をコメント
し、グラフを使いわかりやすく提供する。M&Aでの企業
評価には別途Finplusを提供。
◼ 企業評価には財務だけでなく非財務の観点も必要です。現在非財務情報
の活用、特にESG情報の活用に力を入れています。
CoARiJ
財務データと、有価証券報告書の記載内容/CSR報告書と
いった非財務データを組み合わせたデータセット。
非財務の情報(テキストでの記述)がどう財務に影響して
いるか、財務パフォーマンスがどう非財務の活動に影響
を与えるかといった分析が可能。
⇒研究・非財務利活用の土壌を醸成
コンペ開催中
- 6. Copyright © TIS Inc. All rights reserved. 6
データセット
◼ COVID-19 Open Research Dataset (CORD-19)
Allen Institute for AIが中心となり公開した、新型コ
ロナに関連する論文を集めたデータセット。
52,000件のフリーアクセスの論文(うち41,000件につ
いては全文)が収録されている。週次で更新されている。
◼ COVID-19 information by language
Googleが立ち上げた絶滅の危機にある言語の情報を収
集するプロジェクト。新型コロナウィルスに関する情
報も収集されており、政府やNGOなどが公式発表した
リソースがまとめられている。
- 7. Copyright © TIS Inc. All rights reserved. 7
論文検索
◼ CoViz
データセットを公開するAllen Institute for AI
が公開した、(論文内の)キーワード同士の関連
を可視化するサイト。薬学用と症例用が分かれ
ている。
エッジをクリックすると、関連が含まれる論文
が表示される(一時話題になった抗マラリア薬の
情報も、COVID-19=malariaのエッジから発見
することができる)。
◼ TREC-COVID
Allen Institute for AIが公開したデータセットをベースにした検索シ
ステムの構築タスク。現在はRound1で、特定のトピック(queryだけ
でなくqueryの背景にある質問・状況などをセットにしたもの)に関連
するデータを抽出する。4/25(今日)からアノテーションをして評価
データセットを作っている。
- 8. Copyright © TIS Inc. All rights reserved. 8
質問回答 (1/2)
◼ COVID-19 Open Research Dataset Challenge (CORD-19)
新型コロナウィルスに関する科学的な質問に対
し正確・有用な情報を回答するコンペティショ
ン(質問は米国科学アカデミーやWHOのR&Dブ
ループリントから設定されている)。
コンペティションでは、精度と同程度に手法の
明確性・実装容易性、また可視化が評価される。
こんな感じでかなり凝っている(ドキュメントも秀逸)
- 9. Copyright © TIS Inc. All rights reserved. 9
質問回答 (2/2)
◼ COVID-19 Kaggle community contributions-Literature Review
Kaggleが公開している、論文から新型コロナ
ウィルスに関係する質問の回答まとめたページ。
潜伏期間や基礎疾患の有無による致死率など、
観点ごとにまとめられたデータを公開している。
アルゴリズムによる抽出+人手の精査で作成し
ており、フォーマットに則った抽出結果を出力
するKernel(アルゴリズム部分)を募集している
(詳細はこちら)。
- 10. Copyright © TIS Inc. All rights reserved. 10
対話診断
◼ Testing for COVID-19: Self-Checker
アメリカ疾病予防管理センター(CDC)は新型コ
ロナウィルスの診察を受けるべきかを自己診断
できる対話型アプリケーションを公開している。
他にも様々な新型コロナウィルス診断の対話
サービスがあるが、同じ症状を想定して対話し
ても結果が異なるという指摘あり。人間の医師
の診断もまちまちという説もあるが、Webサー
ビスの場合世界中の人が使えるので影響範囲が
大きく公衆衛生に影響を与えるという意見も。
- 12. Copyright © TIS Inc. All rights reserved. 12
◼ この状況で有用と認められた応用例は、今後の自然言語処理の活用に
非常に重要な意味を持つ。
◼ 一方「そもそも役に立たなかった」となれば自然言語処理の発展に
暗雲が立ち込めることになる(悪く言うと緊急時役に立たない余暇
の技術)。
◼ 現在の挑戦の多くは、過去の「重大な失敗例」と同じ轍を踏んでいる。
◼ 失敗から学びあるべき活用方法にたどり着く必要がある。
重大な失敗例とは・・・
前提 (1/2)
- 13. Copyright © TIS Inc. All rights reserved. 13
前提 (2/2)
Waton Health
(※貶めるわけではなく、難題に挑戦し問題点を明らかにした先駆者としての貢献
は非常に大きいと思います)
◼ d
記事リンク
https://news.livedoor.com/article/detail/14921960/
論文検索のWatson for Oncologyや薬に
関する情報を発見するIBM Watson for
Drug Discoveryなど、現状提案されて
いるほぼあらゆるソリューションを完備
している。
4000億円ともいわれるその投資の結果
は、2018年5月後半に大規模なレイオフ、
公式ページも昨年から更新無し、最新の
事例は2017年・・・となっている。
この軌跡は"How IBM Watson
Overpromised and Underdelivered on
AI Health Care "に詳しい。
- 14. Copyright © TIS Inc. All rights reserved. 14
論文/カルテのマイニングを行うWatson for Oncologyで指摘された点
◼ 頻度 != 真実
◼ Wantsonは統計に基づき処方を提案するが実際の医者はそうしない
◼ 統計的に発見されたパターンは医学的「エビデンス」と認められない。
◼ 情報 != 現在
◼ あらゆる情報が「現在」の情報ではない。
◼ テキストからの情報抽出をもとにした診断精度は90~96%だが、時系列の
診療データに対する抽出精度は63~65%と精度が30%程落ちる。
◼ 精度 != 信頼
◼ 提案された診断結果とエキスパートの判断の一致率が病院によって
10~30%異なる。
課題 (1/2)
How IBM Watson Overpromised and Underdelivered
on AI Health Care より。
近年注目されている、機械学習モデル
のバイアスに近い問題。
- 15. Copyright © TIS Inc. All rights reserved. 15
「頻度 != 真実」は自然言語処理の有用性について根源的な問題。
◼ 真実の情報は少ない一方、噂や憶測を含めた雑多な情報は多い。
◼ 真実: 公的機関・政府機関・保健機関等の公表情報
◼ その他: SNS、ニュース、ブログ記事etc...
◼ 頻度ベースで判断するとその他のノイズに引きずられることになる。
◼ トイレットペーパーがなくなる!とか。
課題 (2/2)
- 16. Copyright © TIS Inc. All rights reserved. 16
◼ Watson for Genomicsは結構使われている
◼ 患者の遺伝情報をベースに関連資料をまとめてレポートを作る
◼ 遺伝情報は構造化されていてかつ欠損がないのがポイント
当たり前だがSQLにかけられるデータが非常に役に立つ。
=>構造化されたデータに対する、曖昧性のない検索が有用。
学び
- 18. Copyright © TIS Inc. All rights reserved. 18
◼ 専門的知見から定義された構造に準じ非構造データを構造化する
危機的状況での自然言語処理の役割 (1/3)
構造化(前処理)
東洋経済オンライン「新型コロナウイルス 国内感染の状況」のGitHubより
構造化項目が増えるほど検索の適格性が高まる。
特にActive/Not Activeの情報(有効期間など)はとても大事。
- 19. Copyright © TIS Inc. All rights reserved. 19
危機的状況での自然言語処理の役割 (2/3)
◼ COVID-19 Kaggle community contributions-Literature Reviewの
活動が、一番的を得ている。
◼ 論文情報の構造化。
〇: Structure First
あるべき情報構造を決定し、非構造のデータを構造化する。
①情報構造の決定
②情報の抽出
×: Data First
とりあえず文書をぶっこんでセサミストリートファミリー
(BERT/ELMo)で検索
- 20. Copyright © TIS Inc. All rights reserved. 20
自然言語処理の活躍シーンはまだまだこれから。
◼ 特に補助金や支援の情報
◼ 構造の定義、構造に基づいた検索がまさに求められる領域。
危機的状況での自然言語処理の役割 (3/3)
都道府県 期間 額
愛知県 4/1~12/31 30万
静岡県 4/15~9/30 15万
・・・
◼ 経済産業省らが頑張ってまとめてくれている。
◼ 新型コロナウイルス感染症対策の支援情報公開・検索サービスについて
◼ こちらをベースにより有用な構造化、まだ構造化されていない補助金/
支援情報を構造化するのはGOOD。