SlideShare una empresa de Scribd logo
1 de 18
Descargar para leer sin conexión
Leverages Marketing Department
データ分析ランチセッション#6
Camphrでモダンな自然言語処理
2020/02/19 渋谷スクランブルスクエア25F
レバレジーズ株式会社 データ戦略室室長
阪上晃幸
1
Leverages Marketing Department
● データ戦略室で隔週で行っている、書籍をベースにした勉強会の補講の位置付け。情報
の鮮度を意識した勉強会。
● 扱うトピックは発表者が任意で決める。
● 発表者以外は弁当を持参する。発表者は発表後に食事する。
● 発表時間は10~15分。質疑応答が10~15分。
ランチセッションとは
2
Leverages Marketing Department
自己紹介
3
● 阪上晃幸(@Mr_Sakaue)
● データアナリスト 兼 室長
● 経歴
2012/2:レバレジーズでインターン
2012/3:一橋大学大学院経済学研究科 修士課程修了
2012/4〜:レバレジーズ入社
● 趣味
料理、ブログ記事の作成
『かものはしの分析ブログ』で検索!
表参道のbillsからスクスク
が見える
Leverages Marketing Department
今回はCamphrを紹介しますよ!
4
Leverages Marketing Department
● PKSHA Technology Inc.が開発したNLPライブラリ
パークシャ
● CamphrはspaCyのプラグイン
○ spaCyとは
■ 自然言語処理を行うためのオープンソースソフトウェア・ライブラリで Pythonなどで書かれている。
■ 速い、易い、うまいの三拍子
● 速い:Cythonで書かれており、処理が速い。state-of-the-art(SOTA)な処理速度。
● 易い:シンプルなAPIで実装しやすい。
● (連携が)うまい:TensorFlow, PyTorch, scikit-learn, Gensimなどのエコシステムを利用できる。
■ 49以上の言語に対応
● Transformers(転移学習)やUdify(75もの言語に対応した自然言語処理のモデル)な
どの最先端の手法や、KNP(日本語構文・格・照応解析システム)などを扱うことができ
る。
Camphrとは
5
Leverages Marketing Department
● 係り受け解析(新旧)
● ファインチューニング(今回はデモなし)
● 埋め込みベクトル
● テキスト分類
Camphrでできること
6
Leverages Marketing Department
1. ColabをGPUモードで開く
2. !pip install camphr を実行
3. !pip install
https://github.com/PKSHATechnology-Research/camphr_models/releases/dow
nload/0.5/ja_mecab_udify-0.5.tar.gz を実行しモデルをダウンロード
4. Colabだとモデルは以下のパスとなる。尚、最後のディレクトリはファイル名。
/usr/local/lib/python3.6/dist-packages/ja_mecab_udify/ja_mecab_udify-0.5.0
5. !pip install mecab-python3 --only-binary :all: を実行しMeCabを使えるようにする。
Camphrを触ってみる
7
Leverages Marketing Department
係り受け(日本語)
8
Leverages Marketing Department
係り受け(英語)
9
一つのモデルで日
本語も英語も対応
している。
Leverages Marketing Department
係り受け(フランス語)
10
一つのモデルで日
本語も英語もフラ
ンス語も対応して
いる。
Leverages Marketing Department
● 学習済みのモデルを使って、入力したテキストの埋め込みベクトルを取得
Transformer(転移学習)
11
768次元の埋め込みベクトル
Leverages Marketing Department
● 埋め込みベクトル(768次元)同士でCOS類似度の計算
○ 文書単位での類似度とトークン単位での類似度を計算
Transformer(転移学習)
12
Leverages Marketing Department
● json形式でテキストとラベルをもたせたデータに対して文書分類が可能
○ jsonでトレインデータとラベルデータを用意する。(今回は20件ほど)
● コマンドライン(CLI)で実行可能
● Colabで実行可能。
文書分類
このような形式のデータをインプット
テキスト ラベル
ラベルデータ
13
Leverages Marketing Department
● Colab上で、CLIでの文書分類の学習の実行
文書分類
14
Leverages Marketing Department
● 訓練が終わったモデルを読み込んでラベルの予測を行う。
文書分類
ポジティブに分類されて欲しいが、訓練デー
タが20件ほどしかないので厳しいのかもしれ
ない。
15
Leverages Marketing Department
● 様々な学習済みモデルを簡単に扱えるのは良い。
● SpaCy自体にも興味を持てた。
● 複数言語を一つのモデルで扱えるUDifyはすごいと思った。
● 文書分類に関してもっと大きなデータセットを用意したり、日本語での文書分類を試して
みたい。
所感
16
Leverages Marketing Department
[1] Camphr - spaCy plugin for Transformers, Udify, Elmo, etc. : GitHub
[2] Camphr: spaCy plugin for Transformers, Udify, KNP : Qiita
[3] spaCy
[4] 日本語構文・格・照応解析システム KNP
[5] yasuokaの日記: 多言語係り受け解析ツールとしてのCamphr-Udify
[6] Displacy from spacy in google colab
[7] UDify
[8] Tutorial: Text Classification in Python Using spaCy
[9] Fine tuning Transformers
[10] Training spaCy’s Statistical Models
参考情報
17
Leverages Marketing Department
ご静聴ありがとうございました!
18

Más contenido relacionado

La actualidad más candente

機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話Ryota Kamoshida
 
はじめてのReleaseブランチ運用(svn編)
はじめてのReleaseブランチ運用(svn編)はじめてのReleaseブランチ運用(svn編)
はじめてのReleaseブランチ運用(svn編)将 高野
 
JIRA Agileを活用したアジャイル開発実践事例 #AUGJ
JIRA Agileを活用したアジャイル開発実践事例 #AUGJJIRA Agileを活用したアジャイル開発実践事例 #AUGJ
JIRA Agileを活用したアジャイル開発実践事例 #AUGJ満徳 関
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田Kosuke Shinoda
 
小さな自動化から始める快適お仕事生活〜ラズパイ+Node-REDでローコードに自動化しよう〜
小さな自動化から始める快適お仕事生活〜ラズパイ+Node-REDでローコードに自動化しよう〜小さな自動化から始める快適お仕事生活〜ラズパイ+Node-REDでローコードに自動化しよう〜
小さな自動化から始める快適お仕事生活〜ラズパイ+Node-REDでローコードに自動化しよう〜kusukawa
 
AI(人工知能)研究の最前線:社会はどのように変わるだろう?
AI(人工知能)研究の最前線:社会はどのように変わるだろう?AI(人工知能)研究の最前線:社会はどのように変わるだろう?
AI(人工知能)研究の最前線:社会はどのように変わるだろう?KIT Cognitive Interaction Design
 
心理的安全性を 0から80ぐらいに上げた話
心理的安全性を 0から80ぐらいに上げた話心理的安全性を 0から80ぐらいに上げた話
心理的安全性を 0から80ぐらいに上げた話Yusuke Hisatsu
 
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...Deep Learning JP
 
動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法Seiichi Uchida
 
LINEの新卒採用試験 ズバリ問題解説
LINEの新卒採用試験 ズバリ問題解説LINEの新卒採用試験 ズバリ問題解説
LINEの新卒採用試験 ズバリ問題解説LINE Corporation
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
20170618論文読み会 伊藤
20170618論文読み会 伊藤20170618論文読み会 伊藤
20170618論文読み会 伊藤Tomoki Itou
 
データプランナーによるデータ系施策について
データプランナーによるデータ系施策についてデータプランナーによるデータ系施策について
データプランナーによるデータ系施策についてRecruit Lifestyle Co., Ltd.
 
Goのサーバサイド実装におけるレイヤ設計とレイヤ内実装について考える
Goのサーバサイド実装におけるレイヤ設計とレイヤ内実装について考えるGoのサーバサイド実装におけるレイヤ設計とレイヤ内実装について考える
Goのサーバサイド実装におけるレイヤ設計とレイヤ内実装について考えるpospome
 
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索するShiga University, RIKEN
 
プロのPMが教える!議事録作成のコツ
プロのPMが教える!議事録作成のコツプロのPMが教える!議事録作成のコツ
プロのPMが教える!議事録作成のコツKosuke Shimoda
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールhoxo_m
 
ジオどす発表資料
ジオどす発表資料ジオどす発表資料
ジオどす発表資料naokiueda
 
機械学習をScrumで組織的に学習する (RSGT2022)
機械学習をScrumで組織的に学習する (RSGT2022)機械学習をScrumで組織的に学習する (RSGT2022)
機械学習をScrumで組織的に学習する (RSGT2022)Yukio Okajima
 

La actualidad más candente (20)

機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
 
はじめてのReleaseブランチ運用(svn編)
はじめてのReleaseブランチ運用(svn編)はじめてのReleaseブランチ運用(svn編)
はじめてのReleaseブランチ運用(svn編)
 
JIRA Agileを活用したアジャイル開発実践事例 #AUGJ
JIRA Agileを活用したアジャイル開発実践事例 #AUGJJIRA Agileを活用したアジャイル開発実践事例 #AUGJ
JIRA Agileを活用したアジャイル開発実践事例 #AUGJ
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田
 
小さな自動化から始める快適お仕事生活〜ラズパイ+Node-REDでローコードに自動化しよう〜
小さな自動化から始める快適お仕事生活〜ラズパイ+Node-REDでローコードに自動化しよう〜小さな自動化から始める快適お仕事生活〜ラズパイ+Node-REDでローコードに自動化しよう〜
小さな自動化から始める快適お仕事生活〜ラズパイ+Node-REDでローコードに自動化しよう〜
 
AI(人工知能)研究の最前線:社会はどのように変わるだろう?
AI(人工知能)研究の最前線:社会はどのように変わるだろう?AI(人工知能)研究の最前線:社会はどのように変わるだろう?
AI(人工知能)研究の最前線:社会はどのように変わるだろう?
 
心理的安全性を 0から80ぐらいに上げた話
心理的安全性を 0から80ぐらいに上げた話心理的安全性を 0から80ぐらいに上げた話
心理的安全性を 0から80ぐらいに上げた話
 
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
 
動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法
 
LINEの新卒採用試験 ズバリ問題解説
LINEの新卒採用試験 ズバリ問題解説LINEの新卒採用試験 ズバリ問題解説
LINEの新卒採用試験 ズバリ問題解説
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
20170618論文読み会 伊藤
20170618論文読み会 伊藤20170618論文読み会 伊藤
20170618論文読み会 伊藤
 
データプランナーによるデータ系施策について
データプランナーによるデータ系施策についてデータプランナーによるデータ系施策について
データプランナーによるデータ系施策について
 
Goのサーバサイド実装におけるレイヤ設計とレイヤ内実装について考える
Goのサーバサイド実装におけるレイヤ設計とレイヤ内実装について考えるGoのサーバサイド実装におけるレイヤ設計とレイヤ内実装について考える
Goのサーバサイド実装におけるレイヤ設計とレイヤ内実装について考える
 
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索する
 
プロのPMが教える!議事録作成のコツ
プロのPMが教える!議事録作成のコツプロのPMが教える!議事録作成のコツ
プロのPMが教える!議事録作成のコツ
 
Yahoo! ニュースにおける ドキュメント管理の事例紹介
Yahoo! ニュースにおけるドキュメント管理の事例紹介Yahoo! ニュースにおけるドキュメント管理の事例紹介
Yahoo! ニュースにおける ドキュメント管理の事例紹介
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
 
ジオどす発表資料
ジオどす発表資料ジオどす発表資料
ジオどす発表資料
 
機械学習をScrumで組織的に学習する (RSGT2022)
機械学習をScrumで組織的に学習する (RSGT2022)機械学習をScrumで組織的に学習する (RSGT2022)
機械学習をScrumで組織的に学習する (RSGT2022)
 

Similar a [第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理

[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選Teruyuki Sakaue
 
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみるTeruyuki Sakaue
 
Globalinx Newsletter Winter 2012
Globalinx Newsletter Winter 2012Globalinx Newsletter Winter 2012
Globalinx Newsletter Winter 2012GLOBALINX CORP
 
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1Teruyuki Sakaue
 
140921_JSET30_口頭発表
140921_JSET30_口頭発表140921_JSET30_口頭発表
140921_JSET30_口頭発表Yoshikazu Asada
 
Rep0216slide
Rep0216slideRep0216slide
Rep0216slidemokkle
 
メルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについてメルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについてshintaro matsuda
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方Takahiro Kubo
 
第 11 回 最先端 NLP 勉強会
第 11 回 最先端 NLP 勉強会第 11 回 最先端 NLP 勉強会
第 11 回 最先端 NLP 勉強会Yuko Fujiyama
 

Similar a [第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理 (11)

[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
 
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
 
Globalinx Newsletter Winter 2012
Globalinx Newsletter Winter 2012Globalinx Newsletter Winter 2012
Globalinx Newsletter Winter 2012
 
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
 
パーフェクト販促講座(売上アップ大学)
パーフェクト販促講座(売上アップ大学)パーフェクト販促講座(売上アップ大学)
パーフェクト販促講座(売上アップ大学)
 
140921_JSET30_口頭発表
140921_JSET30_口頭発表140921_JSET30_口頭発表
140921_JSET30_口頭発表
 
Rep0216slide
Rep0216slideRep0216slide
Rep0216slide
 
メルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについてメルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについて
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方
 
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
 
第 11 回 最先端 NLP 勉強会
第 11 回 最先端 NLP 勉強会第 11 回 最先端 NLP 勉強会
第 11 回 最先端 NLP 勉強会
 

Más de Teruyuki Sakaue

実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022Teruyuki Sakaue
 
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!Teruyuki Sakaue
 
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組みTeruyuki Sakaue
 
[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習Teruyuki Sakaue
 
[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9Teruyuki Sakaue
 
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについてデータ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについてTeruyuki Sakaue
 
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3Teruyuki Sakaue
 
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2Teruyuki Sakaue
 
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16Teruyuki Sakaue
 
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7Teruyuki Sakaue
 
Marketing×Python/Rで頑張れる事例16本ノック
Marketing×Python/Rで頑張れる事例16本ノックMarketing×Python/Rで頑張れる事例16本ノック
Marketing×Python/Rで頑張れる事例16本ノックTeruyuki Sakaue
 
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測Teruyuki Sakaue
 

Más de Teruyuki Sakaue (12)

実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
 
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!
 
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
 
[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習
 
[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9
 
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについてデータ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
 
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3
 
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
 
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
 
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
 
Marketing×Python/Rで頑張れる事例16本ノック
Marketing×Python/Rで頑張れる事例16本ノックMarketing×Python/Rで頑張れる事例16本ノック
Marketing×Python/Rで頑張れる事例16本ノック
 
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
 

[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理

  • 1. Leverages Marketing Department データ分析ランチセッション#6 Camphrでモダンな自然言語処理 2020/02/19 渋谷スクランブルスクエア25F レバレジーズ株式会社 データ戦略室室長 阪上晃幸 1
  • 2. Leverages Marketing Department ● データ戦略室で隔週で行っている、書籍をベースにした勉強会の補講の位置付け。情報 の鮮度を意識した勉強会。 ● 扱うトピックは発表者が任意で決める。 ● 発表者以外は弁当を持参する。発表者は発表後に食事する。 ● 発表時間は10~15分。質疑応答が10~15分。 ランチセッションとは 2
  • 3. Leverages Marketing Department 自己紹介 3 ● 阪上晃幸(@Mr_Sakaue) ● データアナリスト 兼 室長 ● 経歴 2012/2:レバレジーズでインターン 2012/3:一橋大学大学院経済学研究科 修士課程修了 2012/4〜:レバレジーズ入社 ● 趣味 料理、ブログ記事の作成 『かものはしの分析ブログ』で検索! 表参道のbillsからスクスク が見える
  • 5. Leverages Marketing Department ● PKSHA Technology Inc.が開発したNLPライブラリ パークシャ ● CamphrはspaCyのプラグイン ○ spaCyとは ■ 自然言語処理を行うためのオープンソースソフトウェア・ライブラリで Pythonなどで書かれている。 ■ 速い、易い、うまいの三拍子 ● 速い:Cythonで書かれており、処理が速い。state-of-the-art(SOTA)な処理速度。 ● 易い:シンプルなAPIで実装しやすい。 ● (連携が)うまい:TensorFlow, PyTorch, scikit-learn, Gensimなどのエコシステムを利用できる。 ■ 49以上の言語に対応 ● Transformers(転移学習)やUdify(75もの言語に対応した自然言語処理のモデル)な どの最先端の手法や、KNP(日本語構文・格・照応解析システム)などを扱うことができ る。 Camphrとは 5
  • 6. Leverages Marketing Department ● 係り受け解析(新旧) ● ファインチューニング(今回はデモなし) ● 埋め込みベクトル ● テキスト分類 Camphrでできること 6
  • 7. Leverages Marketing Department 1. ColabをGPUモードで開く 2. !pip install camphr を実行 3. !pip install https://github.com/PKSHATechnology-Research/camphr_models/releases/dow nload/0.5/ja_mecab_udify-0.5.tar.gz を実行しモデルをダウンロード 4. Colabだとモデルは以下のパスとなる。尚、最後のディレクトリはファイル名。 /usr/local/lib/python3.6/dist-packages/ja_mecab_udify/ja_mecab_udify-0.5.0 5. !pip install mecab-python3 --only-binary :all: を実行しMeCabを使えるようにする。 Camphrを触ってみる 7
  • 11. Leverages Marketing Department ● 学習済みのモデルを使って、入力したテキストの埋め込みベクトルを取得 Transformer(転移学習) 11 768次元の埋め込みベクトル
  • 12. Leverages Marketing Department ● 埋め込みベクトル(768次元)同士でCOS類似度の計算 ○ 文書単位での類似度とトークン単位での類似度を計算 Transformer(転移学習) 12
  • 13. Leverages Marketing Department ● json形式でテキストとラベルをもたせたデータに対して文書分類が可能 ○ jsonでトレインデータとラベルデータを用意する。(今回は20件ほど) ● コマンドライン(CLI)で実行可能 ● Colabで実行可能。 文書分類 このような形式のデータをインプット テキスト ラベル ラベルデータ 13
  • 14. Leverages Marketing Department ● Colab上で、CLIでの文書分類の学習の実行 文書分類 14
  • 15. Leverages Marketing Department ● 訓練が終わったモデルを読み込んでラベルの予測を行う。 文書分類 ポジティブに分類されて欲しいが、訓練デー タが20件ほどしかないので厳しいのかもしれ ない。 15
  • 16. Leverages Marketing Department ● 様々な学習済みモデルを簡単に扱えるのは良い。 ● SpaCy自体にも興味を持てた。 ● 複数言語を一つのモデルで扱えるUDifyはすごいと思った。 ● 文書分類に関してもっと大きなデータセットを用意したり、日本語での文書分類を試して みたい。 所感 16
  • 17. Leverages Marketing Department [1] Camphr - spaCy plugin for Transformers, Udify, Elmo, etc. : GitHub [2] Camphr: spaCy plugin for Transformers, Udify, KNP : Qiita [3] spaCy [4] 日本語構文・格・照応解析システム KNP [5] yasuokaの日記: 多言語係り受け解析ツールとしてのCamphr-Udify [6] Displacy from spacy in google colab [7] UDify [8] Tutorial: Text Classification in Python Using spaCy [9] Fine tuning Transformers [10] Training spaCy’s Statistical Models 参考情報 17