SlideShare una empresa de Scribd logo
1 de 16
青空文庫20周年記念シンポジウム
2017年10月14日
青空文庫のWebアプリ(月8000万PV)への活用事例
〜青空文庫を一般語フィルターとして pixivコミックで活用した話〜
ピクシブ株式会社
吉岡 康平 (@_pawa_)
青空文庫と私
• 朗読
- きくドラ・Audible・海王社文庫 朗読CD
• 蘇りしチェッカー君
- 耕作員のための文字チェッカー
2
青空文庫のWebアプリへの活用事例
3
・pixivコミック
電子コミックを無料で読める
Webアプリケーション
(スマホアプリもあるよ )
公開に当たって
ここにあった画像は
消去されています
青空文庫をpixivコミックで活用した手順
1. 作品テキストと作品情報をDBに挿入
2. 必要なデータを絞り込んで抽出
3. テキストから単語を抽出して統計をとる
4. タグ付けの精度が向上するように統計情
報を計算に組み込む
4
作品テキストと作品情報をDBに挿
入
• http://www.aozora.gr.jp/index_pages/p
erson_all.html にあるデータを利用
5
作品テキストと作品情報をDBに挿
入
• 使った主なデータ:
- 本文テキスト
(「テキストファイルURL」からダウンロード)
- 分類番号(NDC:日本十進分類法)
- ファイル文字集合
- 文字遣い種別
- 著作権フラグ
DBに入れることで絞込を容易に
6
必要なデータを絞り込んで抽出
• pixivコミックでは
- 分類番号:NDC913(日本文学の小説・物語)
- 文字遣い種別:新字新仮名
- 著作権フラグ:なし
で絞り込んで本文テキストを抽出
7
テキストから単語を抽出して統計をと
る
• 前処理
• 本文以外の情報を正規表現で削除
• 入力者注
• ふりがな
• フォーマットの説明
• 底本情報
など
8
テキストから単語を抽出して統計をと
る
• 単語分割と品詞タグ付け
• MeCab
• 青空:名詞,一般
• 文庫:名詞,一般
• 20:名詞,数
• 周年:名詞,接尾,助数詞
• 記念:名詞,サ変接続
• シンポジウム:名詞,一般
9
テキストから単語を抽出して統計をと
る
• 統計
• pixivコミックでは逆文書頻度を利用
• log(全作品数 / ある単語が出現する作品数)
10
逆文書頻度(IDF)
• 少ない作品に出現する単語なら高く
• 多くの作品に出現する単語なら小さい
重みを与える
• 青空文庫の場合:
idf(青空) = 3.3873625408359955(文書頻度:249)
idf(文庫) = 5.265683984247743(文書頻度:67)
idf(チャカポコ) = 9.353146825498083(文書頻度:3)
idf(シンポジウム) = 11.353146825498083(文書頻度:0)
11
どう役立ったか
• pixivコミックのタグ
• 全作品説明文を分析して
• その作品固有の単語なら高スコア▲
• 他の作品説明文にも頻出の単語なら低スコア▼
としてスコアの高い順番に並べていたが、さらに
• 一般的な単語のスコアを落として
• 一般的でない珍しい単語のスコアを上げる
のに役立った
12
具体的に…
プレイボーイ / パワーアップ / SNS / 人気シリー
ズ / 最強 / 羨望 / 激動 / 圧倒的 / 戦闘
• 青色の「羨望」「激動」「戦闘」などの
青空文庫での出現頻度が高く、
pixivコミックでの出現頻度が低い
単語の順番を下げるのに特に効果があった
→ 一般語フィルター
13
14
公開に当たって
ここにあった画像は
削除されています
もっと詳しく
• pixiv inside
• 「pixivコミック作品のタグが自動生成さ
れるまでの軌跡」
• https://inside.pixiv.blog/pawa/2349
15
おしまい
16

Más contenido relacionado

La actualidad más candente

はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~Yasunori Kirimoto
 
みんなの公園マップ札幌版
みんなの公園マップ札幌版みんなの公園マップ札幌版
みんなの公園マップ札幌版Yasunori Kirimoto
 
OpenStreetMapとマッピングパーティーについて
OpenStreetMapとマッピングパーティーについてOpenStreetMapとマッピングパーティーについて
OpenStreetMapとマッピングパーティーについてNoriko Takiguchi
 
FOSS4G 2009 Tokyo (R and Geo) in Japanese
FOSS4G 2009 Tokyo (R and Geo) in JapaneseFOSS4G 2009 Tokyo (R and Geo) in Japanese
FOSS4G 2009 Tokyo (R and Geo) in JapaneseMasafumi Okada
 
第5回 地図の勉強会
第5回 地図の勉強会第5回 地図の勉強会
第5回 地図の勉強会Code for SAITAMA
 
Newsgraphy - Web 2008 Expo
Newsgraphy - Web 2008 ExpoNewsgraphy - Web 2008 Expo
Newsgraphy - Web 2008 ExpoKaisei Hamamoto
 

La actualidad más candente (7)

はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
 
みんなの公園マップ札幌版
みんなの公園マップ札幌版みんなの公園マップ札幌版
みんなの公園マップ札幌版
 
OpenStreetMapとマッピングパーティーについて
OpenStreetMapとマッピングパーティーについてOpenStreetMapとマッピングパーティーについて
OpenStreetMapとマッピングパーティーについて
 
FOSS4G 2009 Tokyo (R and Geo) in Japanese
FOSS4G 2009 Tokyo (R and Geo) in JapaneseFOSS4G 2009 Tokyo (R and Geo) in Japanese
FOSS4G 2009 Tokyo (R and Geo) in Japanese
 
第5回 地図の勉強会
第5回 地図の勉強会第5回 地図の勉強会
第5回 地図の勉強会
 
Newsgraphy - Web 2008 Expo
Newsgraphy - Web 2008 ExpoNewsgraphy - Web 2008 Expo
Newsgraphy - Web 2008 Expo
 
Props3
Props3Props3
Props3
 

青空文庫のWebアプリ(月8000万PV)への活用事例