Enviar búsqueda
Cargar
青空文庫のWebアプリ(月8000万PV)への活用事例
•
Descargar como PPTX, PDF
•
1 recomendación
•
936 vistas
P
pawa_
Seguir
青空文庫を一般語フィルターとして pixivコミックで活用した話
Leer menos
Leer más
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 16
Descargar ahora
Recomendados
1106 map.key
1106 map.key
Tokyo City University, Ueno Lab.
「みんなで作ったオープンデータでオリジナルツアー」のご紹介
「みんなで作ったオープンデータでオリジナルツアー」のご紹介
popopoponmauz
About qzss and gps
About qzss and gps
kuma_hati
Aries Kubo081125
Aries Kubo081125
kubo
第3回 地図の勉強会
第3回 地図の勉強会
Code for SAITAMA
青空文庫アイデアソン アプリ分科会 API提供・オープンソース化
青空文庫アイデアソン アプリ分科会 API提供・オープンソース化
Takeshi Mikami
図書館マップアプリをオープンソースに
図書館マップアプリをオープンソースに
Ryuuji Yoshimoto
Strolyによる古地図やイラスト地図を使ったまち歩きや、Wikipedia記事との連携の方法
Strolyによる古地図やイラスト地図を使ったまち歩きや、Wikipedia記事との連携の方法
Toru Takahashi
Recomendados
1106 map.key
1106 map.key
Tokyo City University, Ueno Lab.
「みんなで作ったオープンデータでオリジナルツアー」のご紹介
「みんなで作ったオープンデータでオリジナルツアー」のご紹介
popopoponmauz
About qzss and gps
About qzss and gps
kuma_hati
Aries Kubo081125
Aries Kubo081125
kubo
第3回 地図の勉強会
第3回 地図の勉強会
Code for SAITAMA
青空文庫アイデアソン アプリ分科会 API提供・オープンソース化
青空文庫アイデアソン アプリ分科会 API提供・オープンソース化
Takeshi Mikami
図書館マップアプリをオープンソースに
図書館マップアプリをオープンソースに
Ryuuji Yoshimoto
Strolyによる古地図やイラスト地図を使ったまち歩きや、Wikipedia記事との連携の方法
Strolyによる古地図やイラスト地図を使ったまち歩きや、Wikipedia記事との連携の方法
Toru Takahashi
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
Yasunori Kirimoto
みんなの公園マップ札幌版
みんなの公園マップ札幌版
Yasunori Kirimoto
OpenStreetMapとマッピングパーティーについて
OpenStreetMapとマッピングパーティーについて
Noriko Takiguchi
FOSS4G 2009 Tokyo (R and Geo) in Japanese
FOSS4G 2009 Tokyo (R and Geo) in Japanese
Masafumi Okada
第5回 地図の勉強会
第5回 地図の勉強会
Code for SAITAMA
Newsgraphy - Web 2008 Expo
Newsgraphy - Web 2008 Expo
Kaisei Hamamoto
Props3
Props3
ssuser237373
Más contenido relacionado
La actualidad más candente
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
Yasunori Kirimoto
みんなの公園マップ札幌版
みんなの公園マップ札幌版
Yasunori Kirimoto
OpenStreetMapとマッピングパーティーについて
OpenStreetMapとマッピングパーティーについて
Noriko Takiguchi
FOSS4G 2009 Tokyo (R and Geo) in Japanese
FOSS4G 2009 Tokyo (R and Geo) in Japanese
Masafumi Okada
第5回 地図の勉強会
第5回 地図の勉強会
Code for SAITAMA
Newsgraphy - Web 2008 Expo
Newsgraphy - Web 2008 Expo
Kaisei Hamamoto
Props3
Props3
ssuser237373
La actualidad más candente
(7)
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
はじめてみよう地図を使ったデータビジュアライゼーション入門 ~ FOSS4Gとオープンデータで可視化した地図を公開 ~
みんなの公園マップ札幌版
みんなの公園マップ札幌版
OpenStreetMapとマッピングパーティーについて
OpenStreetMapとマッピングパーティーについて
FOSS4G 2009 Tokyo (R and Geo) in Japanese
FOSS4G 2009 Tokyo (R and Geo) in Japanese
第5回 地図の勉強会
第5回 地図の勉強会
Newsgraphy - Web 2008 Expo
Newsgraphy - Web 2008 Expo
Props3
Props3
青空文庫のWebアプリ(月8000万PV)への活用事例
1.
青空文庫20周年記念シンポジウム 2017年10月14日 青空文庫のWebアプリ(月8000万PV)への活用事例 〜青空文庫を一般語フィルターとして pixivコミックで活用した話〜 ピクシブ株式会社 吉岡 康平
(@_pawa_)
2.
青空文庫と私 • 朗読 - きくドラ・Audible・海王社文庫
朗読CD • 蘇りしチェッカー君 - 耕作員のための文字チェッカー 2
3.
青空文庫のWebアプリへの活用事例 3 ・pixivコミック 電子コミックを無料で読める Webアプリケーション (スマホアプリもあるよ ) 公開に当たって ここにあった画像は 消去されています
4.
青空文庫をpixivコミックで活用した手順 1. 作品テキストと作品情報をDBに挿入 2. 必要なデータを絞り込んで抽出 3.
テキストから単語を抽出して統計をとる 4. タグ付けの精度が向上するように統計情 報を計算に組み込む 4
5.
作品テキストと作品情報をDBに挿 入 • http://www.aozora.gr.jp/index_pages/p erson_all.html にあるデータを利用 5
6.
作品テキストと作品情報をDBに挿 入 • 使った主なデータ: - 本文テキスト (「テキストファイルURL」からダウンロード) -
分類番号(NDC:日本十進分類法) - ファイル文字集合 - 文字遣い種別 - 著作権フラグ DBに入れることで絞込を容易に 6
7.
必要なデータを絞り込んで抽出 • pixivコミックでは - 分類番号:NDC913(日本文学の小説・物語) -
文字遣い種別:新字新仮名 - 著作権フラグ:なし で絞り込んで本文テキストを抽出 7
8.
テキストから単語を抽出して統計をと る • 前処理 • 本文以外の情報を正規表現で削除 •
入力者注 • ふりがな • フォーマットの説明 • 底本情報 など 8
9.
テキストから単語を抽出して統計をと る • 単語分割と品詞タグ付け • MeCab •
青空:名詞,一般 • 文庫:名詞,一般 • 20:名詞,数 • 周年:名詞,接尾,助数詞 • 記念:名詞,サ変接続 • シンポジウム:名詞,一般 9
10.
テキストから単語を抽出して統計をと る • 統計 • pixivコミックでは逆文書頻度を利用 •
log(全作品数 / ある単語が出現する作品数) 10
11.
逆文書頻度(IDF) • 少ない作品に出現する単語なら高く • 多くの作品に出現する単語なら小さい 重みを与える •
青空文庫の場合: idf(青空) = 3.3873625408359955(文書頻度:249) idf(文庫) = 5.265683984247743(文書頻度:67) idf(チャカポコ) = 9.353146825498083(文書頻度:3) idf(シンポジウム) = 11.353146825498083(文書頻度:0) 11
12.
どう役立ったか • pixivコミックのタグ • 全作品説明文を分析して •
その作品固有の単語なら高スコア▲ • 他の作品説明文にも頻出の単語なら低スコア▼ としてスコアの高い順番に並べていたが、さらに • 一般的な単語のスコアを落として • 一般的でない珍しい単語のスコアを上げる のに役立った 12
13.
具体的に… プレイボーイ / パワーアップ
/ SNS / 人気シリー ズ / 最強 / 羨望 / 激動 / 圧倒的 / 戦闘 • 青色の「羨望」「激動」「戦闘」などの 青空文庫での出現頻度が高く、 pixivコミックでの出現頻度が低い 単語の順番を下げるのに特に効果があった → 一般語フィルター 13
14.
14 公開に当たって ここにあった画像は 削除されています
15.
もっと詳しく • pixiv inside •
「pixivコミック作品のタグが自動生成さ れるまでの軌跡」 • https://inside.pixiv.blog/pawa/2349 15
16.
おしまい 16
Descargar ahora