SlideShare a Scribd company logo
1 of 37
平成25年2月8日
マイニング探検会・前田朗
今回は用語の
2次元マッピングの話           ここらへんで
                     うっすらと…




図書館総合展のマイニング探検会ポスターにも使ってました
1.目的と暫定結果
大学の学部・研究科図書館室と
所蔵学位論文マイニング
 ユーザー研究分野に沿った図書館蔵書選定
 学部・研究科の学位論文のタイトルの利用
 東京大学柏図書館は、東京大学新領域創成
 科学研究科(大学院)の学生のための図書
 館として性格あり

東京大学柏図書館では、学位論文のマイニングにより
    蔵書選定の質の向上を考えています
付随の目的
 職場の若手職員のスキル向上
  テキストマイニングであればソフトウエアの操作で済む
  プログラミングよりは敷居が低いかもしれない
  まだそのための準備中
 「言選Web」プロジェクトのため
  ユーザサポートのための知識習得
  システムの改善に向けての調査



    現状では、まだ自己研鑽レベル、
   若手と作業をする準備ができたら仕事で
学位論文データの利用
 学部の情報のひとつ
  学部Webサイト
  シラバス
  学位論文
  あと何が??
 データ利用の問題をクリアしやすい
  一般公開データ
  図書館でデータを保持
東京大学柏図書館所蔵・新領域創成科学研究科
学位論文論題データベース
                             東京大学柏図書館
                             所蔵の新領域創成科
                             学研究科(大学院)
                             の学位論文タイトル
                             修士論文と博士論
                             文約2000件
                             CGIによる簡易デー
                             タベース(18年前
                             に前田が作成した
                             CGIのバージョン
                             アップ版)

http://www.lib.u-tokyo.ac.jp/kashiwa/gakui/
暫定結果
       東京大学柏
       図書館所蔵の
       新領域創成科
       学研究科(大
       学院)の学位
       論文タイトル
       多次元尺度
       構成法(用語
       間の距離をみ
       る)
       KH Coderと
       言選Webの組
       み合わせ
暫定結果
       東京大学柏図
       書館所蔵の新領
       域創成科学研究
       科(大学院)の
       学位論文タイト
       ル
       共起ネット
       ワーク(線で関
       係をみる)
       KH Coderと言
       選Webの組み合
       わせ
なぜ用語の関連か?
 学部内で特定の用語がよく使われている
  ことは統計で調べやすい


 しかし、図書を選ぶときには「どの用語
  との組で使われているか」が重要


 たとえば、「電気」が頻出→
 「電気自動車」? それとも「電気業界」?
たとえば、以前の調査でも… (1)
東京大学新領域Webサイトと
東京大学柏図書館蔵書比較
        産業         不足テーマ?   科学
             物質

              電気



                   入門
             心理学




    学生リクエス
     ト多のため
たとえば、以前の調査でも… (2)
バランスの悪い
主題についての考察
 心理学
   学生からのリクエストが多いことによる
 電気
   電気自動車? より詳細な評価が必要
 物質
   同キャンパスに物性研究所図書室があるため購読を控
    えている?


    こういったことに答えを出せるかも??
なぜ用語の関連か?
 ~おまけ~
       ここらへんはだいたい調査ずみ


 学部Webサイトと図書館蔵書の相関
 学内図書館室の所蔵の共起を使った
図書館室のポジション調査


次のチャレンジとして別テーマを
とりあえずの課題
 新しい研究テーマには不向きかも
   過去の研究に依存
   あまり関係のない用語(テーマ)同士の組み合わせが
    はじかれる
 とりあえずの結果は出たが…
   用語の関連についての評価はまだ
 条件を変えたときを試せていない
   たとえば、専攻別にするとどうなるか?
2.楽してテキストマイニング
 ~ツールの使い方と結果~
フリーで楽に使える
テキストマイニングツール類
 「コーパスとテキストマイニング」(共立出版 2012)
で紹介されているツール
  KH Coder
  MTMineR
  RMeCab
  TinyTextMiner
 「言選Web」で開発したテキストマイニングツール
   termmi


  ※青字のツールについては、学位論文マイニングに試しずみ
2.1 KH Coder と
 「言選Web」
入力データ(学位論文タイトル)抜粋
日本映像コンテンツ産業への…
映画制作における…
分子被覆導線の構造と…
超臨界流体雰囲気を含む高圧環境下…
ペロブスカイト型酸化物を用いた…    1行につき、
                    ひとつの学位論
低次元モット絶縁体の…         文タイトル
高速回転下での多重連結…        (この例では、
高温超伝導体における金属絶…      タイトルの先頭
                    数文字だけ例
過渡反射格子スペクトル法を…      示)
帯域特化型干渉計における…
高分解能光電子分光による…
界面・ナノ空間領域における…
KHCoder
 学位論文タイトルリストを1行1タイトルの改行区切りで作成
 上部メニュー「プロジェクト」→「新規」
  処理テキストを選択
 上部メニュー「前処理」→「分析対象ファイルのチェック」→「前
  処理の実行」
 上部メニュー「ツール」→「抽出語」→「多次元尺度構成法」
 「抽出語-多次元尺度構成法-オプション」ウインドウで次のとおり
  設定
   品詞→「名詞」に限定
   最小出現数→ 結果を出したい用語数に合わせて調整
   バブルプロット→チェック
   クラスタの色分け→チェック (クラスタの数は適当に調整)
多次元尺度構成法(用語は形態素)
共起ネットワーク(用語は形態素)
さきの用語は形態素でしたが…
 言選Web開発担当としては、用語に形
  態素ではなく専門用語を使いたい!
 そこでKH Coderでもう一工夫
 用語切り出し用の辞書に言選Webの専
  門用語を登録することで、専門用語
  で結果を出せます
KHCoderで「言選Web」用語抽出
 上部メニュー「前処        機能解析      1008.431
 理」→「複合語の検         伝導体
                   酸化物
                              390.209
                              379.992
 出」→「TermExtratの   実験的研究
                   可視化
                              370.804
                              317.262
 利用」               電子構造
                   数値解析
                              310.372
                              294.012
                   構造解析       274.320
 「複合語の検出」ウイ       可能性        264.305

 ンドウの言選Web抽        最適化
                   基礎的研究
                              256.440
                              247.169

 出語をExcelに出力       光誘起相転移
                   電子状態
                              195.790
                              180.423
                   相互作用       179.348
 用語のみとりだしテ        分子機構
                   安定性
                              178.233
                              178.230
 キストファイルに          モデル化       156.030
                   建築物        155.849
  KH Coderには言選Webの用語抽出機能が組み込まれています
KH Coderの形態素辞書
 単語を次の文字列でサンドイッチ(エディタで可)
    [行頭] (品詞 (名詞 一般)) ((見出し語 (
    [行末] 1)) (読み だみー))
 KH Coderの「茶筅」辞書ディレクトリーに置く
    c:khcoderdepchasendic
 Windowsのコマンドプロンプトで次のコマンドを実
 行
  Cd c:khcoderdepchasendic
  ..makefile.bat
 KH Coderで新規プロジェクトで作り直し
「茶筅」形態素解析辞書
追加データ(抜粋)
 (品詞 (名詞 一般)) ((見出し語 (機能解析 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (伝導体 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (酸化物 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (実験的研究 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (可視化 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (電子構造 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (数値解析 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (構造解析 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (可能性 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (最適化 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (基礎的研究 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (光誘起相転移 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (電子状態 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (相互作用 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (分子機構 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (安定性 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (モデル化 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (建築物 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (構造制御 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (評価手法 1)) (読み だみー))
 (品詞 (名詞 一般)) ((見出し語 (水環境 1)) (読み だみー))

             以下略….


「用語の抽出さえできればよい」という割り切った辞書
           データ
「言選Web用語」の辞書登録が終わったら
       KHCoder を再度実行
KHCoder
  学位論文タイトルリストを1行1タイトルの改行区切りで作成
  上部メニュー「プロジェクト」→「新規」
   処理テキストを選択
  上部メニュー「前処理」→「分析対象ファイルのチェック」→「前
   処理の実行」
  上部メニュー「ツール」→「抽出語」→「多次元尺度構成法」
  「抽出語-多次元尺度構成法-オプション」ウインドウで次のとおり
   設定
    品詞→「名詞」に限定
    最小出現数→ 結果を出したい用語数に合わせて調整
    バブルプロット→チェック
    クラスタの色分け→チェック (クラスタの数は適当に調整)
暫定結果
       東京大学柏
       図書館所蔵の
       新領域創成科
       学研究科(大
       学院)の学位
       論文タイトル
       多次元尺度
       構成法(用語
       間の距離をみ
       る)
       KH Coderと
       言選Webの組
       み合わせ
暫定結果
       東京大学柏図
       書館所蔵の新領
       域創成科学研究
       科(大学院)の
       学位論文タイト
       ル
       共起ネット
       ワーク(線で関
       係をみる)
       KH Coderと言
       選Webの組み合
       わせ
2.2 termmiとR言語
termmiとR言語で
  多次元尺度構成法
 KHCoderは改行区切りレコード(1ファイル)でよかった
  が、termmiはレコードごとに別ファイルにする
 termmiをTF*IDFモードで実行
 termmi付属のtermdocument.pl を実行
  文書・用語行列ができる
 temmiの文書・用語行列をExcel等で開き、不要語を除く
 多くの文書に出現している用語のみ残す(termmiは文書群
 全体での重要度順のリストになっているが、それよりもdf
 を重視して用語を採用)
termmiとR言語で
多次元尺度構成法
 KHCoderは改行区切りレコードでよかったが、
  termmiはレコードごとに別ファイルにする
 termmiをTF*IDFモードで実行
 termmi付属のtermdocument.pl を実行
  文書・用語行列ができる
 temmiの文書・用語行列をExcel等で開き、不要語を
  除く
 多くの文書に出現している用語をのみ残す(Excleの
  countif関数で”0”の出現数の尐ない語を選ぶなど)。
  termmiは文書群全体での重要度順のリストになって
  いるが、それよりもdf(Document Frequency)を重視
  して用語を採用するほうがよさそう。
termmiの用語・文書行列を
R言語で多次元尺度構成法のグラフ化
R言語で次のコマンドを実行
 library(amap)
 library(maptools)
 gakui <- read.table("inputfile.txt", skip=1, sep=“t”, row.names=1);
 d <- dist(gakui, method="pearson")
 result <- cmdscale(d, k = 2)
 par(ps = 8)
 plot(result, pch=20)
 pointLabel(result,labels=rownames(result))



 R言語に amap,maptools パッケージを事前に追加しておく必要あり
暫定結果   7文書以上出現の80語




           結果は出たが、ちょっと読みにくいかも
KHCoderのR言語処理コードを参考に
  termmiの結果を見やすく出力
2.3 MTMineR
MTMineR
主成分分析の結果(文書のクラスタリング等いろいろ試し中)




             使用する用語の選択が簡単なのがよい
おわりに
 図書館業務においてテキストマイニング
  でできることは、まだまだありそう
 KH CoderやMTMineR,などは、GUIがあ
  り使い方も簡単
 termmiにはグラフ作成機能が付属してな
  いが、R言語と組み合わせで対応できる



                  Let’s Chalenge!

More Related Content

Similar to 蔵書選定のための学位論文タイトルマイニング

Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarKodaira Tomonori
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vecDeNA
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27Kensuke Mitsuzawa
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Hironori Washizaki
 
一口で何度もおいしい?DSL
一口で何度もおいしい?DSL一口で何度もおいしい?DSL
一口で何度もおいしい?DSLYou&I
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスShintaro Takemura
 
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)kulibrarians
 
情報検索の基礎 第1章 論理検索
情報検索の基礎 第1章 論理検索情報検索の基礎 第1章 論理検索
情報検索の基礎 第1章 論理検索nishioka1
 
Infosta実習 発表ver
Infosta実習 発表verInfosta実習 発表ver
Infosta実習 発表verskdmai
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介Masayoshi Kondo
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計Tadayoshi Sato
 
データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性Jiachen Yang
 
Xcore introduction
Xcore introductionXcore introduction
Xcore introductionAkira Tanaka
 
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介Shintaro Hosoai
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 

Similar to 蔵書選定のための学位論文タイトルマイニング (20)

Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vec
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
一口で何度もおいしい?DSL
一口で何度もおいしい?DSL一口で何度もおいしい?DSL
一口で何度もおいしい?DSL
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
 
情報検索の基礎 第1章 論理検索
情報検索の基礎 第1章 論理検索情報検索の基礎 第1章 論理検索
情報検索の基礎 第1章 論理検索
 
Infosta実習 発表ver
Infosta実習 発表verInfosta実習 発表ver
Infosta実習 発表ver
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
Rokko チュートリアル
Rokko チュートリアルRokko チュートリアル
Rokko チュートリアル
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計ドメインロジックの実装方法とドメイン駆動設計
ドメインロジックの実装方法とドメイン駆動設計
 
データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性
 
Xcore introduction
Xcore introductionXcore introduction
Xcore introduction
 
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 

蔵書選定のための学位論文タイトルマイニング