蔵書選定のための学位論文タイトルマイニング

平成２５年２月８日
マイニング探検会・前田朗

今回は用語の
２次元マッピングの話ここらへんで
うっすらと…

図書館総合展のマイニング探検会ポスターにも使ってました

大学の学部・研究科図書館室と
所蔵学位論文マイニング
 ユーザー研究分野に沿った図書館蔵書選定
 学部・研究科の学位論文のタイトルの利用
 東京大学柏図書館は、東京大学新領域創成
科学研究科（大学院）の学生のための図書
館として性格あり

東京大学柏図書館では、学位論文のマイニングにより
蔵書選定の質の向上を考えています

付随の目的
 職場の若手職員のスキル向上
 テキストマイニングであればソフトウエアの操作で済む
 プログラミングよりは敷居が低いかもしれない
 まだそのための準備中
 「言選Web」プロジェクトのため
 ユーザサポートのための知識習得
 システムの改善に向けての調査

現状では、まだ自己研鑽レベル、
若手と作業をする準備ができたら仕事で

学位論文データの利用
 学部の情報のひとつ
 学部Webサイト
 シラバス
 学位論文
 あと何が？？
 データ利用の問題をクリアしやすい
 一般公開データ
 図書館でデータを保持

東京大学柏図書館所蔵・新領域創成科学研究科
学位論文論題データベース
東京大学柏図書館
所蔵の新領域創成科
学研究科（大学院）
の学位論文タイトル
修士論文と博士論
文約２０００件
CGIによる簡易デー
タベース（１８年前
に前田が作成した
CGIのバージョン
アップ版）

http://www.lib.u-tokyo.ac.jp/kashiwa/gakui/

暫定結果
東京大学柏
図書館所蔵の
新領域創成科
学研究科（大
学院）の学位
論文タイトル
多次元尺度
構成法（用語
間の距離をみ
る）
KH Coderと
言選Webの組
み合わせ

暫定結果
東京大学柏図
書館所蔵の新領
域創成科学研究
科（大学院）の
学位論文タイト
ル
共起ネット
ワーク（線で関
係をみる）
KH Coderと言
選Webの組み合
わせ

なぜ用語の関連か？
 学部内で特定の用語がよく使われている
ことは統計で調べやすい

 しかし、図書を選ぶときには「どの用語
との組で使われているか」が重要

 たとえば、「電気」が頻出→
「電気自動車」？それとも「電気業界」？

たとえば、以前の調査でも… (1)
東京大学新領域Webサイトと
東京大学柏図書館蔵書比較
産業不足テーマ？科学
物質

電気

入門
心理学

学生リクエス
ト多のため

たとえば、以前の調査でも… (2)
バランスの悪い
主題についての考察
 心理学
 学生からのリクエストが多いことによる
 電気
 電気自動車？より詳細な評価が必要
 物質
 同キャンパスに物性研究所図書室があるため購読を控
えている？

こういったことに答えを出せるかも？？

なぜ用語の関連か？
～おまけ～
ここらへんはだいたい調査ずみ

 学部Webサイトと図書館蔵書の相関
 学内図書館室の所蔵の共起を使った
図書館室のポジション調査

次のチャレンジとして別テーマを

とりあえずの課題
 新しい研究テーマには不向きかも
 過去の研究に依存
 あまり関係のない用語（テーマ）同士の組み合わせが
はじかれる
 とりあえずの結果は出たが…
 用語の関連についての評価はまだ
 条件を変えたときを試せていない
 たとえば、専攻別にするとどうなるか？

２．楽してテキストマイニング
～ツールの使い方と結果～

フリーで楽に使える
テキストマイニングツール類
 「コーパスとテキストマイニング」（共立出版 2012)
で紹介されているツール
 KH Coder
 MTMineR
 RMeCab
 TinyTextMiner
 「言選Web」で開発したテキストマイニングツール
 termmi

※青字のツールについては、学位論文マイニングに試しずみ

２．１ KH Coder と
「言選Web」

入力データ（学位論文タイトル）抜粋
日本映像コンテンツ産業への…
映画制作における…
分子被覆導線の構造と…
超臨界流体雰囲気を含む高圧環境下…
ペロブスカイト型酸化物を用いた… １行につき、
ひとつの学位論
低次元モット絶縁体の… 文タイトル
高速回転下での多重連結… （この例では、
高温超伝導体における金属絶… タイトルの先頭
数文字だけ例
過渡反射格子スペクトル法を… 示）
帯域特化型干渉計における…
高分解能光電子分光による…
界面・ナノ空間領域における…

KHCoder
 学位論文タイトルリストを１行１タイトルの改行区切りで作成
 上部メニュー「プロジェクト」→「新規」
 処理テキストを選択
 上部メニュー「前処理」→「分析対象ファイルのチェック」→「前
処理の実行」
 上部メニュー「ツール」→「抽出語」→「多次元尺度構成法」
 「抽出語-多次元尺度構成法-オプション」ウインドウで次のとおり
設定
 品詞→「名詞」に限定
 最小出現数→ 結果を出したい用語数に合わせて調整
 バブルプロット→チェック
 クラスタの色分け→チェック (クラスタの数は適当に調整）

多次元尺度構成法（用語は形態素）

共起ネットワーク（用語は形態素）

さきの用語は形態素でしたが…
 言選Web開発担当としては、用語に形
態素ではなく専門用語を使いたい！
 そこでKH Coderでもう一工夫
 用語切り出し用の辞書に言選Webの専
門用語を登録することで、専門用語
で結果を出せます

KHCoderで「言選Web」用語抽出
 上部メニュー「前処機能解析 1008.431
理」→「複合語の検伝導体
酸化物
390.209
379.992
出」→「TermExtratの実験的研究
可視化
370.804
317.262
利用」電子構造
数値解析
310.372
294.012
構造解析 274.320
 「複合語の検出｣ウイ可能性 264.305

ンドウの言選Web抽最適化
基礎的研究
256.440
247.169

出語をExcelに出力光誘起相転移
電子状態
195.790
180.423
相互作用 179.348
 用語のみとりだしテ分子機構
安定性
178.233
178.230
キストファイルにモデル化 156.030
建築物 155.849
KH Coderには言選Webの用語抽出機能が組み込まれています

KH Coderの形態素辞書
 単語を次の文字列でサンドイッチ（エディタで可)
 [行頭] (品詞 (名詞一般)) ((見出し語 (
 [行末] 1)) (読みだみー))
 KH Coderの「茶筅」辞書ディレクトリーに置く
 c:khcoderdepchasendic
 Windowsのコマンドプロンプトで次のコマンドを実
行
 Ｃｄ c:khcoderdepchasendic
 ..makefile.bat
 KH Coderで新規プロジェクトで作り直し

「茶筅」形態素解析辞書
追加データ（抜粋）
(品詞 (名詞一般)) ((見出し語 (機能解析 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (伝導体 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (酸化物 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (実験的研究 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (可視化 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (電子構造 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (数値解析 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (構造解析 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (可能性 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (最適化 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (基礎的研究 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (光誘起相転移 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (電子状態 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (相互作用 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (分子機構 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (安定性 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (モデル化 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (建築物 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (構造制御 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (評価手法 1)) (読みだみー))
(品詞 (名詞一般)) ((見出し語 (水環境 1)) (読みだみー))

以下略….

「用語の抽出さえできればよい」という割り切った辞書
データ

「言選Web用語」の辞書登録が終わったら
KHCoder を再度実行
KHCoder
 学位論文タイトルリストを１行１タイトルの改行区切りで作成
 上部メニュー「プロジェクト」→「新規」
 処理テキストを選択
 上部メニュー「前処理」→「分析対象ファイルのチェック」→「前
処理の実行」
 上部メニュー「ツール」→「抽出語」→「多次元尺度構成法」
 「抽出語-多次元尺度構成法-オプション」ウインドウで次のとおり
設定
 品詞→「名詞」に限定
 最小出現数→ 結果を出したい用語数に合わせて調整
 バブルプロット→チェック
 クラスタの色分け→チェック (クラスタの数は適当に調整）

termmiとR言語で
多次元尺度構成法
 KHCoderは改行区切りレコード（１ファイル）でよかった
が、termmiはレコードごとに別ファイルにする
 termmiをTF*IDFモードで実行
 termmi付属のtermdocument.pl を実行
 文書・用語行列ができる
 temmiの文書・用語行列をExcel等で開き、不要語を除く
 多くの文書に出現している用語のみ残す（termmiは文書群
全体での重要度順のリストになっているが、それよりもdf
を重視して用語を採用）

termmiとR言語で
多次元尺度構成法
 KHCoderは改行区切りレコードでよかったが、
termmiはレコードごとに別ファイルにする
 termmiをTF*IDFモードで実行
 termmi付属のtermdocument.pl を実行
 文書・用語行列ができる
 temmiの文書・用語行列をExcel等で開き、不要語を
除く
 多くの文書に出現している用語をのみ残す(Excleの
countif関数で”0”の出現数の尐ない語を選ぶなど）。
termmiは文書群全体での重要度順のリストになって
いるが、それよりもdf(Document Frequency)を重視
して用語を採用するほうがよさそう。

termmiの用語・文書行列を
Ｒ言語で多次元尺度構成法のグラフ化
R言語で次のコマンドを実行
 library(amap)
 library(maptools)
 gakui <- read.table("inputfile.txt", skip=1, sep=“t”, row.names=1);
 d <- dist(gakui, method="pearson")
 result <- cmdscale(d, k = 2)
 par(ps = 8)
 plot(result, pch=20)
 pointLabel(result,labels=rownames(result))

Ｒ言語に amap,maptools パッケージを事前に追加しておく必要あり

暫定結果 7文書以上出現の80語

結果は出たが、ちょっと読みにくいかも

KHCoderのR言語処理コードを参考に
termmiの結果を見やすく出力

MTMineR
主成分分析の結果（文書のクラスタリング等いろいろ試し中）

使用する用語の選択が簡単なのがよい

おわりに
 図書館業務においてテキストマイニング
でできることは、まだまだありそう
 KH CoderやMTMineR,などは、GUIがあ
り使い方も簡単
 termmiにはグラフ作成機能が付属してな
いが、R言語と組み合わせで対応できる

Let’s Chalenge!

蔵書選定のための学位論文タイトルマイニング

Recommended

Recommended

More Related Content

Similar to 蔵書選定のための学位論文タイトルマイニング

Similar to 蔵書選定のための学位論文タイトルマイニング (20)

蔵書選定のための学位論文タイトルマイニング