More Related Content
Similar to 蔵書選定のための学位論文タイトルマイニング
Similar to 蔵書選定のための学位論文タイトルマイニング (20)
蔵書選定のための学位論文タイトルマイニング
- 5. 付随の目的
職場の若手職員のスキル向上
テキストマイニングであればソフトウエアの操作で済む
プログラミングよりは敷居が低いかもしれない
まだそのための準備中
「言選Web」プロジェクトのため
ユーザサポートのための知識習得
システムの改善に向けての調査
現状では、まだ自己研鑽レベル、
若手と作業をする準備ができたら仕事で
- 7. 東京大学柏図書館所蔵・新領域創成科学研究科
学位論文論題データベース
東京大学柏図書館
所蔵の新領域創成科
学研究科(大学院)
の学位論文タイトル
修士論文と博士論
文約2000件
CGIによる簡易デー
タベース(18年前
に前田が作成した
CGIのバージョン
アップ版)
http://www.lib.u-tokyo.ac.jp/kashiwa/gakui/
- 8. 暫定結果
東京大学柏
図書館所蔵の
新領域創成科
学研究科(大
学院)の学位
論文タイトル
多次元尺度
構成法(用語
間の距離をみ
る)
KH Coderと
言選Webの組
み合わせ
- 9. 暫定結果
東京大学柏図
書館所蔵の新領
域創成科学研究
科(大学院)の
学位論文タイト
ル
共起ネット
ワーク(線で関
係をみる)
KH Coderと言
選Webの組み合
わせ
- 13. なぜ用語の関連か?
~おまけ~
ここらへんはだいたい調査ずみ
学部Webサイトと図書館蔵書の相関
学内図書館室の所蔵の共起を使った
図書館室のポジション調査
次のチャレンジとして別テーマを
- 14. とりあえずの課題
新しい研究テーマには不向きかも
過去の研究に依存
あまり関係のない用語(テーマ)同士の組み合わせが
はじかれる
とりあえずの結果は出たが…
用語の関連についての評価はまだ
条件を変えたときを試せていない
たとえば、専攻別にするとどうなるか?
- 23. KHCoderで「言選Web」用語抽出
上部メニュー「前処 機能解析 1008.431
理」→「複合語の検 伝導体
酸化物
390.209
379.992
出」→「TermExtratの 実験的研究
可視化
370.804
317.262
利用」 電子構造
数値解析
310.372
294.012
構造解析 274.320
「複合語の検出」ウイ 可能性 264.305
ンドウの言選Web抽 最適化
基礎的研究
256.440
247.169
出語をExcelに出力 光誘起相転移
電子状態
195.790
180.423
相互作用 179.348
用語のみとりだしテ 分子機構
安定性
178.233
178.230
キストファイルに モデル化 156.030
建築物 155.849
KH Coderには言選Webの用語抽出機能が組み込まれています
- 24. KH Coderの形態素辞書
単語を次の文字列でサンドイッチ(エディタで可)
[行頭] (品詞 (名詞 一般)) ((見出し語 (
[行末] 1)) (読み だみー))
KH Coderの「茶筅」辞書ディレクトリーに置く
c:khcoderdepchasendic
Windowsのコマンドプロンプトで次のコマンドを実
行
Cd c:khcoderdepchasendic
..makefile.bat
KH Coderで新規プロジェクトで作り直し
- 25. 「茶筅」形態素解析辞書
追加データ(抜粋)
(品詞 (名詞 一般)) ((見出し語 (機能解析 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (伝導体 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (酸化物 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (実験的研究 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (可視化 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (電子構造 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (数値解析 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (構造解析 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (可能性 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (最適化 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (基礎的研究 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (光誘起相転移 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (電子状態 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (相互作用 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (分子機構 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (安定性 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (モデル化 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (建築物 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (構造制御 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (評価手法 1)) (読み だみー))
(品詞 (名詞 一般)) ((見出し語 (水環境 1)) (読み だみー))
以下略….
「用語の抽出さえできればよい」という割り切った辞書
データ
- 26. 「言選Web用語」の辞書登録が終わったら
KHCoder を再度実行
KHCoder
学位論文タイトルリストを1行1タイトルの改行区切りで作成
上部メニュー「プロジェクト」→「新規」
処理テキストを選択
上部メニュー「前処理」→「分析対象ファイルのチェック」→「前
処理の実行」
上部メニュー「ツール」→「抽出語」→「多次元尺度構成法」
「抽出語-多次元尺度構成法-オプション」ウインドウで次のとおり
設定
品詞→「名詞」に限定
最小出現数→ 結果を出したい用語数に合わせて調整
バブルプロット→チェック
クラスタの色分け→チェック (クラスタの数は適当に調整)
- 27. 暫定結果
東京大学柏
図書館所蔵の
新領域創成科
学研究科(大
学院)の学位
論文タイトル
多次元尺度
構成法(用語
間の距離をみ
る)
KH Coderと
言選Webの組
み合わせ
- 28. 暫定結果
東京大学柏図
書館所蔵の新領
域創成科学研究
科(大学院)の
学位論文タイト
ル
共起ネット
ワーク(線で関
係をみる)
KH Coderと言
選Webの組み合
わせ
- 30. termmiとR言語で
多次元尺度構成法
KHCoderは改行区切りレコード(1ファイル)でよかった
が、termmiはレコードごとに別ファイルにする
termmiをTF*IDFモードで実行
termmi付属のtermdocument.pl を実行
文書・用語行列ができる
temmiの文書・用語行列をExcel等で開き、不要語を除く
多くの文書に出現している用語のみ残す(termmiは文書群
全体での重要度順のリストになっているが、それよりもdf
を重視して用語を採用)
- 31. termmiとR言語で
多次元尺度構成法
KHCoderは改行区切りレコードでよかったが、
termmiはレコードごとに別ファイルにする
termmiをTF*IDFモードで実行
termmi付属のtermdocument.pl を実行
文書・用語行列ができる
temmiの文書・用語行列をExcel等で開き、不要語を
除く
多くの文書に出現している用語をのみ残す(Excleの
countif関数で”0”の出現数の尐ない語を選ぶなど)。
termmiは文書群全体での重要度順のリストになって
いるが、それよりもdf(Document Frequency)を重視
して用語を採用するほうがよさそう。
- 33. 暫定結果 7文書以上出現の80語
結果は出たが、ちょっと読みにくいかも
- 37. おわりに
図書館業務においてテキストマイニング
でできることは、まだまだありそう
KH CoderやMTMineR,などは、GUIがあ
り使い方も簡単
termmiにはグラフ作成機能が付属してな
いが、R言語と組み合わせで対応できる
Let’s Chalenge!