Enviar búsqueda
Cargar
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
•
1 recomendación
•
771 vistas
O
Okamoto Laboratory, The University of Electro-Communications
Seguir
岡本 一志: 機関リポジトリから収集した学術論文のテキスト解析に関する一検討, Webインテリジェンスとインタラクション研究会 第8回研究会, 2016.06.05
Leer menos
Leer más
Ciencias
Denunciar
Compartir
Denunciar
Compartir
1 de 18
Descargar ahora
Descargar para leer sin conexión
Recomendados
分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
Okamoto Laboratory, The University of Electro-Communications
クラウドソーシングにおける協調的な共同作業に対する組織構成システム
クラウドソーシングにおける協調的な共同作業に対する組織構成システム
Okamoto Laboratory, The University of Electro-Communications
A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
harmonylab
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
Learning to summarize from human feedback
Learning to summarize from human feedback
harmonylab
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
Takayoshi Yamashita
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
20141220 tokyowebmining state_spacemodel
20141220 tokyowebmining state_spacemodel
Kenny ISHIMURA
Recomendados
分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
Okamoto Laboratory, The University of Electro-Communications
クラウドソーシングにおける協調的な共同作業に対する組織構成システム
クラウドソーシングにおける協調的な共同作業に対する組織構成システム
Okamoto Laboratory, The University of Electro-Communications
A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
harmonylab
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
Learning to summarize from human feedback
Learning to summarize from human feedback
harmonylab
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
Takayoshi Yamashita
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
20141220 tokyowebmining state_spacemodel
20141220 tokyowebmining state_spacemodel
Kenny ISHIMURA
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
Eli Kaminuma
「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜
「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜
Keiichiro Ono
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
harmonylab
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
Deep Learning Lab: DIMo & Chainer
Deep Learning Lab: DIMo & Chainer
Preferred Networks
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い
Seiji Hotta
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討
Masaharu Munetomo
これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座
NVIDIA Japan
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Deep Learning JP
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...
[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...
Deep Learning JP
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
mmisono
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
Okamoto Laboratory, The University of Electro-Communications
Text Analysis of Academic Papers Archived in Institutional Repositories
Text Analysis of Academic Papers Archived in Institutional Repositories
Okamoto Laboratory, The University of Electro-Communications
単語の分散表現の 購買履歴への応用
単語の分散表現の 購買履歴への応用
Okamoto Laboratory, The University of Electro-Communications
学内勉強会をやりたい
学内勉強会をやりたい
Ryohei Kawashima
数式からみるWord2Vec
数式からみるWord2Vec
Okamoto Laboratory, The University of Electro-Communications
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
Okamoto Laboratory, The University of Electro-Communications
Más contenido relacionado
La actualidad más candente
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
Eli Kaminuma
「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜
「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜
Keiichiro Ono
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
harmonylab
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
Deep Learning Lab: DIMo & Chainer
Deep Learning Lab: DIMo & Chainer
Preferred Networks
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い
Seiji Hotta
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討
Masaharu Munetomo
これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座
NVIDIA Japan
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Deep Learning JP
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...
[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...
Deep Learning JP
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
mmisono
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
Okamoto Laboratory, The University of Electro-Communications
La actualidad más candente
(17)
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜
「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
Deep Learning Lab: DIMo & Chainer
Deep Learning Lab: DIMo & Chainer
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討
これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...
[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
Destacado
Text Analysis of Academic Papers Archived in Institutional Repositories
Text Analysis of Academic Papers Archived in Institutional Repositories
Okamoto Laboratory, The University of Electro-Communications
単語の分散表現の 購買履歴への応用
単語の分散表現の 購買履歴への応用
Okamoto Laboratory, The University of Electro-Communications
学内勉強会をやりたい
学内勉強会をやりたい
Ryohei Kawashima
数式からみるWord2Vec
数式からみるWord2Vec
Okamoto Laboratory, The University of Electro-Communications
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
Okamoto Laboratory, The University of Electro-Communications
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
Destacado
(6)
Text Analysis of Academic Papers Archived in Institutional Repositories
Text Analysis of Academic Papers Archived in Institutional Repositories
単語の分散表現の 購買履歴への応用
単語の分散表現の 購買履歴への応用
学内勉強会をやりたい
学内勉強会をやりたい
数式からみるWord2Vec
数式からみるWord2Vec
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Similar a 機関リポジトリから収集した学術論文のテキスト解析に関する一検討
ビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウド
Masaharu Munetomo
北海道大学情報基盤センター10周年記念講演スライド(公開版)
北海道大学情報基盤センター10周年記念講演スライド(公開版)
Masaharu Munetomo
「研究データポリシー,実施方針」策定 東京工業大学爆走の375日の舞台裏を語る。図書館総合展2021 ver.
「研究データポリシー,実施方針」策定 東京工業大学爆走の375日の舞台裏を語る。図書館総合展2021 ver.
理子 茂出木
CISOが、適切にセキュリティ機能とレベルを決めるには
CISOが、適切にセキュリティ機能とレベルを決めるには
Riotaro OKADA
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
LINE Corp.
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01
Shunsuke Kikuchi
ICRA 2018 速報
ICRA 2018 速報
cvpaper. challenge
介護医療業界におけるマイクロソフトテクノロジー動向
介護医療業界におけるマイクロソフトテクノロジー動向
Daisuke Masubuchi
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
Preferred Networks
Data Visualization Japan Meetup 2018: 長く変化に対応する
Data Visualization Japan Meetup 2018: 長く変化に対応する
Keiichiro Ono
What's Information Visualization?
What's Information Visualization?
Rei Takami
YakoCloud presen 141213
YakoCloud presen 141213
知礼 八子
JAWS DAYS 2022
JAWS DAYS 2022
陽平 山口
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
National Institute of Informatics (NII)
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
Shun Shiramatsu
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Shuji Morisaki
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
National Institute of Informatics (NII)
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
Yasushi Hara
20151029 CODATA
20151029 CODATA
Taro misumi
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
Hironori Washizaki
Similar a 機関リポジトリから収集した学術論文のテキスト解析に関する一検討
(20)
ビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウド
北海道大学情報基盤センター10周年記念講演スライド(公開版)
北海道大学情報基盤センター10周年記念講演スライド(公開版)
「研究データポリシー,実施方針」策定 東京工業大学爆走の375日の舞台裏を語る。図書館総合展2021 ver.
「研究データポリシー,実施方針」策定 東京工業大学爆走の375日の舞台裏を語る。図書館総合展2021 ver.
CISOが、適切にセキュリティ機能とレベルを決めるには
CISOが、適切にセキュリティ機能とレベルを決めるには
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01
ICRA 2018 速報
ICRA 2018 速報
介護医療業界におけるマイクロソフトテクノロジー動向
介護医療業界におけるマイクロソフトテクノロジー動向
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
Data Visualization Japan Meetup 2018: 長く変化に対応する
Data Visualization Japan Meetup 2018: 長く変化に対応する
What's Information Visualization?
What's Information Visualization?
YakoCloud presen 141213
YakoCloud presen 141213
JAWS DAYS 2022
JAWS DAYS 2022
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回「ネットワーク分析の方法+WSシリーズまとめ」
20151029 CODATA
20151029 CODATA
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
Más de Okamoto Laboratory, The University of Electro-Communications
リンク予測に基づく共同研究者推薦システムの試作
リンク予測に基づく共同研究者推薦システムの試作
Okamoto Laboratory, The University of Electro-Communications
Visualizing the Importance of Floor-Plan Image Features in Rent-Prediction Mo...
Visualizing the Importance of Floor-Plan Image Features in Rent-Prediction Mo...
Okamoto Laboratory, The University of Electro-Communications
Directed Graph-based Researcher Recommendation by Random Walk with Restart an...
Directed Graph-based Researcher Recommendation by Random Walk with Restart an...
Okamoto Laboratory, The University of Electro-Communications
間取り図を用いた賃料予測モデルに関する一検討
間取り図を用いた賃料予測モデルに関する一検討
Okamoto Laboratory, The University of Electro-Communications
Development of a Collaborator Recommender System Based on Directed Graph Model
Development of a Collaborator Recommender System Based on Directed Graph Model
Okamoto Laboratory, The University of Electro-Communications
Rent Prediction Models with Floor Plan Images
Rent Prediction Models with Floor Plan Images
Okamoto Laboratory, The University of Electro-Communications
発売日前のレビューとPU-Learningを用いた スパムレビュー検出
発売日前のレビューとPU-Learningを用いた スパムレビュー検出
Okamoto Laboratory, The University of Electro-Communications
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
Okamoto Laboratory, The University of Electro-Communications
重回帰分析による推薦の透明性を有したモデルベース協調フィルタリング
重回帰分析による推薦の透明性を有したモデルベース協調フィルタリング
Okamoto Laboratory, The University of Electro-Communications
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
Okamoto Laboratory, The University of Electro-Communications
Families of Triangular Norm Based Kernel Function and Its Application to Kern...
Families of Triangular Norm Based Kernel Function and Its Application to Kern...
Okamoto Laboratory, The University of Electro-Communications
これから始めるディープラーニング
これから始めるディープラーニング
Okamoto Laboratory, The University of Electro-Communications
Más de Okamoto Laboratory, The University of Electro-Communications
(12)
リンク予測に基づく共同研究者推薦システムの試作
リンク予測に基づく共同研究者推薦システムの試作
Visualizing the Importance of Floor-Plan Image Features in Rent-Prediction Mo...
Visualizing the Importance of Floor-Plan Image Features in Rent-Prediction Mo...
Directed Graph-based Researcher Recommendation by Random Walk with Restart an...
Directed Graph-based Researcher Recommendation by Random Walk with Restart an...
間取り図を用いた賃料予測モデルに関する一検討
間取り図を用いた賃料予測モデルに関する一検討
Development of a Collaborator Recommender System Based on Directed Graph Model
Development of a Collaborator Recommender System Based on Directed Graph Model
Rent Prediction Models with Floor Plan Images
Rent Prediction Models with Floor Plan Images
発売日前のレビューとPU-Learningを用いた スパムレビュー検出
発売日前のレビューとPU-Learningを用いた スパムレビュー検出
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
重回帰分析による推薦の透明性を有したモデルベース協調フィルタリング
重回帰分析による推薦の透明性を有したモデルベース協調フィルタリング
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
Families of Triangular Norm Based Kernel Function and Its Application to Kern...
Families of Triangular Norm Based Kernel Function and Its Application to Kern...
これから始めるディープラーニング
これから始めるディープラーニング
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
1.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 機関リポジトリからの収集した学術論文の テキスト解析に関する一検討 岡本一志 電気通信大学 大学院情報理工学研究科 1
2.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 はじめに • 学術論文の役割:研究者の学術研究成果を社会に発信 •
テキストマイニングによる知識抽出や仮説生成 • 医学・生物学分野では関心が高い • マイニング対象は抄録が中心 • モチベーション • 専門語の関係の可視化 • フルテキストを扱うにあたっての技術的課題は何か? 2
3.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 機関リポジトリ • 当該機関で生成された様々な分野の学術資料が登録 •
学術論文や研究会原稿のフルテキストなど(無償利用可) • OAI-PMHによって各資料の書誌情報を入手可能 • 国内の機関リポジトリの総登録件数は100万点以上 • テキストマイニングの対象としての報告例は極めて少ない • 大学毎の部局別英語重要語彙の選定 [田中,2014] 3
4.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 機関リポジトリからの学術論文の収集(1) • OAI-PMH
(Open Archives Initiative Protocol for Metadata Harvesting) • HTTPベースのプロトコル • GETメソッドでのリクエスト • 例)http://ir.lib.uec.ac.jp/oai- pmh.cgi? verb=ListRecords&metadataPrefix =junii2&from=2004-04-01&until=2 016-03-31 • 書誌データが記載されたXMLデー タのレスポンス 4 B大学 機関リポジトリ A大学 機関リポジトリ C大学 機関リポジトリ ハーベストプログラム OAI- PMH
5.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 機関リポジトリからの学術論文の収集(2) • デジタルリポジトリ連合のWebサイトにOAI-PMHのベースURL が記載されているのでそれを利用 •
対象機関リポジトリ数:69(東工大と慶応大は含められず) • メタデータ収集対象期間: 2004-1-1~2015-8-31まで • OAI-PMHによるレスポンスに含まれる<fulltext></fulltext>タグに 記載れているPDFファイルをダウンロード • ダウンロードしたPDFファイル数:449,029 • 総ファイルサイズは約1TB 5
6.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 ダウンロードしたPDFファイルのテキスト解析 • pdftotextプログラムによるテキストの抽出 •
抽出したテキスト1行毎に形態素解析MeCabの適用 6 収集した論文集合(449,029件) MeCab わかち書き 文集合 pdftotext PDF ファイル PDF ファイル PDF ファイル PDF ファイル 1行毎に適用 PDF ファイル
7.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 名詞語長の分布の分析 • 1文字の語長が最も出現している理由 •
OCRの性能が悪く,画像にテキストを付与 する際に語中にスペースが含まれている • 例)本研究では => 本 研 究 で は • 文中に折り返しがあった場合,折り返し位 置にある語が分割され複数語として扱われて しまっている • PDFでの本文解析の場合,前処理が重要となる • できればXMLでの本文の公開が嬉しい 7 名詞語長 出現数 1文字 1,045,790,440 2文字 554,208,228 3文字 69,904,962 4文字 35,536,684 5文字 20,713,928 6文字 15,823,518 7文字 11,505,889 8文字 9,311,674 9文字 6,313,534 ≧10文字 14,338,152
8.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 頻出する名詞語の分析 • 名詞語長が2以上のものが対象 •
学術論文によく出現する名詞 語が頻出している 8 出現数 調査 1,381,438 可能 1,342,145 変化 1,285,919 方法 1,254,081 地域 1,220,212 情報 1,214,012 評価 1,196,748 以上 1,184,629 活動 1,166,877 実験 1,156,540 出現数 研究 4,341,658 教育 2,453,320 場合 2,403,405 問題 2,081,724 結果 2,051,650 関係 2,030,561 社会 1,934,888 日本 1,628,720 必要 1,566,077 時間 1,423,539
9.
Webインテリジェンスとインタラクション研究会2016.06.05 / 18 単語の分散表現と近傍探索 9 例)本研究では新しい推定アルゴリズムを提案する 研究
推定 アルゴリズム 提案 [1, 0, 0, 0] [0, 1, 0, 0] [0, 0, 1, 0] [0, 0, 0, 1]1 of k 表現 [0.2, 0.4] [0.8, 0.3] [0.4, 0.3] [0.1, 0.2]単語の 分散表現 多くの文例から単語のn次元ベクトル表現を学習 (代表例:word2vec) x, y 2 Rn s(x, y) = x · y ||x|| ||y||
10.
1 2 3
4 5 6 7 研究 知見 考察 検討 論文 応用 試み はじめ 0.627 0.61 0.608 0.595 0.58 0.575 0.57 教育 学校 カリキュラム 実践 初等 体育 養成 指導 0.751 0.709 0.694 0.682 0.675 0.671 0.651 場合 通常 とき いずれ これ 程度 全て 両方 0.817 0.808 0.782 0.758 0.751 0.746 0.746 問題 課題 観点 難点 難問 疑問 論点 議論 0.766 0.71 0.693 0.692 0.688 0.681 0.67 結果 行い 今回 場合 いずれ これ 比較 これら 0.745 0.721 0.697 0.686 0.682 0.673 0.667 関係 関連 結び付き 無関係 関わり つながり つまり 依存 0.739 0.715 0.705 0.686 0.678 0.671 0.664 社会 政治 経済 現代 文化 国家 歴史 近代 0.753 0.741 0.715 0.71 0.677 0.676 0.67 日本 中国 曰本 わが国 アメリカ 韓国 我が国 台湾 0.779 0.763 0.738 0.724 0.722 0.72 0.703 必要 十分 不十分 適切 ため 可能 不可欠 有効 0.837 0.809 0.801 0.8 0.799 0.79 0.753 時間 短時間 長時間 回数 秒 時 分間 日数 0.739 0.717 0.684 0.667 0.662 0.661 0.645
11.
1 2 3
4 5 6 7 調査 アンケート ヒアリング ケート 実施 集計 謁査 ンケート 0.753 0.687 0.655 0.646 0.633 0.63 0.625 可能 必要 不可能 確実 有効 ため 容易 困難 0.799 0.795 0.789 0.786 0.773 0.753 0.74 変化 変動 違い 影響 推移 依存 反映 上昇 0.824 0.754 0.718 0.695 0.674 0.672 0.67 方法 手法 手順 目的 試み 利点 従来 観点 0.732 0.717 0.661 0.66 0.658 0.652 0.649 地域 地区 都市 農村 地方 コミュニティ 広域 コミュニティ 0.745 0.731 0.697 0.68 0.673 0.671 0.666 情報 データ データベース テンツ リソース 知識 惰報 メディア 0.683 0.663 0.648 0.638 0.627 0.624 0.619 評価 検証 指標 判断 予測 検討 判定 加味 0.725 0.708 0.702 0.682 0.678 0.655 0.653 以上 以下 程度 未満 前述 いずれ 相当 上記 0.824 0.778 0.753 0.738 0.731 0.713 0.709 活動 取り組み 関わり 働きかけ かかわり 行動 ボランティア ボランティ 0.703 0.656 0.655 0.635 0.634 0.625 0.617 実験 シミュレーション 試験 測定 今回 解析 観察 結果 0.659 0.639 0.63 0.622 0.614 0.611 0.606
12.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 専門用語の近傍探索 • TCP
(transmission control protocol) • DCT (discrete cosine transform) • BCI (brain computer interface) • フコイダン (fucoidan) • 塩基 (base) 12
13.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 TCP (transmission
control protocol) • iSCSI (Internet small computer system interface) [0.738] • HTTP (hypertext transfer protocol) [0.731] • IP (Internet protocol) [0.72] • VoIP (voice over Internet protocol) [0.712] • DCCP (datagram congestion control protocol) [0.708] • SCTP (stream control transmission protocol) [0.708] • IPSec (Internet protocol security) [0.699] 13
14.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 DCT (discrete
cosine transform) • メルケプストラム (Mel-frequency cepstrum) [0.624] • ウェーブレット (wavelet) [0.623] • WDCT (warped discrete cosine transform) [0.619] • ケプストラム (cepstrum) [0.613] • IDCT (inverse discrete cosine transform) [0.611] • FFT (fast Fourier transform) [0.599] • Papoulis [0.599] 14
15.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 BCI (brain
computer interface) • FES (functional electrical stimulation) [0.644] • SSVEP (steady state visually evoked potentials) [0.633] • MEG (magnetoencephalography) [0.622] • ERP (event related potential) [0.578] • EEG (electroencephalography) [0.574] • ECoG (electrocorticography) [0.572] • イメージングデバイス (imaging device) [0.564] 15
16.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 フコイダン (fucoidan) •
マンナン (mannan) [0.718] • オキナワモズク (Cladosiphon okamuranus) [0.704] • ラフィノース (raffinose) [0.69] • フロロタンニン (phlorotannin) [0.680] • セルラーゼ (cellulase) [0.677] • グルコシダーゼ (glucosidase) [0.675] • ホマリン (Homalin) [0.674] 16
17.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 塩基 (base) •
アミノ酸 (amino acid) [0.703] • グアニン (guanine) [0.648] • ヌクレオチド (nucleotide) [0.625] • シトシン (cytosine) [0.625] • スフィンゴイド (sphingoid) [0.624] • アデニン (adenine) [0.62] • カルシウムスルホネート (calcium sulfonate) [0.619] 17
18.
/ 18Webインテリジェンスとインタラクション研究会2016.06.05 おわりに • 40万件以上の学術論文を収集し本文のテキスト解析を行った •
語長の分布の分析 • 頻出語の分析 • word2vecによる類推(アナロジー)タスクの実施 • 特徴空間上に近傍に関連性のある語が埋め込まれているか? • 今後の展望 • n次元の特徴空間に埋め込まれた語同士の関係の可視化 • 他の情報源(wikipediaなど)を用いた場合との比較 18
Descargar ahora