Enviar búsqueda
Cargar
辞書ベースのテキストマイニング ML-Ask, J-LIWC, J-MDFを例として
•
0 recomendaciones
•
3,705 vistas
Tokyo Tech
Seguir
2021日心ワークショップ・J-LIWC2015 (未公開データは非表示)
Leer menos
Leer más
Ciencias
Denunciar
Compartir
Denunciar
Compartir
1 de 31
Descargar ahora
Descargar para leer sin conexión
Recomendados
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
LINE Corporation
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
固有表現抽出と適用例のご紹介
固有表現抽出と適用例のご紹介
Core Concept Technologies
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
cyberagent
深層学習時代の自然言語処理
深層学習時代の自然言語処理
Yuya Unno
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
数理最適化と機械学習の融合アプローチ-分類と新しい枠組み-
数理最適化と機械学習の融合アプローチ-分類と新しい枠組み-
MIKIOKUBO3
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
Recomendados
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
LINE Corporation
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
固有表現抽出と適用例のご紹介
固有表現抽出と適用例のご紹介
Core Concept Technologies
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
cyberagent
深層学習時代の自然言語処理
深層学習時代の自然言語処理
Yuya Unno
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
数理最適化と機械学習の融合アプローチ-分類と新しい枠組み-
数理最適化と機械学習の融合アプローチ-分類と新しい枠組み-
MIKIOKUBO3
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
オントロジーとは?
オントロジーとは?
Kouji Kozaki
ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
Tadahiro Taniguchi
オントロジー研究20年の歩みと今後の展望
オントロジー研究20年の歩みと今後の展望
Kouji Kozaki
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
計算社会科学とは
計算社会科学とは
Tokyo Tech
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
Naoaki Okazaki
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
Tatsuya Yokota
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
KCS Keio Computer Society
Deep walk について
Deep walk について
Tamakoshi Hironori
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
社会的共通資本と資本主義
社会的共通資本と資本主義
Yosuke YASUDA
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
Shintaro Fukushima
はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~
宏喜 佐野
ナレッジグラフ入門
ナレッジグラフ入門
KnowledgeGraph
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くない
Carnot Inc.
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
Naoki Hayashi
Meaning Extraction - IJCTE 2(1)
Meaning Extraction - IJCTE 2(1)
IT Industry
NL Context Understanding 23(6)
NL Context Understanding 23(6)
IT Industry
Más contenido relacionado
La actualidad más candente
オントロジーとは?
オントロジーとは?
Kouji Kozaki
ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
Tadahiro Taniguchi
オントロジー研究20年の歩みと今後の展望
オントロジー研究20年の歩みと今後の展望
Kouji Kozaki
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
計算社会科学とは
計算社会科学とは
Tokyo Tech
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
Naoaki Okazaki
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
Tatsuya Yokota
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
KCS Keio Computer Society
Deep walk について
Deep walk について
Tamakoshi Hironori
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
社会的共通資本と資本主義
社会的共通資本と資本主義
Yosuke YASUDA
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
Shintaro Fukushima
はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~
宏喜 佐野
ナレッジグラフ入門
ナレッジグラフ入門
KnowledgeGraph
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くない
Carnot Inc.
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
Naoki Hayashi
La actualidad más candente
(20)
オントロジーとは?
オントロジーとは?
ゼロから始める転移学習
ゼロから始める転移学習
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
オントロジー研究20年の歩みと今後の展望
オントロジー研究20年の歩みと今後の展望
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
計算社会科学とは
計算社会科学とは
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
Deep walk について
Deep walk について
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
社会的共通資本と資本主義
社会的共通資本と資本主義
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
はじめよう多変量解析~主成分分析編~
はじめよう多変量解析~主成分分析編~
ナレッジグラフ入門
ナレッジグラフ入門
1 データとデータ分析
1 データとデータ分析
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くない
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
【博士論文発表会】パラメータ制約付き特異モデルの統計的学習理論
Similar a 辞書ベースのテキストマイニング ML-Ask, J-LIWC, J-MDFを例として
Meaning Extraction - IJCTE 2(1)
Meaning Extraction - IJCTE 2(1)
IT Industry
NL Context Understanding 23(6)
NL Context Understanding 23(6)
IT Industry
An Investigation of Keywords Extraction from Textual Documents using Word2Ve...
An Investigation of Keywords Extraction from Textual Documents using Word2Ve...
IJCSIS Research Publications
Roeder rocky 2011_46
Roeder rocky 2011_46
Chris Roeder
Natural Language Processing (NLP) - Introduction
Natural Language Processing (NLP) - Introduction
Aritra Mukherjee
Text mining open source tokenization
Text mining open source tokenization
aciijournal
TEXT MINING: OPEN SOURCE TOKENIZATION TOOLS – AN ANALYSIS
TEXT MINING: OPEN SOURCE TOKENIZATION TOOLS – AN ANALYSIS
aciijournal
Text Mining: open Source Tokenization Tools � An Analysis
Text Mining: open Source Tokenization Tools � An Analysis
aciijournal
[Paper Reading] Unsupervised Learning of Sentence Embeddings using Compositi...
[Paper Reading] Unsupervised Learning of Sentence Embeddings using Compositi...
Hiroki Shimanaka
Word Segmentation and Lexical Normalization for Unsegmented Languages
Word Segmentation and Lexical Normalization for Unsegmented Languages
hs0041
Detection of multiword from a wordnet is complex
Detection of multiword from a wordnet is complex
eSAT Publishing House
The Process of Information extraction through Natural Language Processing
The Process of Information extraction through Natural Language Processing
Waqas Tariq
Keyword Extraction Based Summarization of Categorized Kannada Text Documents
Keyword Extraction Based Summarization of Categorized Kannada Text Documents
ijsc
COMPREHENSIVE ANALYSIS OF NATURAL LANGUAGE PROCESSING TECHNIQUE
COMPREHENSIVE ANALYSIS OF NATURAL LANGUAGE PROCESSING TECHNIQUE
Journal For Research
textTOvec: Deep Contextualized Neural Autoregressive Topic Models of Language...
textTOvec: Deep Contextualized Neural Autoregressive Topic Models of Language...
Pankaj Gupta, PhD
Natural Language Processing (NLP).pdf
Natural Language Processing (NLP).pdf
Moar Digital 360
SFScon18 - Gabriele Sottocornola - Probabilistic Topic Models with MALLET
SFScon18 - Gabriele Sottocornola - Probabilistic Topic Models with MALLET
South Tyrol Free Software Conference
Conceptual foundations of text mining and preprocessing steps nfaoui el_habib
Conceptual foundations of text mining and preprocessing steps nfaoui el_habib
El Habib NFAOUI
IRJET- Survey on Deep Learning Approaches for Phrase Structure Identification...
IRJET- Survey on Deep Learning Approaches for Phrase Structure Identification...
IRJET Journal
Applications of Natural Language Processing to Materials Design
Applications of Natural Language Processing to Materials Design
Anubhav Jain
Similar a 辞書ベースのテキストマイニング ML-Ask, J-LIWC, J-MDFを例として
(20)
Meaning Extraction - IJCTE 2(1)
Meaning Extraction - IJCTE 2(1)
NL Context Understanding 23(6)
NL Context Understanding 23(6)
An Investigation of Keywords Extraction from Textual Documents using Word2Ve...
An Investigation of Keywords Extraction from Textual Documents using Word2Ve...
Roeder rocky 2011_46
Roeder rocky 2011_46
Natural Language Processing (NLP) - Introduction
Natural Language Processing (NLP) - Introduction
Text mining open source tokenization
Text mining open source tokenization
TEXT MINING: OPEN SOURCE TOKENIZATION TOOLS – AN ANALYSIS
TEXT MINING: OPEN SOURCE TOKENIZATION TOOLS – AN ANALYSIS
Text Mining: open Source Tokenization Tools � An Analysis
Text Mining: open Source Tokenization Tools � An Analysis
[Paper Reading] Unsupervised Learning of Sentence Embeddings using Compositi...
[Paper Reading] Unsupervised Learning of Sentence Embeddings using Compositi...
Word Segmentation and Lexical Normalization for Unsegmented Languages
Word Segmentation and Lexical Normalization for Unsegmented Languages
Detection of multiword from a wordnet is complex
Detection of multiword from a wordnet is complex
The Process of Information extraction through Natural Language Processing
The Process of Information extraction through Natural Language Processing
Keyword Extraction Based Summarization of Categorized Kannada Text Documents
Keyword Extraction Based Summarization of Categorized Kannada Text Documents
COMPREHENSIVE ANALYSIS OF NATURAL LANGUAGE PROCESSING TECHNIQUE
COMPREHENSIVE ANALYSIS OF NATURAL LANGUAGE PROCESSING TECHNIQUE
textTOvec: Deep Contextualized Neural Autoregressive Topic Models of Language...
textTOvec: Deep Contextualized Neural Autoregressive Topic Models of Language...
Natural Language Processing (NLP).pdf
Natural Language Processing (NLP).pdf
SFScon18 - Gabriele Sottocornola - Probabilistic Topic Models with MALLET
SFScon18 - Gabriele Sottocornola - Probabilistic Topic Models with MALLET
Conceptual foundations of text mining and preprocessing steps nfaoui el_habib
Conceptual foundations of text mining and preprocessing steps nfaoui el_habib
IRJET- Survey on Deep Learning Approaches for Phrase Structure Identification...
IRJET- Survey on Deep Learning Approaches for Phrase Structure Identification...
Applications of Natural Language Processing to Materials Design
Applications of Natural Language Processing to Materials Design
Más de Tokyo Tech
越境する計算社会科学
越境する計算社会科学
Tokyo Tech
複雑系科学特論2015
複雑系科学特論2015
Tokyo Tech
ソーシャルデータと計算社会科学
ソーシャルデータと計算社会科学
Tokyo Tech
Quantifying Collective Mood by Emoticon Networks
Quantifying Collective Mood by Emoticon Networks
Tokyo Tech
Understanding the Spreading Patterns of Mobile Phone Viruses
Understanding the Spreading Patterns of Mobile Phone Viruses
Tokyo Tech
Positive words carry less information than negative words
Positive words carry less information than negative words
Tokyo Tech
Collective dynamics of ‘small-world’ networks
Collective dynamics of ‘small-world’ networks
Tokyo Tech
DIE 20130724
DIE 20130724
Tokyo Tech
鳥の複雑なさえずりと進化的デザイン
鳥の複雑なさえずりと進化的デザイン
Tokyo Tech
Performance variability enables adaptive plasticity ‘crystallized’ adult song
Performance variability enables adaptive plasticity ‘crystallized’ adult song
Tokyo Tech
How sleep affects the developmental learning of bird song
How sleep affects the developmental learning of bird song
Tokyo Tech
Más de Tokyo Tech
(11)
越境する計算社会科学
越境する計算社会科学
複雑系科学特論2015
複雑系科学特論2015
ソーシャルデータと計算社会科学
ソーシャルデータと計算社会科学
Quantifying Collective Mood by Emoticon Networks
Quantifying Collective Mood by Emoticon Networks
Understanding the Spreading Patterns of Mobile Phone Viruses
Understanding the Spreading Patterns of Mobile Phone Viruses
Positive words carry less information than negative words
Positive words carry less information than negative words
Collective dynamics of ‘small-world’ networks
Collective dynamics of ‘small-world’ networks
DIE 20130724
DIE 20130724
鳥の複雑なさえずりと進化的デザイン
鳥の複雑なさえずりと進化的デザイン
Performance variability enables adaptive plasticity ‘crystallized’ adult song
Performance variability enables adaptive plasticity ‘crystallized’ adult song
How sleep affects the developmental learning of bird song
How sleep affects the developmental learning of bird song
Último
Dopamine neurotransmitter determination using graphite sheet- graphene nano-s...
Dopamine neurotransmitter determination using graphite sheet- graphene nano-s...
Mohammad Khajehpour
FAIRSpectra - Enabling the FAIRification of Spectroscopy and Spectrometry
FAIRSpectra - Enabling the FAIRification of Spectroscopy and Spectrometry
Alex Henderson
PSYCHOSOCIAL NEEDS. in nursing II sem pptx
PSYCHOSOCIAL NEEDS. in nursing II sem pptx
Suji236384
Forensic Biology & Its biological significance.pdf
Forensic Biology & Its biological significance.pdf
rohankumarsinghrore1
Connaught Place, Delhi Call girls :8448380779 Model Escorts | 100% verified
Connaught Place, Delhi Call girls :8448380779 Model Escorts | 100% verified
Delhi Call girls
9999266834 Call Girls In Noida Sector 22 (Delhi) Call Girl Service
9999266834 Call Girls In Noida Sector 22 (Delhi) Call Girl Service
nishacall1
Zoology 5th semester notes( Sumit_yadav).pdf
Zoology 5th semester notes( Sumit_yadav).pdf
Sumit Kumar yadav
dkNET Webinar "Texera: A Scalable Cloud Computing Platform for Sharing Data a...
dkNET Webinar "Texera: A Scalable Cloud Computing Platform for Sharing Data a...
dkNET
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)
Areesha Ahmad
Pulmonary drug delivery system M.pharm -2nd sem P'ceutics
Pulmonary drug delivery system M.pharm -2nd sem P'ceutics
sakshisoni2385
GBSN - Microbiology (Unit 3)
GBSN - Microbiology (Unit 3)
Areesha Ahmad
GBSN - Microbiology (Unit 2)
GBSN - Microbiology (Unit 2)
Areesha Ahmad
Proteomics: types, protein profiling steps etc.
Proteomics: types, protein profiling steps etc.
Silpa
COST ESTIMATION FOR A RESEARCH PROJECT.pptx
COST ESTIMATION FOR A RESEARCH PROJECT.pptx
FarihaAbdulRasheed
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
PirithiRaju
Unit5-Cloud.pptx for lpu course cse121 o
Unit5-Cloud.pptx for lpu course cse121 o
ManavSingh202607
module for grade 9 for distance learning
module for grade 9 for distance learning
levieagacer
CELL -Structural and Functional unit of life.pdf
CELL -Structural and Functional unit of life.pdf
Nistarini College, Purulia (W.B) India
❤Jammu Kashmir Call Girls 8617697112 Personal Whatsapp Number 💦✅.
❤Jammu Kashmir Call Girls 8617697112 Personal Whatsapp Number 💦✅.
Nitya salvi
Module for Grade 9 for Asynchronous/Distance learning
Module for Grade 9 for Asynchronous/Distance learning
levieagacer
Último
(20)
Dopamine neurotransmitter determination using graphite sheet- graphene nano-s...
Dopamine neurotransmitter determination using graphite sheet- graphene nano-s...
FAIRSpectra - Enabling the FAIRification of Spectroscopy and Spectrometry
FAIRSpectra - Enabling the FAIRification of Spectroscopy and Spectrometry
PSYCHOSOCIAL NEEDS. in nursing II sem pptx
PSYCHOSOCIAL NEEDS. in nursing II sem pptx
Forensic Biology & Its biological significance.pdf
Forensic Biology & Its biological significance.pdf
Connaught Place, Delhi Call girls :8448380779 Model Escorts | 100% verified
Connaught Place, Delhi Call girls :8448380779 Model Escorts | 100% verified
9999266834 Call Girls In Noida Sector 22 (Delhi) Call Girl Service
9999266834 Call Girls In Noida Sector 22 (Delhi) Call Girl Service
Zoology 5th semester notes( Sumit_yadav).pdf
Zoology 5th semester notes( Sumit_yadav).pdf
dkNET Webinar "Texera: A Scalable Cloud Computing Platform for Sharing Data a...
dkNET Webinar "Texera: A Scalable Cloud Computing Platform for Sharing Data a...
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)
Pulmonary drug delivery system M.pharm -2nd sem P'ceutics
Pulmonary drug delivery system M.pharm -2nd sem P'ceutics
GBSN - Microbiology (Unit 3)
GBSN - Microbiology (Unit 3)
GBSN - Microbiology (Unit 2)
GBSN - Microbiology (Unit 2)
Proteomics: types, protein profiling steps etc.
Proteomics: types, protein profiling steps etc.
COST ESTIMATION FOR A RESEARCH PROJECT.pptx
COST ESTIMATION FOR A RESEARCH PROJECT.pptx
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
Pests of cotton_Borer_Pests_Binomics_Dr.UPR.pdf
Unit5-Cloud.pptx for lpu course cse121 o
Unit5-Cloud.pptx for lpu course cse121 o
module for grade 9 for distance learning
module for grade 9 for distance learning
CELL -Structural and Functional unit of life.pdf
CELL -Structural and Functional unit of life.pdf
❤Jammu Kashmir Call Girls 8617697112 Personal Whatsapp Number 💦✅.
❤Jammu Kashmir Call Girls 8617697112 Personal Whatsapp Number 💦✅.
Module for Grade 9 for Asynchronous/Distance learning
Module for Grade 9 for Asynchronous/Distance learning
辞書ベースのテキストマイニング ML-Ask, J-LIWC, J-MDFを例として
1.
辞書ベースのテキストマイニング ML-Ask, J-LIWC, J-MDFを例として 笹原
和俊1、奥田 慎平2 1. 東京工業大学 環境・社会理工学院 2. 名古屋大学 大学院情報学研究科 2021日心ワークショップ・J-LIWC2015
2.
発表内容 1. テキストマイニングとは 2. 辞書ベースのテキストマイニングの事例
3.
発表内容 1. テキストマイニングとは 2. 辞書ベースのテキストマイニングの例
4.
テキストマイニング 大量のテキストから自然言語処理技術を用いて有用な情報を 抽出する • 統計分析 • 頻度分析、相関分析、回帰分析、感情分析、ネットワーク分析
等 • 機械学習を用いた分析 • 潜在的意味解析(SVD)、単語埋め込みモデル(word2vec)、 トピックモデル(LDA)など • 深層学習による自然言語処理(BERTなど) 4
5.
テキストの例 • 自由回答のアンケート • ソーシャルメディア(掲示板、SNS、ブログ、メーリングリスト) •
論文の抄録 • 議事録、裁判記録 • 電子カルテ • コールセンターに寄せられた苦情、顧客とオペレーターのやりとり • 製品やサービスのレビュー(ECサイト、レストラン比較サイト) 5
6.
テキストマイニングの実応用 • 多様な意見や潜在的ニーズの把握 • 設問にとらわれない自由な感想を把握 •
消費者からのリアルタイムな意見の獲得 • 業務の問題点の発見 • ナウキャスト • トレンドや予兆の検出 6
7.
テキストの前処理 1. クリーニング 2. 正規化:表現揺れの統一 3.
形態素解析:分かち書き、品詞付与 4. 基本形への変換:語幹処理、見出し語化 5. ストップワード(不要語)の除去 6. 単語の数値化 ← テキストマイニングの99%はこの作業😭 7
8.
形態素解析 テキストデータを形態素(意味を持つ最小単位)に分割し、 それぞれの品詞等を判別する作業 • 友人とニューヨークの美術館に行った。 • 友人
と ニューヨーク の 美術館 に 行っ た 。 英語だとStanford POS Tagger、日本語だとMeCabが有名なツール 形態素解析 名詞 名詞 名詞 助詞 助詞 助詞 動詞 助動詞 記号 8
9.
MeCabによる形態素解析の例 今日はいい天気だ。 📕MeCab • オープンソースの日本語用の形態素解析器(https://taku910.github.io/mecab/) • 品詞タグ付けに条件付き確率場(CRF)を利用 9
10.
辞書ベースのテキストマイニング • 概念辞書:WordNet • 感情辞書:ML-Ask •
心理学カテゴリー辞書: LIWC、J-LIWC • 道徳基盤辞書: MFD、J-MFD メリット • 専門家が作った辞書は信頼性が高い(場合 が多い) • 結果の解釈が容易 デメリット • 網羅性が高くない • アップデートが頻繁でない(されない) • 辞書の作成にコストがかかる 10
11.
J-LIWC • 心理学的カテゴリを計測する ソフト(辞書) • テキストを入力として、各英単語 を言語学的カテゴリや心理学的プ ロセスに関するカテゴリにマッピ ングする
(Pennebaker 2015) • 約6400単語、73カテゴリ • J-LIWCはその日本語版 • 約11,600語、69カテゴリ J-LIWCのカテゴリと単語の例(五十嵐・笹原 2018) Igarashi, Okuda, and Sasahara, PsyArXiv, 28 Aug. 2021
12.
J-MFD • 道徳基盤理論 • 擁護
(Care):弱者を守れ • 公正 (Fairness):他人に付け込まれるな • 忠誠 (Ingroup):グループを形成・維持せよ • 権威 (Authority):階層的な社会でうまくやれ • 純潔 (Purity):汚いものから身を守れ • MFD(道徳基盤辞書)(Graham et al. 2009) • J-MFDはその日本語版 (Matsuo et al. 2019, 2021) • 例:「侮辱*」→「擁護」「権威」 擁護 公正 忠誠 自由 権威 純潔
13.
発表内容 1. テキストマイニングとは 2. 辞書ベースのテキストマイニングの事例
14.
事例 その1 • ツイートからコロナ禍の消費者心理・行動に関する 潜在的シグナルを定量化する •
転売現象と関連する消費者心理などの変化 • 転売行動の変化や予兆 • アプローチ • 転売に関連するソーシャルメディアのテキストの探索的分析 • 消費者心理等の定量化に3つの辞書を使用(ML-Ask, J-LIWC, J-MFD) 笹原、奥田、五十嵐, 人工知能学会予行集 2021; Okuda et al. (in prep.)
15.
データ • 新型コロナに関する単語を 含むツイートを収集 • そのうち「転売」が含まれる 日本語の投稿を分析 •
2020/2/25∼8/25 • 22,530ツイート
16.
転売と消費者感情 ML-Ask (Ptaszynski et
al. 2009, 2017) により10種類の感情に分類
17.
転売と消費者感情 マスク、美女、中国人 量販店、ニンテンドースイッチ、 困難、入手 衝撃、小麦粉、ホットケーキ、 今度 ヨドバシ、告白、恐怖、転売ヤー ML-Ask (Ptaszynski et
al. 2009, 2017) により10種類の感情に分類
18.
転売と消費者心理 J-LIWC2015の動因に含まれる 5つのサブカテゴリに着目
19.
離婚、転売禁止、共働き マスク、転売ヤー、買い占め アングラ、不正受給、 給付金、 け、ビジネス 転売と消費者心理 J-LIWC2015の動因に含まれる 5つのサブカテゴリに着目
20.
転売と消費者の道徳
21.
転売と消費者の道徳 法律、アルコール、 禁止、消毒液 感染、感染者数、病気
22.
事例 その2 • コロナ禍において反ワクチン運動が深刻化 •
不安の増幅、ワクチン忌避、陰謀論、転売、詐欺 • 反ワクチン派の口撃や誘導から身を守り、正しい情報を拡散する • 反ワクチン運動の口撃を特徴づける
23.
研究手法 • データ • 新型コロナに関するツイート(英語860万、日本語200万)のうち ワクチン関連語を含む投稿 •
2020年2月20日∼2021年3月31日 • 分析 • リツイートネットワーク→反ワクチン派などのコミュニティ同定 • 反ワクチン派の言語的特徴
24.
反ワクチン派と政治的党派性 未発表データのため非表示 Miyazaki et al.
(in prep.)
25.
反ワクチン派の返信はネガティブ Miyazaki et al.
(in prep.) 未発表データのため非表示
26.
まとめと今後の課題 • 日英の言語的・文化的比較 • MFDとJ-MFD •
LIWCとJ-LIWC • 辞書ベースの定量化の限界 • BERTなどのニューラル言語モデルとの比較 • 社会調査と組み合わせる
27.
補足資料
28.
正規化 表現揺れを修正し、ある一定の表記に統一する処理 • 大文字・小文字化:アルファベットは大文字・小文字に統一 (例:YouTube→youtube) • 全角化・半角化:全角・半角に統一(例:リンゴ→リンゴ、
24→24 ) • アクセントやウムラウト等の付加記号を削除 • Unicode正規化:結合文字列を解消(例:テ+濁点→「デ」 ) • 同義語を統一(例:ファーストフード→ファストフード、国産車→日本車) 28
29.
基本形への変換 • 語幹処理(Stemming) • 活用形、単数形、複数形、派生語を語幹に変換 例:Family,
families, familial → famili • 見出し語化(Lemmatization) • 辞書の見出し語に変換 例: 「本を読んだ」→「本 を 読ん だ」→「本 を 読む だ」 「本を読みました」→「本 を 読み まし た」 →「本 を 読む ます た」 29
30.
ストップワードの除去 • ストップワード(不要語)を削除する • 機能語:日本語の助詞(「は」や「が」)や助動詞、英語の冠詞や前 置詞(a,
the)など • あまりにも頻度が高い語(場合による) • 既存のストップワード辞書+αを用意する • 様々な言語:RANKS NL Stopwords (https://www.ranks.nl/stopwords) • 日本語:Slothlib (https://ja.osdn.net/projects/slothlib/scm/svn/tree/head/CSharp/Version1/) 30
31.
感情分析 • 辞書ベースの方法 • VADER:英語の感情値(辞書+ルール) •
日本語評価極性辞書(東北大):単語のネガポジ分類(p, n, e) • 単語感情極性対応表(東工大):単語の感情極性が1∼1の数値 • ML-Ask:10種類の感情(喜、怒、哀、怖、恥、好、厭、昂、安、驚)、 ポジネガ分類 • 深層学習ベースの方法(次週) • BERTやその拡張モデル 31
Descargar ahora