SlideShare una empresa de Scribd logo
1 de 17
単語の頻度と意味に基づいた
コミックに関するテキスト情報源の特性分析
関西大学
◎樋口亮太 山西良典 松下光範
E21-2(day2p23)
研究概要
• 何をした?
• 本研究の貢献
• 結果
-コミック分析に用いられるテキストデータとして説明文とレビュー文を対象
-情報源ごとにどのような単語がどのくらい出現するか分析した
-従来:情報源を経験的に選択していた
説明文 身 , 身長 / 親 , 兄 , 姉妹 内容を表現するような単語
レビュー文 イラスト , 漫画 / 作画 , 作家 作品のメタ情報を表す単語
1 /14
-定量的な理由を持って適切な情報源を選択できるようになった
コミックを取り巻く現状
• 膨大なコミックの中から
ユーザの興味に応じた内容の作品を推薦するためには...
コミックの内容情報を把握する必要がある
• 現状のコミック選択方法
-ジャンル
-書誌情報
メタ的な情報をクエリとする検索が一般的
• コミックは画像情報とテキスト情報が
混在する複雑なコンテンツ
らぶひな(赤松健,講談社)より引用
}
-メタ情報だけでは
求める内容の作品にはたどり着けない...
2 /14
コミックの内容把握のための取り組み
• コミックそのものを直接的に分析するアプローチ
• 他のリソースから間接的に分析するアプローチ
◎ 個々の要素に対する分析精度は高い値を示す(例:コマの推定,キャラクタ抽出)
これらを組み合わせて自動で内容情報を取得することは難しい
◎ウェブ上に膨大な量のデータが存在し,収集が容易
コンテンツの内容を表現するテキスト情報(例:レビュー文,説明文,あらすじ文)
本研究では間接的アプローチに着目
3 /14
コンテンツ分析におけるテキスト情報源
• 同一コンテンツを対象した情報源は複数考えられる
あらすじ文
コミック
説明文 質問文
レビュー文
レビュー文
レシピ
料理
レビュー文
説明文
観光
同一コンテンツを表現している一方で,情報源ごとにその内容は異なる
例)NARUTOに関するウェブ上のテキストには...
-説明文:「忍びが繰り広げるバトル漫画」
-レビュー文:「絵が上手い」「目が離せない」
作品の概要についての解説
作品に対する感想や評価
<記述目的>
4 /13
情報源の選択について
• 同一コンテンツを表現している一方で,情報源ごとにその内容は異なる
-それぞれの研究で目指すアプリケーションに応じて適切な情報源を選択するべき
情報源をなんとなく選択してしまっていませんか?
現状:定量的な理由を考慮せずに
流行りのAIを用いてウェブテキストの新しい使い道を発見しました!!
そこそこの結果は出てるけど,入力のデータはコレで良かったのか?
定量的に情報源の特性を分析した上で検証を行うべきではないのか?
5 /14
情報源の選択について
• 同一コンテンツを表現している一方で,情報源ごとにその内容は異なる
-それぞれの研究で目指すアプリケーションに応じて適切な情報源を選択するべき
情報源をなんとなく選択してしまっていませんか?
定量的な理由を考えずに
流行りのAIを用いてウェブテキストの新しい使い道を発見しました!!
良い結果は出てるけど,入出力の関係性は計算機に頼り切っていいのか?
コミックに関するテキスト情報を対象として
同一コンテンツを扱った情報源ごとの特性を分析する
研究目的
①情報源の特性の違い:適切な情報源の選択
②共通した性質:情報源の統合によるデータ量の確保
<情報源の特性理解による利点>
6 /14
分析手順
①データセット構築
-対象とした2種類の情報源:コミックの内容に関する説明文,レビュー文
-クレンジング
②クラス辞書の構築
-単語分散表現とk-means法を組み合わせて類似した単語の集合を獲得
-この単語集合を次ステップで用いるクラス辞書とする
③頻出単語の意味的分類
-辞書を用いて単語の出現頻度を算出
情報源の特性を分析するために以下の手順で行う
7 /14
情報源ごとにどのような意味の単語が
どのくらい出現しているのか分析する
①データセットの構築
A:キャラクタの説明文:6,250件
-コミックに登場するキャラクタの詳細を説明した文章
-情報ソース:Wikipedia,ピクシブ百科事典,ニコニコ大百科,アニヲタWiki(仮)
-2,067キャラクタ分
B:コミック作品のレビュー文:6,250件
-コミック作品の評価や情報集積を目的とした文章
-情報ソース:作品データベース
-「最近閲覧数が多い作品トップ 1000」から上位 200 作品
• 名詞のみを抽出し,低頻度語を除去
• 単語の総異なり数
-説明文:7136件,レビュー文:3092件
2 種類の情報源のデータを統合し
合計12,500件のデータセットを構築
(学習:テスト=10,000:2,500)
8 /14
②クラス辞書の構築
• 「どのような意味の単語が存在するか」について分析するために
単語分散表現,k-means法を用いて単語のクラス集合を獲得
-学習データ10,000件を使用
-エルボー法を用いてクラス数を63クラスに決定
クラス クラスに含まれる単語の一例
激戦,戦友,初戦,苦戦
黒,白,褐色,青春,顔色
アイドル,クラス,ピアス
• 1クラスあたりに含まれる単語数
-平均値:118.8単語
-標準偏差:107.1単語
-最大値:495単語
-最小値:8単語
得られたクラス集合をコミックの内容分析に
必要な語彙をまとめたクラス辞書として扱う
9 /14
③頻出単語の意味的分類
𝑡0 = [元気, 勇敢, 男性]
𝒕𝟏 = [感動, 元気, アニメ]
𝑡2499 = [笑顔, ギャル, 姉]
…
0 1 2 62
元気
勇敢
活気
笑顔
男性
女性
性別
異性
感動
最高
オススメ
布教
姉
兄
従兄
親
0 1 2 62
𝑏0 1 1 0 0
𝒃𝟏 1 0 1 0
𝑏2499 1 0 0 1
…
入力:テストデータ 出力:63次元のバイナリ列
作成した63クラスの辞書
あるテストデータ𝒕𝟏には,
“感動”という単語が
含まれている
クラス辞書を参考にテストデータ2,500件に含まれる単語の出現頻度を算出
1 2 3
10 /14
辞書のクラス2に同じく
”感動”とあるので,
𝒕𝟏はクラス2の要素を含む
出力𝒃𝟏のクラス2の欄には,
「1」が立つ
評価指標と考察の観点
11 /14
• バイナリ列を用いて相対差を算出
-各クラスごとの情報源における割合の差の絶対値
• 考察の観点
-相対差が大きいクラスに含まれる単語群を解釈
-情報源の特性を考慮した具体的なアプリケーションの例
0 1 2 62
𝑏0 1 1 0 0
𝒃𝟏 1 0 1 0
𝑏2499 1 0 0 1
…
出力:63次元のバイナリ列
例)
• 情報源の両方に割合が同じ場合
• 情報源の片方に割合が偏った場合
相対差:0%
相対差:100%
<今後の課題>
-0回と1回の場合
-0回と100回の場合
クラス𝑛に該当した情報源ごとのデータ数が
いずれも相対差は100% 同じ100%でも意味が違うんじゃ?
結果:説明文に頻出したクラス
クラスに含まれる
単語群の一例
割合の差
身,身長,上半身 74.2
親,兄,妹,姉 63.7
• 竈門炭治郎(鬼滅の刃)のWikipediaの項目には
「身長165cm」と記述がある.
• サボ(ONE PIECE)のピクシブ百科事典の項目には
「ルフィの義兄」と記述がある.
キャラクタの特徴や作品の内容を説明する単語
適用例:コミック作品の内容に関する分析など
12 /14
結果:レビュー文に頻出したクラス
クラスに含まれる
単語群の一例
割合の差
漫画,映画,イラスト 35.5
作品,作家,傑作 19.8
• 画風、熱量といいスポーツ漫画に限らないと
言える後世に与えた影響が大きい作風。
• この作家さんが描くイラスト大好きです。
作品のメタ的な情報を示す単語
適用例:ジャンル推定,トピック分類問題など
13 /14
適応限界
意味的分類ができていない単語の一例
ヘアスタイル,チェック,
プラモ,リハビリ,キャラ
①多くのカタカナ語を含んだクラスが
合計3クラス存在する.
• 最も多く(全体の73% )のデータが該当したクラスもその1つ
• 意味的な分類ができていない
-単語分散モデルを見直すことで改善が期待
②説明文と比較するとレビュー文に該当するクラスが少ない
• テストデータが該当したクラスの合計値は,説明文の方が1.75倍大きい
-レビュー文には「ハラハラドキドキの展開がアツい」や「表情が怖かった」というように
作品の感想を表現するための形容詞も多く用いられていた
14 /14
まとめ
• 背景:同一コンテンツを扱うテキストでも情報源によって記述内容が異なる
• 問題:情報源の選択に定量的な理由が存在しないまま検証を行っている
• 目的:出現単語から情報源の特性を分析
• データ:ウェブ上のキャラクタの説明文とコミック作品のレビュー文
• 手法:テキストに含まれる頻出単語を意味的に分類
• 知見:
-説明文:コミックの内容を表現するような単語
-レビュー文:作品のメタ情報を表す単語
単語の頻度と意味に基づいたコミックに関するテキスト情報源の特性分析 E21-2
day2 p23
関西大学大学院 総合情報学研究科
◎樋口亮太 山西良典 松下光範
Introduction
Method
Result
Purpose
・コンテンツ分析におけるテキスト情報源は複数考えられる
◎説明文の特性
◎レビュー文の特性
同一コンテンツを表現している一方で
に記述内容は異なる
同一コンテンツ
情報源ごと
コミックに関するテキスト情報を対象として
同一コンテンツを扱った情報源ごとの特性を分析する
・コミックを取り巻く現状
内容情報を
取得する必要
あらすじ文
コミック
説明文 質問文
レビュー文
・辞書構築
・頻出単語の意味的分類
キャラクタの特徴や
作品の内容を説明する単語
作品のメタ的な情報
を示す単語
全体の73%のデータが該当したにも関わらず
意味的な分類ができなかった
-カタカナ語が集中した
クラスが3件存在した
・異なる情報源からのデータセット構築
-説明文:Wikipedia,pixiv百科事典など
-レビュー文:作品データベース
それぞれ名詞のみを抽出
- 単語分散表現,k-means法を用いて
単語のクラス集合を獲得(63クラス)
クラス クラスに含まれる単語の一例
激戦,戦友,初戦,苦戦
黒,白,褐色,青春,顔色
アイドル,クラス,ピアス
-コミックの内容分析に必要となる
語彙をまとめたクラス辞書として扱う
クラス辞書を用いて単語の出現頻度を算出
適応限界
頻出したクラスに
含まれる単語の一例
身,身長,上半身
親,兄,妹,姉
頻出したクラスに
含まれる単語の一例
漫画,映画,イラスト
作品,作家,傑作
ヘアスタイル,チェック,
プラモ,リハビリ,キャラ
意味的分類が
できていない単語の一例
適用例:コミック作品の内容に関する分析など
適用例:ジャンル推定,トピック分類問題など
-膨大な作品群から読みたい作品を推薦するためには…
・コミックの内容把握のための取り組み
分析対象②
他のリソース
分析対象①
コミック
様々な技術を
応用する必要
◎膨大なデータ
◎収集が用意
例)・説明文,あらすじ文:作品の概要についての解説
・レビュー文:作品に対する感想や評価
を目的とした記述で構成される
情報源の特性を定量的に分析する必要がある
・情報源の特性理解による利点
-情報源の特性の違いに応じた適切な情報源の選択
-共通した性質を持つ情報源の統合によるデータ量の確保

Más contenido relacionado

Más de Matsushita Laboratory

ChinaTakahashi_AMPERE料理-器関係の双対性に着目した探索的な器選択の支援_HCI2024
ChinaTakahashi_AMPERE料理-器関係の双対性に着目した探索的な器選択の支援_HCI2024ChinaTakahashi_AMPERE料理-器関係の双対性に着目した探索的な器選択の支援_HCI2024
ChinaTakahashi_AMPERE料理-器関係の双対性に着目した探索的な器選択の支援_HCI2024
Matsushita Laboratory
 
KannaMiyagawa_HCG2023_A Visualization Method for Variation of Characters’ Rel...
KannaMiyagawa_HCG2023_A Visualization Method for Variation of Characters’ Rel...KannaMiyagawa_HCG2023_A Visualization Method for Variation of Characters’ Rel...
KannaMiyagawa_HCG2023_A Visualization Method for Variation of Characters’ Rel...
Matsushita Laboratory
 
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
Matsushita Laboratory
 
ChinaTakahashi_Exploration cycle finding a better dining experience: a frame...
 ChinaTakahashi_Exploration cyclefinding a better dining experience:a frame... ChinaTakahashi_Exploration cyclefinding a better dining experience:a frame...
ChinaTakahashi_Exploration cycle finding a better dining experience: a frame...
Matsushita Laboratory
 
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
Matsushita Laboratory
 
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
Matsushita Laboratory
 

Más de Matsushita Laboratory (20)

ChinaTakahashi_AMPERE料理-器関係の双対性に着目した探索的な器選択の支援_HCI2024
ChinaTakahashi_AMPERE料理-器関係の双対性に着目した探索的な器選択の支援_HCI2024ChinaTakahashi_AMPERE料理-器関係の双対性に着目した探索的な器選択の支援_HCI2024
ChinaTakahashi_AMPERE料理-器関係の双対性に着目した探索的な器選択の支援_HCI2024
 
KokiSugihara_HCG2023_A method for visualizing causal relationships between to...
KokiSugihara_HCG2023_A method for visualizing causal relationships between to...KokiSugihara_HCG2023_A method for visualizing causal relationships between to...
KokiSugihara_HCG2023_A method for visualizing causal relationships between to...
 
KannaMiyagawa_HCG2023_A Visualization Method for Variation of Characters’ Rel...
KannaMiyagawa_HCG2023_A Visualization Method for Variation of Characters’ Rel...KannaMiyagawa_HCG2023_A Visualization Method for Variation of Characters’ Rel...
KannaMiyagawa_HCG2023_A Visualization Method for Variation of Characters’ Rel...
 
TaketoFujikawa_10thComicComputing2023
TaketoFujikawa_10thComicComputing2023TaketoFujikawa_10thComicComputing2023
TaketoFujikawa_10thComicComputing2023
 
SayakaHayashi_FIT2023
SayakaHayashi_FIT2023SayakaHayashi_FIT2023
SayakaHayashi_FIT2023
 
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
 
ReonHata_JSAI2023
ReonHata_JSAI2023ReonHata_JSAI2023
ReonHata_JSAI2023
 
HarukiShinkawa_FIT2023
HarukiShinkawa_FIT2023HarukiShinkawa_FIT2023
HarukiShinkawa_FIT2023
 
ChinaTakahashi_Exploration cycle finding a better dining experience: a frame...
 ChinaTakahashi_Exploration cyclefinding a better dining experience:a frame... ChinaTakahashi_Exploration cyclefinding a better dining experience:a frame...
ChinaTakahashi_Exploration cycle finding a better dining experience: a frame...
 
TaketoFujikawa_KES2023
TaketoFujikawa_KES2023TaketoFujikawa_KES2023
TaketoFujikawa_KES2023
 
Unification of Terminology for Accurate Communication among Experts --- Basic...
Unification of Terminology for Accurate Communication among Experts --- Basic...Unification of Terminology for Accurate Communication among Experts --- Basic...
Unification of Terminology for Accurate Communication among Experts --- Basic...
 
JSAI2023_企画セッション(仕掛学)資料
JSAI2023_企画セッション(仕掛学)資料JSAI2023_企画セッション(仕掛学)資料
JSAI2023_企画セッション(仕掛学)資料
 
触感に関わる共感覚的表現と基本6感情の対応関係の検証
触感に関わる共感覚的表現と基本6感情の対応関係の検証触感に関わる共感覚的表現と基本6感情の対応関係の検証
触感に関わる共感覚的表現と基本6感情の対応関係の検証
 
レシピの手順に着目した 複数の器特徴の推定
レシピの手順に着目した 複数の器特徴の推定レシピの手順に着目した 複数の器特徴の推定
レシピの手順に着目した 複数の器特徴の推定
 
TaketoFujikawa_comic2023
TaketoFujikawa_comic2023TaketoFujikawa_comic2023
TaketoFujikawa_comic2023
 
複数の質感を複合的に提示可能な触覚提示デバイス
複数の質感を複合的に提示可能な触覚提示デバイス複数の質感を複合的に提示可能な触覚提示デバイス
複数の質感を複合的に提示可能な触覚提示デバイス
 
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
効果音と抽象図形の動作の組み合わせによる印象変化に関する研究
 
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
携帯端末を用いたポインティングによる室内空間でのアドホックな情報アクセス手法に関する研究
 
Kokogatari:実環境を介したリレー小説執筆ツール
Kokogatari:実環境を介したリレー小説執筆ツールKokogatari:実環境を介したリレー小説執筆ツール
Kokogatari:実環境を介したリレー小説執筆ツール
 
Visualization of the Relationship Between Lectures and Laboratories Using SSNMF
Visualization of the Relationship Between Lectures and Laboratories Using SSNMFVisualization of the Relationship Between Lectures and Laboratories Using SSNMF
Visualization of the Relationship Between Lectures and Laboratories Using SSNMF
 

Último

Último (11)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

RyotaHiguchi_DEIM2022

Notas del editor

  1. 本項では,コミックに関するテキスト情報源の中でもキャラクタの説明文と作品に関するレビュー文を対象とし, これらの情報源に対してそれぞれどのような単語がどのくらい出現するかを分析しました. 本研究の貢献と致しまして,コンテンツ分析において対象となる情報源を経験的に選択してしまっていた従来に対して,この提案によって定量的な理由を持って適切な情報源の選択ができるようになりました. 得られた結果から,説明文にはコミックの内容を表現するような単語が,レビュー文には,作品のメタ情報を表現するような単語が多く出現しました.
  2. それでは,具体的な内容に入ります. 毎年出版される新刊コミックの作品数は1万点以上にものぼり...
  3. コミックの内容を把握するための取り組みと致しまして,大きく2つのアプローチが考えられます.
  4. 間接的な分析アプローチに用いられるテキストの情報源についてご説明いたします. コンテンツ分析において対象となる情報源は,複数考えられます. 料理に関するコンテンツ分析では...といった情報源が考えられ,コミックでは,...といった情報源が挙げられます. 例えば,コミックに関する記述と致しまして「NARUTO」に関するウェブ上のテキストには,..という記述目的の文章で構成されています. その内容を概観してみると,これらは同一コンテンツを表現している一方で,情報源ごとにその内容は異なることがわかります.
  5. テキスト情報源には,その情報源ごとに内容が異なるという特徴が存在するため,それぞれが目指す...するべきです. しかしながら,そういった選択において現状では,定量的な理由を述べた上で検証を行っている研究は多く存在せず,例えば先行研究でこうだったからとか,今回は経験的に選んだといったなんとなくの理由で選んでしまっています. 「流行りのAIを用いて...!!!」と言いながらも,不適切な情報源を選んでしまったことによって,分析精度がそこそこの値にとどまってしまったり,データ数が思うように収集できなかったりする問題が考えられます. 本来は,定量的に情報源の特性を分析した上で,具体的な検証を行うべきだと僕は思います. そこで本項では...
  6. そこで本項では,コミックに関するテキスト情報を対象として,同一コンテンツを扱った情報源ごとの特性を分析します. 情報源の特性理解によって得られる利点といたしまして,2つ挙げられます. 1つ目は,情報源の特性に違いが存在した場合,その特徴に従って適切な情報源を選択することにつながります. 2つ目は,情報源の共通した性質に着目し,目的に応じて情報源を統合すれば,従来よりも多くのデータ量を確保するといった嬉しいことが期待できます.
  7. 本項では「情報源の特性を分析する」ために以下の手順で検証を行います. ①では,コミックに関する説明文とレビュー文を収集し,前処理を施します. ②では,単語分散表現とk-means法を組み合わせて,類似した意味の単語集合を獲得します.この単語集合を次ステップで用いるクラス辞書とします. ③では,②で作成された辞書を用いて単語の出現頻度を算出します. 以上の手順で情報源ごとにどのような単語がどのくらい出現しているか分析します. 次は,この目次に従って各ステップごとに詳しく説明していきます.
  8. 1つ目はデータセットの構築に関してです.
  9. 2つ目は,「どのような意味の単語が存在するか」について分析するために,単語の意味を計算する単語分散表現とクラスタリング手法のひとつであるk-means法を組み合わせて,類似した意味の単語集合を獲得します.
  10. 最後に単語の出現頻度を算出します. STEP①は,入力としてあるテストデータT1には,「感動」という単語が含まれています. STEP②.作成した辞書のクラス2には,同様に「感動」という単語が含まれているクラスが存在するため,テストデータT1はクラス2の要素を含むとされます. STEP③は出力に関する説明です.出力データb1のクラス2の欄には,「1」が立ちます. 以上の手順で合計2500件のデータで構成された63次元のバイナリ列を獲得しました.
  11. 提案手法の分析により説明文とレビュー文に読み取られた特性についてご説明いたします. 先ほど得られた63次元のバイナリ列を用いて,相対差を算出しました. これは... 例えば...