Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

さくさくテキストマイニング入門セッション

7.735 visualizaciones

Publicado el

Publicado en: Educación
  • Sé el primero en comentar

さくさくテキストマイニング入門セッション

  1. 1. 入門セッション● テキストマイニング必須用語を20分程度で紹介● 目的:初心者向け勉強会向けに、テキストマイニン グの基本用語から説明し、勉強会の発表を理解す るのに必要な前提知識を身につける● セッション後、質問タイムを設けます。お気軽に御 質問下さい 1
  2. 2. テキストマイニングの利用方法1. 評判分析:強み弱みはどこか?2. 需要抽出:どんな商品が求められているか?3. インフルエンサーの特定4. メール等の文書をDB化→知見の集積5. 暗黙知→形式知6. 自然言語処理:検索、本文要約、IME、翻訳 2
  3. 3. 言語処理特有の技術1.形態素解析:絶対使う。精度95%2.構文解析:よく使う。精度80%3.意味解析:たまに使う。研究段階。精度60%4.文脈解析:研究段階(今回は説明省略 3
  4. 4. 言語処理の技術 (1) 形態素解析● 形態素とは:意味を持つ最小の文字列の単位● 分かち書き:文を単語に分割すること● 形態素解析:分かち書き+品詞付け+原形復元● 日本語の分かち書きは難しい ● 英語等と違って単語の切れ目がわからない – 「すもももももももものうち」→「李も桃も桃の内」○ – 「東京都」→「東, 京都」?● MeCab:非常によく使われる形態素解析エンジン 4
  5. 5. 言語処理の技術 (2) 構文解析● 構文解析:文の構造(係り受け等)を明らかにする● 係り受け:ある文節がどの文節に作用するか● 例文:「黒い大きな瞳の男の娘」 ● (肌の)黒い、大きな瞳の、男の娘? ● 黒い大きな瞳の、男の娘? ● 黒い大きな瞳(さん)の男の娘? 5
  6. 6. 言語処理の技術 (3) 意味解析● 意味解析:評判分析等で使われる● 「泣ける」という単語はポジティブ?ネガティブ? – 「映画」+泣ける⇒感動した!というポジティブ表現 – 「試験」+泣ける⇒結果が悪かった!というネガティブ表現 – 単語の意味は文脈によって変わる可能性がある● 語義曖昧性解消:単語の複数の意味の中から、文 に応じた語義を特定すること● 単語情報単体で自然言語の全てを理解できるわけ ではない 6
  7. 7. テキストの統計処理(1)● 「単語」とは何か:トークンとタイプ – “nurture or nature? nurture passes nature”は何単語? – 6(節)と答えるのがトークン – 4(種類)と答えるのがタイプ● Nグラム:隣接するN単位の共起 – 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ] – 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ) – 単語Nグラムは形態素解析する必要がある – 大量のNグラム情報があれば、ある単語とそれに連なる単語 が文書に現れる確率が求められる→検索や予測変換で利用 7
  8. 8. テキストの統計処理(2)● bag-of-words(BOW):文章の単語ベクトル表現 ● 「ある文書がどのような単語を含んでいるか」を表す ● 順序や構文など、ある程度元の文書の情報を捨ててい るが、扱いやすいため、実際の分析ではよく使われる ● 例:柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ} ● 例:{柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
  9. 9. 機械学習● 人間の学習能力をコンピュータに持たせて、分類 や判別、予測などを行う分野 ● 教師有り学習:正解例に沿う様、分類などを行う – パーセプトロン、SVM – 応用:スパム判定や著者推定など ● 教師無し学習:入力値から特徴的なパターンを抽出 – クラスタリング、異常値検出 – 応用:消費者のカテゴライズなど 9
  10. 10. 自然言語処理● 人間が通常用いる自然言語をコンピュータに処理 させる分野 ● テキストマイニングでは、自然言語処理の技術(形態素 解析や構文解析など)を用いてテキストを解析する ● 自然言語処理は(形態素解析などの)「技術を作る」、テ キストマイニングは「技術を使う」のが主眼 ● 包丁に対する鍛冶屋と料理人の違い by 海野さん 10
  11. 11. 頻出専門用語(1)● コーパス:言語の分析用例データ● 素性:文法的な情報を表す特徴量(単語頻度等)● アノテーション:関連情報、メタ情報のこと。タスクに よって、品詞をつけることであったり、意味を付与す るものであったりする● 辞書:形態素解析や構文解析を行う際に用いる教 師データ。辞書の整備が分析の精度を左右する 11
  12. 12. 頻出専門用語(2)● 照応解析:代名詞や指示語が何を指しているかを 明らかしたり、省略された名詞句を補完する処理● チャンキング:文の意味的な塊(チャンク)を抽出● クローリング:Webからテキストなどのデータを自動 収集すること。Twitterやブログなど、APIが用意さ れている場合もある● データクレンジング(クリーニング):収集したデータ に含まれる誤字脱字、表記揺れ、欠損などの汚損 を取り除く作業 12

×