SlideShare una empresa de Scribd logo
1 de 33
Descargar para leer sin conexión
  による
                        英語コーパスの処理入門
         ―接続詞 and/but の使用実態調査を例に―

                                     阪上 辰也

                                        2012-04-07
                   Computing Language and Culture with R 2012@Osaka Univ.


Saturday, April 7, 12                                                       1
0. 自己紹介

Saturday, April 7, 12             2
0. 自己紹介

                        • 阪上 辰也 (SAKAUE, Tatsuya)
                          •   所属:        ... 特任講師
                          •   専門: 第二言語習得
                          •   HiRoshima.R 主催/Nagoya.R 初代主催
                          •   ID: sakaue にて
                          •   詳しくは...


Saturday, April 7, 12                                        3
Saturday, April 7, 12   4
本日の目標


           言語データ分析の基本を“知る”



Saturday, April 7, 12           5
Agenda
                        1. R の基本
                        2. 言語データ処理入門
                        3. R による and/but の検索
                        4. R のススメ

Saturday, April 7, 12                          6
Agenda
                        1. R の基本
                        2. 言語データ処理入門
                        3. R による and/but の検索
                        4. R のススメ

Saturday, April 7, 12                          7
1. R の基本

                   • R は「関数」と「変数」が命
                    • 関数を使ってデータを処理
                    • 関数を使ってサクっと検定・作図
                    • 変数を使って値をまとめておく

Saturday, April 7, 12                   8
1. R の基本

              > numbers <- c(1, 2, 3, 4, 5)
                        # c関数で数値をまとめて変数へ代入

              > sum(numbers)
                        # sum関数で変数を処理し合計値を算出

              [1] 15



Saturday, April 7, 12                          9
Agenda
                        1. R の基本
                        2. 言語データ処理入門
                        3. R による and/but の検索
                        4. R のススメ

Saturday, April 7, 12                          10
Agenda
                        1. R の基本
                        2. 言語データ処理入門
                        3. R による and/but の検索
                        4. R のススメ

Saturday, April 7, 12                          11
2. 言語データ処理入門
                        1) データを読み込む
                        2) データを分解する
                        3) データを   える
                        4) 数値を求める
                        5) データを保存する
Saturday, April 7, 12                  12
1) データを読み込む

              > nns <- scan("nns_raw.txt",
              what="character")

              Read 62959 items




Saturday, April 7, 12                        13
2) データを分解する
           > nns_list <- strsplit(nns, " ")
                        # スペースでデータをリスト化
                        # 干し柿状態(?)

           > nns_unlist <- unlist(ns_list)
                        # リストされたデータをバラバラに分解


Saturday, April 7, 12                         14
3) データを    える

          > sort_nns <- sort(nns_unlist)
            # データの並び替え

          > uniq_nns <- unique(sort_nns)
                        # 並び替えたデータをまとめる


Saturday, April 7, 12                      15
4) 数値を求める
          > length(nns_unlist)
          [1] 70220    # Token
          > nns_all <- table(nns_unlist)
            # 単語一覧表の作成

          > nns_type <- length(uniq_nns)
          > nns_type
          [1] 7579     # Type

Saturday, April 7, 12                      16
5) データを保存する

             > write.table(nns_all,
             file="freq.txt" sep="¥t")

             # freq.txt という名で列をタブ区切りにして保存




Saturday, April 7, 12                       17
Agenda
                        1. R の基本
                        2. 言語データ処理入門
                        3. R による and/but の検索
                        4. R のススメ

Saturday, April 7, 12                          18
Agenda
                        1. R の基本
                        2. 言語データ処理入門
                        3. R による and/but の検索
                        4. R のススメ

Saturday, April 7, 12                          19
3. R による and/but の検索


                   •grep 関数・length 関数
                         • grep() : 文字列マッチング
                         • length(): 要素数のカウント

Saturday, April 7, 12                           20
3. R による and/but の検索
        > grep("^And,?", nns_unlist, fixed = FALSE, value=TRUE)
        > grep("^But,?", nns_unlist, fixed = FALSE, value=TRUE)

        # ヒットした要素を表示

        # 正規表現の ^ をつけておき,3文字を含む文字列(underst”and”)を除外

        # fixed=FALSE で拡張正規表現を利用,value=TRUE で要素表示


        > length(grep("^And,?", nns_unlist, fixed = FALSE, value=TRUE))
        > length(grep("^But,?", nns_unlist, fixed = FALSE, value=TRUE))


        # ヒット数だけを表示




Saturday, April 7, 12                                                     21
3. R による and/but の検索

        > length(grep("^And,?", nns_unlist, fixed = FALSE, value=TRUE))
        [1] 175
        > length(grep("^But,?", nns_unlist, fixed = FALSE, value=TRUE))
        [1] 178
        > length(grep("^and,?", nns_unlist, fixed = FALSE, value=TRUE))
        [1] 1479
        > length(grep("^but,?", nns_unlist, fixed = FALSE, value=TRUE))
        [1] 260




Saturday, April 7, 12                                                     22
3. R による and/but の検索
 > barplot(freq, names=c("And", "and", "But", "but"), horiz=T, las=1)




Saturday, April 7, 12                                                   23
3. R による and/but の検索

            • R で基本的な検索・分析ならば...
                        1) データを strsplit() + unlist() して
                        2) grep() と length() でカウント
                        3) barplot() などで視覚化
                        4) chisq.test() などで検定


Saturday, April 7, 12                                      24
Agenda
                        1. R の基本
                        2. 言語データ処理入門
                        3. R による and/but の検索
                        4. R のススメ

Saturday, April 7, 12                          25
Agenda
                        1. R の基本
                        2. 言語データ処理入門
                        3. R による and/but の検索
                        4. R のススメ

Saturday, April 7, 12                          26
4. R のススメ
           • すべての処理・分析が R のみで完結
                        •   <-> Concordancer + Editor + Excel (+ UNIX) + R

           • プログラミングの基礎養成に有効
              • --> Python, Perl, Ruby ...
           • 作図が美しい(+Macならフォントも)
              • Excel の作図はオモチャ
Saturday, April 7, 12                                                        27
Saturday, April 7, 12   28
One more thing...



Saturday, April 7, 12                       29
Package による付加機能



Saturday, April 7, 12     30
Packageとは?

         • ある処理・機能に特化したプログラム
                        •   base(基本パッケージ)だけでも 1,000 以上
                        •   特殊な処理を行う際は,別の package を追加
                        •   言語処理に特化したものもある(ex. RMeCab)




Saturday, April 7, 12                                    31
言語処理に特化した packages
                 i) tm: Text Mining Package
                        •   http://tm.r-forge.r-project.org/
                        •   http://cran.r-project.org/web/packages/tm/tm.pdf

                 ii) corpora
                        •   http://cogsci.uni-osnabrueck.de/~severt/SIGIL/sigil_R/
                        •   http://cran.r-project.org/web/packages/corpora/corpora.pdf

                 iii) LanguageR
                        •   http://www.ualberta.ca/~baayen/software.html
                        •   http://cran.r-project.org/web/packages/languageR/languageR.pdf




Saturday, April 7, 12                                                                        32
ご意見・ご感想お待ちしております



                         twitter: @sakaue

                         e-mail: tsakaue@hiroshima-u.ac.jp




Saturday, April 7, 12                                        33

Más contenido relacionado

La actualidad más candente

HiroshimaR6_Introduction
HiroshimaR6_IntroductionHiroshimaR6_Introduction
HiroshimaR6_IntroductionSAKAUE, Tatsuya
 
第一回ゆるふわーる
第一回ゆるふわーる第一回ゆるふわーる
第一回ゆるふわーるSachiko Hirata
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスShintaro Takemura
 
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」Fuyuko Matsumura
 
LOD技術の概要と LinkData.orgを用いたLOD公開
LOD技術の概要とLinkData.orgを用いたLOD公開LOD技術の概要とLinkData.orgを用いたLOD公開
LOD技術の概要と LinkData.orgを用いたLOD公開Kouji Kozaki
 
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 101010分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010Nobuaki Oshiro
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkunsYohei Sato
 
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 090510分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905Nobuaki Oshiro
 
情報の構造化@Linked Open Data連続講座(2014.6.2)
情報の構造化@Linked Open Data連続講座(2014.6.2)情報の構造化@Linked Open Data連続講座(2014.6.2)
情報の構造化@Linked Open Data連続講座(2014.6.2)Ikki Ohmukai
 
Strategy パターンと開放/閉鎖原則に見るデザインパターンの有用性
Strategy パターンと開放/閉鎖原則に見るデザインパターンの有用性Strategy パターンと開放/閉鎖原則に見るデザインパターンの有用性
Strategy パターンと開放/閉鎖原則に見るデザインパターンの有用性tomo_masakura
 
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについてRDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについてMasayuki Isobe
 

La actualidad más candente (15)

HiroshimaR5_Intro
HiroshimaR5_IntroHiroshimaR5_Intro
HiroshimaR5_Intro
 
HiroshimaR6_Introduction
HiroshimaR6_IntroductionHiroshimaR6_Introduction
HiroshimaR6_Introduction
 
JASELE2015-KumamotoWS
JASELE2015-KumamotoWSJASELE2015-KumamotoWS
JASELE2015-KumamotoWS
 
Tokyo r30 beginner
Tokyo r30 beginnerTokyo r30 beginner
Tokyo r30 beginner
 
第一回ゆるふわーる
第一回ゆるふわーる第一回ゆるふわーる
第一回ゆるふわーる
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」LOD連続講義 第5回「LODの作り方・使い方」
LOD連続講義 第5回「LODの作り方・使い方」
 
LOD技術の概要と LinkData.orgを用いたLOD公開
LOD技術の概要とLinkData.orgを用いたLOD公開LOD技術の概要とLinkData.orgを用いたLOD公開
LOD技術の概要と LinkData.orgを用いたLOD公開
 
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 101010分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
 
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 090510分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905
 
情報の構造化@Linked Open Data連続講座(2014.6.2)
情報の構造化@Linked Open Data連続講座(2014.6.2)情報の構造化@Linked Open Data連続講座(2014.6.2)
情報の構造化@Linked Open Data連続講座(2014.6.2)
 
Strategy パターンと開放/閉鎖原則に見るデザインパターンの有用性
Strategy パターンと開放/閉鎖原則に見るデザインパターンの有用性Strategy パターンと開放/閉鎖原則に見るデザインパターンの有用性
Strategy パターンと開放/閉鎖原則に見るデザインパターンの有用性
 
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについてRDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについて
 
第5回LinkedData勉強会@yayamamo
第5回LinkedData勉強会@yayamamo第5回LinkedData勉強会@yayamamo
第5回LinkedData勉強会@yayamamo
 

Más de SAKAUE, Tatsuya

HiRoshimaR6_ExplodingBoxplot
HiRoshimaR6_ExplodingBoxplotHiRoshimaR6_ExplodingBoxplot
HiRoshimaR6_ExplodingBoxplotSAKAUE, Tatsuya
 
MethokenOkinawa_Sakaue_LearnerCorpus
MethokenOkinawa_Sakaue_LearnerCorpusMethokenOkinawa_Sakaue_LearnerCorpus
MethokenOkinawa_Sakaue_LearnerCorpusSAKAUE, Tatsuya
 
ポッドキャスト利用による個別学習の支援とリスニング不安への影響
ポッドキャスト利用による個別学習の支援とリスニング不安への影響ポッドキャスト利用による個別学習の支援とリスニング不安への影響
ポッドキャスト利用による個別学習の支援とリスニング不安への影響SAKAUE, Tatsuya
 
Nagoya.R #10 LT 「グラフはベクタ(ベクトル)画像で出力しようじゃありませんか」
Nagoya.R #10 LT 「グラフはベクタ(ベクトル)画像で出力しようじゃありませんか」Nagoya.R #10 LT 「グラフはベクタ(ベクトル)画像で出力しようじゃありませんか」
Nagoya.R #10 LT 「グラフはベクタ(ベクトル)画像で出力しようじゃありませんか」SAKAUE, Tatsuya
 
ベクタ画像と PNG 画像の比較
ベクタ画像と PNG 画像の比較ベクタ画像と PNG 画像の比較
ベクタ画像と PNG 画像の比較SAKAUE, Tatsuya
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するかSAKAUE, Tatsuya
 
授業外で個別学習を促進するためのポッドキャスト利用
授業外で個別学習を促進するためのポッドキャスト利用授業外で個別学習を促進するためのポッドキャスト利用
授業外で個別学習を促進するためのポッドキャスト利用SAKAUE, Tatsuya
 
R のインストール手順(LET 2012用)
R のインストール手順(LET 2012用)R のインストール手順(LET 2012用)
R のインストール手順(LET 2012用)SAKAUE, Tatsuya
 
Osaka.R #7 LT: フォントのオハナシ
Osaka.R #7 LT: フォントのオハナシOsaka.R #7 LT: フォントのオハナシ
Osaka.R #7 LT: フォントのオハナシSAKAUE, Tatsuya
 
HiRoshima.R #2 LT by @sakaue
HiRoshima.R #2 LT by @sakaueHiRoshima.R #2 LT by @sakaue
HiRoshima.R #2 LT by @sakaueSAKAUE, Tatsuya
 
HiRoshima.R #2 入門者講習資料
HiRoshima.R #2 入門者講習資料HiRoshima.R #2 入門者講習資料
HiRoshima.R #2 入門者講習資料SAKAUE, Tatsuya
 
Introduction to "R" for Language Researchers
Introduction to "R" for Language ResearchersIntroduction to "R" for Language Researchers
Introduction to "R" for Language ResearchersSAKAUE, Tatsuya
 
Japan.R #2 Introduction to R
Japan.R #2 Introduction to RJapan.R #2 Introduction to R
Japan.R #2 Introduction to RSAKAUE, Tatsuya
 
SAKAUE & KIDA (2011) @JASELE Yamagata
SAKAUE & KIDA (2011) @JASELE Yamagata SAKAUE & KIDA (2011) @JASELE Yamagata
SAKAUE & KIDA (2011) @JASELE Yamagata SAKAUE, Tatsuya
 

Más de SAKAUE, Tatsuya (19)

HiRoshimaR6_ExplodingBoxplot
HiRoshimaR6_ExplodingBoxplotHiRoshimaR6_ExplodingBoxplot
HiRoshimaR6_ExplodingBoxplot
 
Hiroshimar3_rmecab
Hiroshimar3_rmecabHiroshimar3_rmecab
Hiroshimar3_rmecab
 
MethokenOkinawa_Sakaue_LearnerCorpus
MethokenOkinawa_Sakaue_LearnerCorpusMethokenOkinawa_Sakaue_LearnerCorpus
MethokenOkinawa_Sakaue_LearnerCorpus
 
ポッドキャスト利用による個別学習の支援とリスニング不安への影響
ポッドキャスト利用による個別学習の支援とリスニング不安への影響ポッドキャスト利用による個別学習の支援とリスニング不安への影響
ポッドキャスト利用による個別学習の支援とリスニング不安への影響
 
Nagoya.R #10 LT 「グラフはベクタ(ベクトル)画像で出力しようじゃありませんか」
Nagoya.R #10 LT 「グラフはベクタ(ベクトル)画像で出力しようじゃありませんか」Nagoya.R #10 LT 「グラフはベクタ(ベクトル)画像で出力しようじゃありませんか」
Nagoya.R #10 LT 「グラフはベクタ(ベクトル)画像で出力しようじゃありませんか」
 
ベクタ画像と PNG 画像の比較
ベクタ画像と PNG 画像の比較ベクタ画像と PNG 画像の比較
ベクタ画像と PNG 画像の比較
 
反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか反応時間データをどう分析し図示するか
反応時間データをどう分析し図示するか
 
授業外で個別学習を促進するためのポッドキャスト利用
授業外で個別学習を促進するためのポッドキャスト利用授業外で個別学習を促進するためのポッドキャスト利用
授業外で個別学習を促進するためのポッドキャスト利用
 
R のインストール手順(LET 2012用)
R のインストール手順(LET 2012用)R のインストール手順(LET 2012用)
R のインストール手順(LET 2012用)
 
Osaka.R #7 LT: フォントのオハナシ
Osaka.R #7 LT: フォントのオハナシOsaka.R #7 LT: フォントのオハナシ
Osaka.R #7 LT: フォントのオハナシ
 
HiRoshima.R #2 LT by @sakaue
HiRoshima.R #2 LT by @sakaueHiRoshima.R #2 LT by @sakaue
HiRoshima.R #2 LT by @sakaue
 
HiRoshima.R #2 入門者講習資料
HiRoshima.R #2 入門者講習資料HiRoshima.R #2 入門者講習資料
HiRoshima.R #2 入門者講習資料
 
Introduction to "R" for Language Researchers
Introduction to "R" for Language ResearchersIntroduction to "R" for Language Researchers
Introduction to "R" for Language Researchers
 
How2Install "R"
How2Install "R"How2Install "R"
How2Install "R"
 
Japan.R #2 Introduction to R
Japan.R #2 Introduction to RJapan.R #2 Introduction to R
Japan.R #2 Introduction to R
 
Nagoya.R #6 LT Beanplot
Nagoya.R #6 LT BeanplotNagoya.R #6 LT Beanplot
Nagoya.R #6 LT Beanplot
 
SAKAUE & KIDA (2011) @JASELE Yamagata
SAKAUE & KIDA (2011) @JASELE Yamagata SAKAUE & KIDA (2011) @JASELE Yamagata
SAKAUE & KIDA (2011) @JASELE Yamagata
 
Methoken.R
Methoken.RMethoken.R
Methoken.R
 
Osaka.R #6 LT
Osaka.R #6 LTOsaka.R #6 LT
Osaka.R #6 LT
 

「R による英語コーパスの処理入門―接続詞 and/but の使用実態調査を例に―」Computing Language and Culture with R 2012

  • 1.   による 英語コーパスの処理入門 ―接続詞 and/but の使用実態調査を例に― 阪上 辰也 2012-04-07 Computing Language and Culture with R 2012@Osaka Univ. Saturday, April 7, 12 1
  • 3. 0. 自己紹介 • 阪上 辰也 (SAKAUE, Tatsuya) • 所属:        ... 特任講師 • 専門: 第二言語習得 • HiRoshima.R 主催/Nagoya.R 初代主催 • ID: sakaue にて • 詳しくは... Saturday, April 7, 12 3
  • 5. 本日の目標 言語データ分析の基本を“知る” Saturday, April 7, 12 5
  • 6. Agenda 1. R の基本 2. 言語データ処理入門 3. R による and/but の検索 4. R のススメ Saturday, April 7, 12 6
  • 7. Agenda 1. R の基本 2. 言語データ処理入門 3. R による and/but の検索 4. R のススメ Saturday, April 7, 12 7
  • 8. 1. R の基本 • R は「関数」と「変数」が命 • 関数を使ってデータを処理 • 関数を使ってサクっと検定・作図 • 変数を使って値をまとめておく Saturday, April 7, 12 8
  • 9. 1. R の基本 > numbers <- c(1, 2, 3, 4, 5) # c関数で数値をまとめて変数へ代入 > sum(numbers) # sum関数で変数を処理し合計値を算出 [1] 15 Saturday, April 7, 12 9
  • 10. Agenda 1. R の基本 2. 言語データ処理入門 3. R による and/but の検索 4. R のススメ Saturday, April 7, 12 10
  • 11. Agenda 1. R の基本 2. 言語データ処理入門 3. R による and/but の検索 4. R のススメ Saturday, April 7, 12 11
  • 12. 2. 言語データ処理入門 1) データを読み込む 2) データを分解する 3) データを える 4) 数値を求める 5) データを保存する Saturday, April 7, 12 12
  • 13. 1) データを読み込む > nns <- scan("nns_raw.txt", what="character") Read 62959 items Saturday, April 7, 12 13
  • 14. 2) データを分解する > nns_list <- strsplit(nns, " ") # スペースでデータをリスト化 # 干し柿状態(?) > nns_unlist <- unlist(ns_list) # リストされたデータをバラバラに分解 Saturday, April 7, 12 14
  • 15. 3) データを える > sort_nns <- sort(nns_unlist) # データの並び替え > uniq_nns <- unique(sort_nns) # 並び替えたデータをまとめる Saturday, April 7, 12 15
  • 16. 4) 数値を求める > length(nns_unlist) [1] 70220 # Token > nns_all <- table(nns_unlist) # 単語一覧表の作成 > nns_type <- length(uniq_nns) > nns_type [1] 7579 # Type Saturday, April 7, 12 16
  • 17. 5) データを保存する > write.table(nns_all, file="freq.txt" sep="¥t") # freq.txt という名で列をタブ区切りにして保存 Saturday, April 7, 12 17
  • 18. Agenda 1. R の基本 2. 言語データ処理入門 3. R による and/but の検索 4. R のススメ Saturday, April 7, 12 18
  • 19. Agenda 1. R の基本 2. 言語データ処理入門 3. R による and/but の検索 4. R のススメ Saturday, April 7, 12 19
  • 20. 3. R による and/but の検索 •grep 関数・length 関数 • grep() : 文字列マッチング • length(): 要素数のカウント Saturday, April 7, 12 20
  • 21. 3. R による and/but の検索 > grep("^And,?", nns_unlist, fixed = FALSE, value=TRUE) > grep("^But,?", nns_unlist, fixed = FALSE, value=TRUE) # ヒットした要素を表示 # 正規表現の ^ をつけておき,3文字を含む文字列(underst”and”)を除外 # fixed=FALSE で拡張正規表現を利用,value=TRUE で要素表示 > length(grep("^And,?", nns_unlist, fixed = FALSE, value=TRUE)) > length(grep("^But,?", nns_unlist, fixed = FALSE, value=TRUE)) # ヒット数だけを表示 Saturday, April 7, 12 21
  • 22. 3. R による and/but の検索 > length(grep("^And,?", nns_unlist, fixed = FALSE, value=TRUE)) [1] 175 > length(grep("^But,?", nns_unlist, fixed = FALSE, value=TRUE)) [1] 178 > length(grep("^and,?", nns_unlist, fixed = FALSE, value=TRUE)) [1] 1479 > length(grep("^but,?", nns_unlist, fixed = FALSE, value=TRUE)) [1] 260 Saturday, April 7, 12 22
  • 23. 3. R による and/but の検索 > barplot(freq, names=c("And", "and", "But", "but"), horiz=T, las=1) Saturday, April 7, 12 23
  • 24. 3. R による and/but の検索 • R で基本的な検索・分析ならば... 1) データを strsplit() + unlist() して 2) grep() と length() でカウント 3) barplot() などで視覚化 4) chisq.test() などで検定 Saturday, April 7, 12 24
  • 25. Agenda 1. R の基本 2. 言語データ処理入門 3. R による and/but の検索 4. R のススメ Saturday, April 7, 12 25
  • 26. Agenda 1. R の基本 2. 言語データ処理入門 3. R による and/but の検索 4. R のススメ Saturday, April 7, 12 26
  • 27. 4. R のススメ • すべての処理・分析が R のみで完結 • <-> Concordancer + Editor + Excel (+ UNIX) + R • プログラミングの基礎養成に有効 • --> Python, Perl, Ruby ... • 作図が美しい(+Macならフォントも) • Excel の作図はオモチャ Saturday, April 7, 12 27
  • 29. One more thing... Saturday, April 7, 12 29
  • 31. Packageとは? • ある処理・機能に特化したプログラム • base(基本パッケージ)だけでも 1,000 以上 • 特殊な処理を行う際は,別の package を追加 • 言語処理に特化したものもある(ex. RMeCab) Saturday, April 7, 12 31
  • 32. 言語処理に特化した packages i) tm: Text Mining Package • http://tm.r-forge.r-project.org/ • http://cran.r-project.org/web/packages/tm/tm.pdf ii) corpora • http://cogsci.uni-osnabrueck.de/~severt/SIGIL/sigil_R/ • http://cran.r-project.org/web/packages/corpora/corpora.pdf iii) LanguageR • http://www.ualberta.ca/~baayen/software.html • http://cran.r-project.org/web/packages/languageR/languageR.pdf Saturday, April 7, 12 32
  • 33. ご意見・ご感想お待ちしております twitter: @sakaue e-mail: tsakaue@hiroshima-u.ac.jp Saturday, April 7, 12 33

Notas del editor

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. \n
  21. \n
  22. \n
  23. \n
  24. \n
  25. \n
  26. \n
  27. \n
  28. \n
  29. \n
  30. \n
  31. \n
  32. \n
  33. \n