Enviar búsqueda
Cargar
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
•
4 recomendaciones
•
1,306 vistas
T
tokyorgirls
Seguir
2014/07/12 Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」by @a_macbee
Leer menos
Leer más
Datos y análisis
Denunciar
Compartir
Denunciar
Compartir
1 de 39
Descargar ahora
Descargar para leer sin conexión
Recomendados
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
本気でPythonで宛名書きした話
本気でPythonで宛名書きした話
Satoshi Yamada
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
Shuyo Nakatani
S01 t1 tsuji_pylearn_ut_01
S01 t1 tsuji_pylearn_ut_01
Takeshi Akutsu
Rの導入とRStudio事始め(改訂版)
Rの導入とRStudio事始め(改訂版)
Takashi Yamane
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
Pythonで業務改善をしたときにあった問題(ライト版)
Pythonで業務改善をしたときにあった問題(ライト版)
Satoshi Yamada
stapy#23 LT
stapy#23 LT
NaoY-2501
Recomendados
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
本気でPythonで宛名書きした話
本気でPythonで宛名書きした話
Satoshi Yamada
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
Shuyo Nakatani
S01 t1 tsuji_pylearn_ut_01
S01 t1 tsuji_pylearn_ut_01
Takeshi Akutsu
Rの導入とRStudio事始め(改訂版)
Rの導入とRStudio事始め(改訂版)
Takashi Yamane
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
Pythonで業務改善をしたときにあった問題(ライト版)
Pythonで業務改善をしたときにあった問題(ライト版)
Satoshi Yamada
stapy#23 LT
stapy#23 LT
NaoY-2501
Pythonでターミナルに画像表示
Pythonでターミナルに画像表示
Masato Fujitake
OSS Study#19_LT
OSS Study#19_LT
NaoY-2501
WindowsでPython
WindowsでPython
drillan
S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3
Takeshi Akutsu
S20 t1 stapyのこれまでとこれから
S20 t1 stapyのこれまでとこれから
Takeshi Akutsu
S10 t1 spc_by_nowfromnow
S10 t1 spc_by_nowfromnow
Takeshi Akutsu
pythonでemlファイルを扱う話
pythonでemlファイルを扱う話
Satoshi Yamada
コボラーがPython始めてみた話
コボラーがPython始めてみた話
Yuuki Nakajima
DBエンジニアに必要だったPythonのスキル
DBエンジニアに必要だったPythonのスキル
Satoshi Yamada
Requestsで始める5分前帰社
Requestsで始める5分前帰社
Satoshi Yamada
RFinanceJはじめました
RFinanceJはじめました
Nagi Teramo
S09 t4 wrapup
S09 t4 wrapup
Takeshi Akutsu
オレオレ言語実装に役立つプル型ASTウォーカーAPI
オレオレ言語実装に役立つプル型ASTウォーカーAPI
隆行 神戸
ゲームマップのためのグラフAPIの設計
ゲームマップのためのグラフAPIの設計
隆行 神戸
Python学習奮闘記#07 webapp
Python学習奮闘記#07 webapp
Takeshi Akutsu
S09 t0 orientation
S09 t0 orientation
Takeshi Akutsu
S08 t0 orientation
S08 t0 orientation
Takeshi Akutsu
RubyエンジニアがPythonをdisるためにPythonを勉強してみた
RubyエンジニアがPythonをdisるためにPythonを勉強してみた
Yusuke Kon
S18 t0 introduction
S18 t0 introduction
Takeshi Akutsu
Orientation
Orientation
Takeshi Akutsu
Debug Hacks - 第4回つくらぐ勉強会
Debug Hacks - 第4回つくらぐ勉強会
University of Tsukuba Linux User Group
211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する
Takuya Nishimoto
Más contenido relacionado
La actualidad más candente
Pythonでターミナルに画像表示
Pythonでターミナルに画像表示
Masato Fujitake
OSS Study#19_LT
OSS Study#19_LT
NaoY-2501
WindowsでPython
WindowsでPython
drillan
S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3
Takeshi Akutsu
S20 t1 stapyのこれまでとこれから
S20 t1 stapyのこれまでとこれから
Takeshi Akutsu
S10 t1 spc_by_nowfromnow
S10 t1 spc_by_nowfromnow
Takeshi Akutsu
pythonでemlファイルを扱う話
pythonでemlファイルを扱う話
Satoshi Yamada
コボラーがPython始めてみた話
コボラーがPython始めてみた話
Yuuki Nakajima
DBエンジニアに必要だったPythonのスキル
DBエンジニアに必要だったPythonのスキル
Satoshi Yamada
Requestsで始める5分前帰社
Requestsで始める5分前帰社
Satoshi Yamada
RFinanceJはじめました
RFinanceJはじめました
Nagi Teramo
S09 t4 wrapup
S09 t4 wrapup
Takeshi Akutsu
オレオレ言語実装に役立つプル型ASTウォーカーAPI
オレオレ言語実装に役立つプル型ASTウォーカーAPI
隆行 神戸
ゲームマップのためのグラフAPIの設計
ゲームマップのためのグラフAPIの設計
隆行 神戸
Python学習奮闘記#07 webapp
Python学習奮闘記#07 webapp
Takeshi Akutsu
S09 t0 orientation
S09 t0 orientation
Takeshi Akutsu
S08 t0 orientation
S08 t0 orientation
Takeshi Akutsu
RubyエンジニアがPythonをdisるためにPythonを勉強してみた
RubyエンジニアがPythonをdisるためにPythonを勉強してみた
Yusuke Kon
S18 t0 introduction
S18 t0 introduction
Takeshi Akutsu
Orientation
Orientation
Takeshi Akutsu
La actualidad más candente
(20)
Pythonでターミナルに画像表示
Pythonでターミナルに画像表示
OSS Study#19_LT
OSS Study#19_LT
WindowsでPython
WindowsでPython
S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3
S20 t1 stapyのこれまでとこれから
S20 t1 stapyのこれまでとこれから
S10 t1 spc_by_nowfromnow
S10 t1 spc_by_nowfromnow
pythonでemlファイルを扱う話
pythonでemlファイルを扱う話
コボラーがPython始めてみた話
コボラーがPython始めてみた話
DBエンジニアに必要だったPythonのスキル
DBエンジニアに必要だったPythonのスキル
Requestsで始める5分前帰社
Requestsで始める5分前帰社
RFinanceJはじめました
RFinanceJはじめました
S09 t4 wrapup
S09 t4 wrapup
オレオレ言語実装に役立つプル型ASTウォーカーAPI
オレオレ言語実装に役立つプル型ASTウォーカーAPI
ゲームマップのためのグラフAPIの設計
ゲームマップのためのグラフAPIの設計
Python学習奮闘記#07 webapp
Python学習奮闘記#07 webapp
S09 t0 orientation
S09 t0 orientation
S08 t0 orientation
S08 t0 orientation
RubyエンジニアがPythonをdisるためにPythonを勉強してみた
RubyエンジニアがPythonをdisるためにPythonを勉強してみた
S18 t0 introduction
S18 t0 introduction
Orientation
Orientation
Similar a Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Debug Hacks - 第4回つくらぐ勉強会
Debug Hacks - 第4回つくらぐ勉強会
University of Tsukuba Linux User Group
211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する
Takuya Nishimoto
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
BrainPad Inc.
PyConJP2018_LT_mahjong_180918
PyConJP2018_LT_mahjong_180918
Rio Kurihara
プログラミング初心者の壁の越え方
プログラミング初心者の壁の越え方
Yuichi Kato
Why python
Why python
Mikio Kubo
MTプラグイン入門以前
MTプラグイン入門以前
Hiroshi Yamato
Clojureの世界と実際のWeb開発
Clojureの世界と実際のWeb開発
Tsutomu Yano
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
Akira Shibata
Rでを作る
Rでを作る
Nagi Teramo
goパッケージで型情報を用いたソースコード検索を実現する
goパッケージで型情報を用いたソースコード検索を実現する
Takuya Ueda
Python for Beginners ( #PyLadiesKyoto Meetup )
Python for Beginners ( #PyLadiesKyoto Meetup )
Ai Makabi
グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入
Hisao Soyama
TRPGオンラインセッション環境とルール&シナリオ記述言語
TRPGオンラインセッション環境とルール&シナリオ記述言語
隆行 神戸
TOPPERS as an IoT OS(kernel)
TOPPERS as an IoT OS(kernel)
Kiyoshi Ogawa
【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3Dにする
LIFULL Co., Ltd.
🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
Toshinori Sato
PyPy 紹介
PyPy 紹介
shoma h
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
Tokoroten Nakayama
Rubyの会社でPythonistaが三ヶ月生き延びた話
Rubyの会社でPythonistaが三ヶ月生き延びた話
Drecom Co., Ltd.
Similar a Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
(20)
Debug Hacks - 第4回つくらぐ勉強会
Debug Hacks - 第4回つくらぐ勉強会
211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
PyConJP2018_LT_mahjong_180918
PyConJP2018_LT_mahjong_180918
プログラミング初心者の壁の越え方
プログラミング初心者の壁の越え方
Why python
Why python
MTプラグイン入門以前
MTプラグイン入門以前
Clojureの世界と実際のWeb開発
Clojureの世界と実際のWeb開発
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
Rでを作る
Rでを作る
goパッケージで型情報を用いたソースコード検索を実現する
goパッケージで型情報を用いたソースコード検索を実現する
Python for Beginners ( #PyLadiesKyoto Meetup )
Python for Beginners ( #PyLadiesKyoto Meetup )
グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入
TRPGオンラインセッション環境とルール&シナリオ記述言語
TRPGオンラインセッション環境とルール&シナリオ記述言語
TOPPERS as an IoT OS(kernel)
TOPPERS as an IoT OS(kernel)
【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3Dにする
🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
PyPy 紹介
PyPy 紹介
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが三ヶ月生き延びた話
Rubyの会社でPythonistaが三ヶ月生き延びた話
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
1.
で始める データ解析の超基礎 Tokyo.R 女子部
#4 @a_macbee
2.
@a_macbee is 誰
3.
@a_macbee ! 渋谷で働く新米データサイ エンティスト ・広告ログ解析の仕事 ・普段仕事で利用してる 言語はPython ・Tokyo.R 女子部 #3 初参加 ! ・
初心者
4.
の便利機能 の紹介 等はしません (出来ません(汗) の標準機能 +ggplot2 のみを 利用します ※詰まったらどなたか助けて下さい
5.
本日目指すこと Rを使って データの雰囲気を つかむ術を学ぶ
6.
本日の資料 https://github.com/amacbee/tokyorgirls Download → 解凍 20140712/
以下に あります
7.
ヒストグラム について学びます
8.
データの全体像 がつかめる! ←日本の人口分布 ↓テストの点数分布
9.
何はともあれやってみる ! ! # ggplot2の読み込み library(ggplot2) ! ! ! ! ! ! ヒストグラムを 描画するために 必要です!
10.
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price)
11.
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price) データを読み込んで data.frameに入れる
12.
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price) head()で囲むと データの上から 6行くらいを表示
13.
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price) mean()で囲むと データの 平均値を表示
14.
何はともあれやってみる ! # ラーメンの値段のヒストグラム ggplot(data.frame, aes(x=data.frame$Price))
+ geom_histogram(binwidth=100) ! ! ! ! ! !
15.
こんなのが 出るはず
16.
750 650 850 950 550 ラーメンの 平均的な値段は 750円くらい
17.
何はともあれやってみる ! # ラーメンの値段のヒストグラム ggplot(data.frame, aes(x=data.frame$Price))
+ geom_histogram(binwidth=100) ! ! ! ! ! ! 範囲の指定 この場合,100円の範囲で 値をまとめてくれる x軸の指定
18.
ヒストグラムの 良いところ
19.
2つのヒストグラムの比較 ! # データの読み込み data.path =
/path/to/file/test_scores_1.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # 1組のテストの平均点 mean(data.frame$Score) ! # 1組のテストの点数のヒストグラム ggplot(data.frame, aes(x=data.frame$Score)) + geom_histogram(binwidth=5)
20.
2つのヒストグラムの比較 ! # データの読み込み data.path =
/path/to/file/test_scores_2.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # 2組のテストの平均点 mean(data.frame$Score) ! # 2組のテストの点数のヒストグラム ggplot(data.frame, aes(x=data.frame$Score)) + geom_histogram(binwidth=5)
21.
平均点は? どちらも同じくらい A組: 約51点 B組: 約50点
22.
ヒストグラムは?
23.
A 組
24.
B 組
25.
平均点は同じでも ヒストグラムはかなり違う ↓ データの性質が全然違う
26.
大事なこと ヒストグラムを書くことで データの全体像がつかめる
27.
binwidth に注意
28.
元のデータは こちらからお借りしています ! https://github.com/johnmyleswhite/ ML_for_Hackers
29.
! # データの読み込み data.path =
/path/to/file/body_data.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # 平均身長 mean(data.frame$Height) ! # 身長のヒストグラム(binwidth=5, 0.001, 1) ggplot(data.frame, aes(x=data.frame$Height)) + geom_histogram(binwidth=5) ggplot(data.frame, aes(x=data.frame$Height)) + geom_histogram(binwidth=0.001) ggplot(data.frame, aes(x=data.frame$Height)) + geom_histogram(binwidth=1)
30.
binの幅が 広すぎる =過剰な平滑化 binwidth=5
31.
binの幅が 小さすぎる =平滑化の不足 binwidth=0.001
32.
binwidth=1
33.
滑らか binwidth=1
34.
大事なこと binwidthの値を変えて ヒストグラムを確認すること
35.
おまけ1(Rの高度な機能) もとの形状に 近い形で 描画できる
36.
おまけ2(Rの高度な機能) 男女で 分けてみたり
37.
! 参考図書.1 マンガでわかる 統計学 / 高橋
信 ! http://goo.gl/mzuQ ! ※オススメ!
38.
! 参考図書.2 入門 機械学習 / D.,
Conway ! http://goo.gl/0zNev ! ※かなり難しい!
39.
Thank you!
Descargar ahora