Submit Search
Upload
データサイエンス概論第一=1-2 データのベクトル表現と集合
•
Download as PPTX, PDF
•
8 likes
•
6,024 views
S
Seiichi Uchida
Follow
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 40
Download now
Recommended
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
Recommended
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
12 非構造化データ解析
12 非構造化データ解析
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
距離とクラスタリング
距離とクラスタリング
大貴 末廣
4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
Rの高速化
Rの高速化
弘毅 露崎
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
Okamoto Laboratory, The University of Electro-Communications
主成分分析
主成分分析
大貴 末廣
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」
moterech
画像処理基礎
画像処理基礎
大貴 末廣
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
9 可視化
9 可視化
Seiichi Uchida
More Related Content
What's hot
12 非構造化データ解析
12 非構造化データ解析
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
距離とクラスタリング
距離とクラスタリング
大貴 末廣
4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
Rの高速化
Rの高速化
弘毅 露崎
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
Okamoto Laboratory, The University of Electro-Communications
主成分分析
主成分分析
大貴 末廣
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」
moterech
画像処理基礎
画像処理基礎
大貴 末廣
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
What's hot
(20)
12 非構造化データ解析
12 非構造化データ解析
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
質的変数の相関・因子分析
質的変数の相関・因子分析
距離とクラスタリング
距離とクラスタリング
4 データ間の距離と類似度
4 データ間の距離と類似度
5 クラスタリングと異常検出
5 クラスタリングと異常検出
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
Stan超初心者入門
Stan超初心者入門
13 分類とパターン認識
13 分類とパターン認識
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
2 データのベクトル表現と集合
2 データのベクトル表現と集合
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Rの高速化
Rの高速化
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
主成分分析
主成分分析
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」
画像処理基礎
画像処理基礎
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Similar to データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
9 可視化
9 可視化
Seiichi Uchida
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
ssuserc75473
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
Jun Kashihara
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
Kenji Koshikawa
画像処理応用
画像処理応用
大貴 末廣
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noself
Yusuke Fujimoto
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
Masafumi Oe
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?
Insight Technology, Inc.
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
kunihikokaneko1
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
Okamoto Laboratory, The University of Electro-Communications
データ解析
データ解析
Issei Kurahashi
050830 openforum
050830 openforum
Ikki Ohmukai
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
確率統計-機械学習その前に
確率統計-機械学習その前に
Hidekatsu Izuno
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
セッション「But Maybe All You Need Is Something to Trust」の紹介
セッション「But Maybe All You Need Is Something to Trust」の紹介
Akira Kanaoka
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
RyomaBise1
CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)
Akisato Kimura
ITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdf
Tsuda University Institute for Mathematics and Computer Science
Similar to データサイエンス概論第一=1-2 データのベクトル表現と集合
(20)
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
9 可視化
9 可視化
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
画像処理応用
画像処理応用
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noself
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
データ解析
データ解析
050830 openforum
050830 openforum
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
確率統計-機械学習その前に
確率統計-機械学習その前に
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
セッション「But Maybe All You Need Is Something to Trust」の紹介
セッション「But Maybe All You Need Is Something to Trust」の紹介
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)
ITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdf
More from Seiichi Uchida
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
15 人工知能入門
15 人工知能入門
Seiichi Uchida
14 データ収集とバイアス
14 データ収集とバイアス
Seiichi Uchida
10 確率と確率分布
10 確率と確率分布
Seiichi Uchida
8 予測と回帰分析
8 予測と回帰分析
Seiichi Uchida
7 主成分分析
7 主成分分析
Seiichi Uchida
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
Seiichi Uchida
3 平均・分散・相関
3 平均・分散・相関
Seiichi Uchida
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Seiichi Uchida
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
Seiichi Uchida
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
Seiichi Uchida
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
Seiichi Uchida
More from Seiichi Uchida
(12)
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
15 人工知能入門
15 人工知能入門
14 データ収集とバイアス
14 データ収集とバイアス
10 確率と確率分布
10 確率と確率分布
8 予測と回帰分析
8 予測と回帰分析
7 主成分分析
7 主成分分析
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
3 平均・分散・相関
3 平均・分散・相関
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
データサイエンス概論第一=1-2 データのベクトル表現と集合
1.
1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第1回 データとベクトル表現: 1-2 データのベクトル表現と集合 システム情報科学研究院情報知能工学部門 内田誠一
2.
2 データサイエンス概論第一の内容 データとは データのベクトル表現と集合
平均と分散 データ間の距離 データ間の類似度 データのクラスタリング (グルーピング) 線形代数に基づくデータ解析の基礎 主成分分析と因子分析 回帰分析 相関・頻度・ヒストグラム 確率と確率分布 信頼区間と統計的検定 時系列データの解析 異常検出
3.
3 データのベクトル表現 今日最もマスターしてほしいこと! 「あたりまえでしょ!」と思ってもらえるほど,相当丁寧にやりますね
4.
44 なぜいきなり「ベクトル」とやらを学ぶ? データサイエンスとどんな関係が? 実データを扱う研究では,実は頻繁に「ベクトル」が出てきます 例えばデータが「血糖値と体重」のような数字の組なら,もうそれは「ベクトル」
画像や時系列データも,実は「ベクトル」とみなせます アンケートデータでも,いろいろな形で「ベクトル化」できます 実際,主成分分析や因子分析など多くの有名な解析手法のター ゲットは,「ベクトル」なんです というわけで,高校・大学学部時代に苦い思いをした諸君も, データ解析の視点から,ベクトルについて再度考えてみましょう
5.
55 「ベクトル=数字の組」 A君: 体重62kg,
身長173cm A君の体格データは,2つの数字の組で表される (62, 173)
6.
66 「ベクトル=数字の組」 B君: 体重57kg,
身長164cm B君の体格データも,2つの数字の組で表される (57, 164) これがわかれば,もう大丈夫! 第一段階突破
7.
77 「ベクトル=数字の組」 A君: 体重62kg,
身長173cm, 腹囲78cm A君の体格データは,3つの数字の組でも表される (62, 173, 78)
8.
88 「ベクトル=数字の組」 A君: 体重62kg,
身長173cm, 腹囲78cm, 靴のサイズ26cm A君の体格データは,4つの数字の組でも表される (62, 173, 78, 26)
9.
99 「次元」とは? 組み合わせた数字の数,です (62,
173) → 2次元ベクトル (62, 173, 78) → 3次元ベクトル (62, 173, 78, 26) → 4次元ベクトル (62, 173, 78, 26, ......, 9) → 200億次元ベクトル 特にそれ以上の意味はない 以下のような物理的な意味づけは,とりあえず忘れましょう 1次元 2次元 3次元 4次元 ? 200億個の数字
10.
1010 そんな高い次元なんて必要なの? → 画像をベクトルで表現してみる (1/2)
2値画像の例 グレースケール画像の例 1,0,...,0,1,1,0,0,0,0,1,1 249,...,254,231,92,35,10,245,255 49次元ベクトル 49次元ベクトル 7×7画素 7×7画素
11.
1111 そんな高い次元なんて必要なの? → 画像をベクトルで表現してみる (2/2)
皆さんのスマホ・デジカメ・コンピュータは,いつも超高次元ベクトルを 扱っている シャッター押した瞬間に400万次元ベクトルが一つ生まれている 400万画素の カメラ 400万画素の 画像 各画像は 400万次元 ベクトル (RGBそれぞれ400万だから, より正確には1200万次元)
12.
1212 173 62 ベクトルと座標系: 1つの2次元ベクトルは,2本の座標軸を使った平面で表現できる みんな高校の時に習ったはず 62 173 第1次元 (体重) 注:これまで(62,173)と横に 数字が並んでいたのに,急に 縦になってる? →気にしない 第2次元 (身長)
13.
1313 173 62 ベクトルと座標系: 別に「矢印」で表現しなくたっていい.点だっていい → 1データ(1ベクトル)が1点で表される 62 173 第1次元 (体重) 第2次元 (身長)
14.
14 173 62 ベクトルと座標系: 点にすると複数のデータを同時に図示することもできて便利 62 173 第1次元 (体重) 164 57 A君 B君 第2次元 (身長)
15.
15 ベクトルと座標系: たくさんデータがあると「点群」になる 第1次元 (体重) A B 例えば 3年10組全体 第2次元 (身長)
16.
1616 ベクトルと座標系: 3次元でもOK 依然として「1データ=1点」 62 173 第1次元 (体重) 78 第3次元 (腹囲) 第2次元 (身長) A君 62 173 78
17.
17 ベクトルと座標系: さて4次元. どこに座標軸を書けば...? 第1次元 (体重) 第3次元 (腹囲) 第2次元 (身長) A君第4次元 (靴のサイズ) 62 173 78 26
18.
1818 ベクトルと座標系: そんなときは,えいやっと「イイカゲン表現」 この寛容さ(=抽象的思考)がデータサイエンスではすごく大事 第1次元 (体重) 第3次元 (腹囲) 第2次元 (身長) 第4次元 (靴のサイズ) どこ向いているのかよく わからないが,とにかく 第4の座標軸がある 要は「3次元も4次元も, 次元が1つ増えただけで, 大して変わらない」という 気持ちで行こう!
19.
1919 ベクトルと座標系: 「イイカゲン表現」を許してくれれば,やはり「1データ=1点」 図中での点の位置は「イイカゲン」ではあるが... 第1次元 (体重) 第3次元 (腹囲) 第2次元 (身長) A君 第4次元 (靴のサイズ) 62 173 78 26
20.
2020 ベクトルと座標系: 4次元を許してくれたのなら,もっと多次元も許して 「気に入らん!」と思うかもしれませんが,そこを何とか.... 第1次元 第2次元 第3次元 第𝑑次元 𝑑個の数字の組 = 𝑑次元ベクトル 62 ⋮ 5
21.
2121 ベクトルと座標系: この勢いで,各画像データも1点にしてしまおう 第1次元 第2次元 第3次元 第49次元 ある7x7画素の画像 𝑑 =
49としたら,7x7画像が1点に!
22.
22 ベクトルと座標系: この勢いで,各画像データも1点にしてしまおう 第1次元 第2次元 第3次元 第49次元 ある7x7画素の画像 別の7x7画素の画像 原点=すべての画素値が「0」の7x7画像
23.
23 ベクトルと座標系: もう慣れましたか? 任意の画像についてもOKですよね! 第1次元 第2次元 第3次元 第400万次元 400万画素の画像
24.
24 ベクトルと座標系: 逆に考えれば,任意の1点は何らかのデータに対応 第400万次元 任意の1点 400万次元ベクトル =400万画素の画像データとして解釈可能
25.
25 ベクトルと座標系: 逆に考えれば,任意の1点は何らかのデータに対応 第400万次元 やはり400万次元ベクトル =別の400万画素の画像データとして解釈可能 別の1点
26.
2626 ベクトルと座標系: この座標系の全体を「(𝑑次元)ベクトル空間」と呼ぶ (数学で出てくる)空間とは集合のこと ベクトル空間=(全ての)ベクトルの集合 この座標系はすべ ての𝑑次元ベクト ルがぎっしりつまっ た集合である ↓ 要するに(意味が あるデータかどうか は別として,考え 得る)「全データ」 の集合 集合の1要素
27.
2727 余談:数学で出てくる「(ナントカ)空間」とは 何らかの「集合」のことである ベクトル空間=ベクトルの集合 関数空間=関数の集合
線形空間=aとbがメンバとして入っているならa+bやca (cは定数) もメンバとして入っている集合 距離空間=要素間の距離が定義された集合 内積空間=要素間の内積が計算できるものの集合 位相空間=位相が定義できるものの集合 バナッハ空間 ヒルベルト空間 などなど...どうぞ好きに作ってください G. Cantor (1845-1918) 数学の本質は その自由さにある The essence of mathematics is its freedom.
28.
2828 余談:データの表現方法は一意ではない! 解析に適したようにデータを表現することは,重要なポイント! 例: 7次元ベクトル 7×7画像 各行の黒画素数をカウント 4 2 1 5 1 1 5 注:横に並べたほうが楽 そうなのに,なんで縦に並 べてる?
→気にしない
29.
29 いよいよ数式がちょっと出ます (この講義ではあまり数式は出しませんのでご安心を) 𝒙 = 𝑥1 𝑥2 𝑥3 ⋮ 𝑥 𝑑 1つのデータ
𝑑次元ベクトル 再注:横に並べたほうが 楽そうなのに,なんで縦に 並べてる? →気にしない 太字 細字
30.
3030 参考:ちなみに𝑇をつけると横に寝ます 𝑇:「転置」記号と呼ばれます 工学や情報学ではよく出てきます
この講義では,(時々出てくるかもしれませんが) 特に気にしなくてOK! 𝒙 𝑇 = 𝑥1, 𝑥2, 𝑥3, … , 𝑥 𝑑
31.
31 データの集合 「多くのデータ=多くの点」として見る
32.
3232 量的データの集合 =ベクトルの集合=(ベクトル空間内における)点の集合 再掲: 生徒の(体重,身長)データのクラス全体での集合 第1次元 (体重) 第2次元 (身長) 例えば 3年10組全体
33.
33 また数式がちょっと出ます (この講義ではなるべく数式は出しませんのでご安心を) 𝒙1, 𝒙2, 𝒙3,
… , 𝒙 𝑁 𝑁個のデータ それぞれが𝑑次元ベクトル
34.
34 身長と体重なら.... 𝒙1, 𝒙2, 𝒙3,
… , 𝒙 𝑁 𝑁人分のデータ それぞれが2次元ベクトル 173 62 164 57 171 65 164 75
35.
35 もちろん,こんな感じ 第1次元 (体重) 第2次元 (身長) 𝒙1 𝒙2 𝒙3 𝒙 𝑁
36.
36 画像のような高次元ベクトルの集合でも同様 (𝑑画素)画像の空間 𝒙𝒊
37.
3737 データの分布 (1/4) =データ集合が空間内でどう広がっているか? データ集合が空間内のどのような位置にどれぐらいいるか?
この性質・傾向をきちっと数値化(定量化)すると,色々わかる! 「データ解析」の基本的方法の一つ [Goldstein, Uchida, PLoSONE, 2016] 例えばこれは 「はずれデータ」 (異常かも...)
38.
38 データの分布 (2/4) 似たようなデータは近くにありそう なぜなら似た画像は 似たベクトルだろうから(𝑑画素)画像の空間
39.
39 データの分布 (3/4) 高次元になると可視化困難に... 2次元なら絵で描きやすく 目で見てもわかる 100次元だと...!?
40.
4040 データの分布 (4/4) 以上より「データ分布,是非解析すべし!」 データの分布,重要!
世の中には「高次元ベクトル」で表されるデータが多い 「パッと絵にして理解」という方法が使えない! ゆえに,様々なデータ解析を行い,「データの分布状況」を 何とか理解したい! というわけで,しばらくは「データの分布状況」理解のための方法が 続きます 平均,分散,クラスタリング,主成分分析...
Download now