SlideShare una empresa de Scribd logo
1 de 96
10. 中間まとめ
1
金子邦彦
(ディープラーニング,Python を使用)
(全15回)
https://www.kkaneko.jp/cc/ae/index.html
〇 いまからディープラーニング全般を学びたい
〇 画像理解について学びたい
→ 資料の 10-4, 10-5, 10-6
〇 物体検出,セグメンテーションの実験を深めていき
たい
→ 資料の 10-4 (補助的に 10.5, 10-6)
〇 姿勢推定について学びたい
→ 資料の 10-8
2
• 人工知能(AI)は,ある定まった仕組みで動く
• コンピュータを利用
• 現在は,ディープラーニングの進展が著しい.着
実に技術が進展している
3
アウトライン
4
番号 項目
10-1 機械学習
10-2 ディープラーニングの種類,用途
10-3 ディープラーニングの仕組み
10-4 画像理解
10-5 畳み込みニューラルネットワーク
10-6 ディープラーニングによる画像理解
10-7 顔情報処理
10-8 姿勢推定
10-9 自然言語処理
各自、資料を読み返したり、課題に取り組んだりも行う
10-1. 機械学習
5
ディープラーニング
• 学習による上達の能力
• 訓練データを使用して,学習を行う
• 巨大な訓練データ,深い層のニューラルネット
ワークの利用により,良好な性能・機能を発揮す
る場合も
6
一般のプログラミング
7
コンピュータ
プログラム
データ
(入力)
処理結果
あらゆる入力について
正しい処理結果が得られるように,
プログラムを作成し,テストする
入力 処理結果
9 500
10 500
11 500
12 1000
13 1000
14 1000
入力
9
10
11
12
13
14
機械学習での予測
8
コンピュータ
プログラム
データ
(入力)
予測結果
訓練データにより,プログラムが自動調整される
ニューラルネットワークの重み,
決定木の形や分岐ルールなど
入力 予測結果
10 500
13 1000
入力 正解
9 500
11 500
12 1000
14 1000
訓練データ
入力
10
13
① 一般のプログラミング
② 機械学習での予測
9
・プログラムは人間が作成し,
テストし,調整する.
コンピュータ
プログラム
データ
(入力)
処理結果
コンピュータ
プログラム
データ
(入力)
予測結果
訓練データ
・学習による上達の能力
機械学習での汎化
10
入力 正解
9 500
11 500
12 1000
14 1000
訓練データ
訓練データの汎化
入力 予測結果
7 500
8 500
9 500
10 500
11 500
12 1000
13 1000
14 1000
15 1000
16 1000
• 汎化は100%成功するわけでない.
• 訓練データとは別のデータ(検証データ)を
用いて検証する
汎化により,未知のデータ
についても予測ができるよ
うになる
「汎化は,プログラミングを補うもの」と
考えられるようにも
• ふつうのプログラミング:
あらゆる事態を想定して,プログラムを作成
• 汎化:
未知のデータについても処理できる
11
10-2. ディープラーニングの種
類,用途
12
ニューラルネットワークの種類
① 自己符号化(オートエンコーダ)
データを低次元の符号にマッピング
学習:事前に、データを与えて学習
② 分類や予測
あるデータから別のデータを導く
学習:事前に、データと正解(分類結果,予
測結果)のペアを与えて学習
13
自己符号化(オートエンコーダ)
元データ
(高次元)
14
符号
(低次元)
出力
(高次元)
出力が、元データと同じになるように学習
自己符号化(オートエンコーダ)
データを低次元の符号にマッピング
自己符号化(オートエンコーダ)の応用例
15
画像復元
写真からの顔の3次元化
自己符号化(オートエンコード)
訓練データ
16
コード
訓練データには含まれていな
くても,現実にありえそうな
データを符号化(コード化)
自己符号化(オートエンコーダ)
17
学習により、「現実にあり得るデータを生成で
きる能力を獲得」と考えることもできる
訓練データ
現実にありえる
データの範囲
分類、予測
データ
18
所定の結果が得られるようにに学習
(学習には、データの正解が必要)
分類結果
予測結果
分類の例
19
物体検知、セグメンテーションなどの画像理解
= 画素や領域を AI で分類
分類
訓練データ
20
分類:何種類かに分類すること
それぞれの範囲を得
る
ディープラーニングの応用分野
〇 自己符号化(オートエンコーダ)
• 創作
• 合成
• 欠損の補充
• 翻訳
〇 分類や予測
• 単純な分類
• さまざまな認識や推論
• 画像理解(画像分類,物体検知,セグメンテーション)
• 顔情報処理
• 姿勢推定
• 音声,音楽に関する認識
• 予測
21
10-3. ディープニューラルネット
ワーク
22
ディープニューラルネットワーク
• ディープニューラルネットワークは,
層が深い(層の数が多い)ニューラルネットワーク
23
層の数が少ない(浅い) 層の数が多い(深い)
ニューラルネットワークの仕組み
24
入力層
中間層
出力層
〇 はニューロン,線は結合
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
全結合のときは,
次層の全ニュー
ロンと結合する 全結合のときは,
次層の全ニュー
ロンと結合する
• 前の層から結果を受けとって,次の層へ結果を
渡す
(他の結合は書
いていない) (他の結合は書
いていない)
ニューラルネットワークのユニット
ニューラルネットワークのユニットは,数理により
動く
① 入力は複数
② 入力を重みづけし合計をとる
③ その合計から出力値を得る
25
入力
1 2 3
4 5 6
7 8 9
1 1
2 1
3 1
4 0
5 1
6 1
7 0
8 0
9 1
白黒の画像
(画素は 0 または 1)
重み w1 ~ w9
ユニット
w1
w2
w3
w4
w5
w6
w7
w8
w9
合計
・合計に,バイアスという値を
足し引きしたあと,活性化関数
が適用され出力値が得られる.
・活性化関数はさまざまな種類
シグモイド
ReLU
(2011年発表)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
合計は,
1 × w1 + 1 × w2 + 1 × w3 +
0 × w4 + 1 × w5 + 1 × w6 +
0 × w7 + 0 × w8 + 1 × w9
26
入力 正解
1, 1 1
0, 1 0
1, 0 0
0, 0 1
訓練データ
ユニット
1
1
重み
ユニット
1
1
重み
活性化関数
ReLU
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
重み
-1
2
ReLU
+ バイアス
(バイアス
は +1)
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
ReLU
+ バイアス
(バイアス
は -1)
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
1 2
27
1, 1 1
0, 1 0
1, 0 0
0, 0 1
1
1
1
1
ReLU
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
-1
2
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
それぞれのユニットが「特定のパターンを識別して
いる」と考えることもできる
ユニットが
識別する
パターン
ユニットが
識別する
パターン
ユニットが
識別する
パターン
1 2
ReLU
+ バイアス
(バイアス
は +1)
ReLU
+ バイアス
(バイアス
は -1)
10-4. 画像理解
28
コンピュータによる画像理解
• コンピュータが画像を理解する
画像が何であるか,物体がどこに,どういう大きさ,
形で,いくつあるか,をコンピュータが説明できる
能力を持つ
29
① 画像分類
30
画像分類の結果は,ラベルと確率
※ 5つの候補 (top 5) が表示さ
れている
② 物体検出
31
person
bicycle
バウンディングボックスは,
物体を囲む最小のボックス(四角形)
car
バウンディングボックス,
ラベルを得る
③ セグメンテーション
32
物体の形を画素単位で抜き出し
ラベルを得ることもできる
画像理解の主な種類
① 画像分類
「何があるか」を理解
② 物体検出
場所と大きさも理解
③ セグメンテーション
画素単位で領域を理解
33
person
bicycle
person
bicycle
セグメンテーションを試すことができるオンライ
ンのサイト
• OneFormer のデモサイト
• URL: https://huggingface.co/spaces/shi-
labs/OneFormer
• セグメンテーションの種類:パノプティック,インスタン
ス,セマンティック
• データセット:COCO(133 クラス),Cityscapes(19
クラス),ADE20K (150クラス)
34
文献: Jitesh Jain, Jiachen Li, MangTik Chiu, Ali Hassani,
Nikita Orlov, Humphrey Shi, OneFormer: One Transformer
to Rule Universal Image Segmentation, arXiv:2211.06220,
2022.
訓練データにより結果が変わってくる
35
• OneFormer のデモサイトを使用
• URL: https://huggingface.co/spaces/shi-labs/OneFormer
• パノプティック・セグメンテーションを実行
• バックボーンは DiNAT-L を使用
元画像
訓練データは COCO
訓練データは Cityscapes
訓練データは ADE20K
ADE20K
• アノテーション済みの画像データ
• オブジェクト(car や person など) も,背景領域も
(grass, sky など) ,画素単位でアノテーションさ
れている
• 画像数: 30,574
• クラス数: 3,688
36
ADE20K データセットの URL:
http://groups.csail.mit.edu/vision/datasets/ADE20K/
文献: Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso,
Antonio Torralba,
Scene Parsing Through ADE20K Dataset,
CVPR 2017, also CoRR, abs/1608.05442, 2017.
CityScapes
• アノテーション済みの画像データ
• 50都市の数ヶ月間(春,夏,秋)の日中,良好な/
中程度の天候のもとで撮影,計測
• 画像数: 24,998
• クラス数: 30
road, sidewalk, parking, rail track, person, rider, car, truck, bus, on rails, motorcycle, bicycle, caravan,
trailer, building, wall, fence, guard rail, bridge, tunnel, pole, pole group, traffic sign, traffic light, vegetation,
terrain, sky, ground, dynamic, static
37
CityScapes データセットの URL:
https://www.cityscapes-dataset.com/
文献: Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld,
Markus Enzweiler, Rodrigo Benenson, Uwe Frank
e, Stefan Roth, Bernt Schiele,
The Cityscapes Dataset for Semantic Urban Scene Understanding,
CVPR 2016, also CoRR, abs/1604.01685, 2016.
COCO
• 画像データ,人体のランドマーク,人体姿勢の
データ
• ラベル付け済みの画像数: 200,000以上
• オブジェクトのクラス数: 80
• ランドマーク:左目、鼻、右腰、右足首などの 17
のキーポイント
38
COCO データセットのURL: https://cocodataset.org/
文献: Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross
Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick,
Piotr Dollr,
Microsoft COCO: Common Objects in Context,
CoRR, abs/1405.0312, 2014.
10-5. 畳み込みニューラルネッ
トワーク(CNN)
39
畳み込み
40
畳み込みは,あるデータを移動しながら,カーネルと
重ね合わせる.重ね合わせの結果は1つの値になる.
移動
カーネルと同じ長さに切り出し
重ね合わせ
(掛け算と合計)
データ
カーネル
畳み込みの例
41
0 1 0 1 0 0 1 1 1 0
0
1 0 1
0×1 1×0 0×1
この部分を切り出す
重ね合わせの結果: 0×1 + 1×0 + 0×1 = 0
データ
カーネル
畳み込みの例
42
0
1 0 1
0×1 1×0 0×1
1 0 1
1×1 0×0 1×1
1 0 1
0×1 1×0 0×1
2 0
0 1 0 1 0 0 1 1 1 0
1 0 1
1×1 0×0 0×1
1 0 1
0×1 0×0 0×1
1 0 1
0×1 1×0 1×1
1 0 1
1×1 1×0 1×1
1 0 1
1×1 1×0 0×1
1 1 1 2 1
移動
畳み込み
43
1 0 1
畳み込みは,「特定のパターンに強く反応する」と考える
こともできる
0 2 0 1 1 1 2 1
0 1 0 1 0 0 1 1 1 0
畳み込み結果
畳み込み結果が大きくなる部分
データ
カーネル
畳み込みのまとめ
• 畳み込みは,あるデータを移動しながら,カーネルと
重ね合わせる.
• カーネルは値の並び (例) 0 1 0
• 重ね合わせは,同じ長さの2つのデータについて,要
素同士の掛け算の合計.
44
画像の畳み込み
45
出典: https://serokell.io/blog/introduction-to-convolutional-neural-networks
元画像(5×5マス)
カーネル(3×3マス)
画像での畳み込み
46
元画像(5×5マス)
畳み込み
0×1 1×0 1×1
0×1 1×1 1×1
0×0 1×0 1×1
切り出し(3×3マス)
カーネル
(3×3マス)
合計: 4 (これが畳み込み結果)
カーネルと同じサイズ
で切り出す
切り出した部分とカーネルの
掛け算の合計
画像での畳み込み
47
元画像(5×5マス)
畳み込み結果
切り出し(3×3マス)
カーネル
(3×3マス)
畳み込み結果
切り出し領域を横にずらす
4 3
0×1 1×0 1×1
0×1 1×1 1×1
0×0 1×0 1×1
合計: 4
1×1 1×0 0×1
1×1 1×1 0×1
1×0 1×0 0×1
合計: 3
畳み込み
48
元画像(5×5マス)
畳み込み
0×1 1×0 1×1
0×1 1×1 1×1
0×0 1×0 1×1
切り出し(3×3マス)
カーネル
(3×3マス)
合計: 4 (これが畳み込み結果)
カーネルと同じサイズ
で切り出す
切り出した部分とカーネルの
掛け算の合計
畳み込み層
• 畳み込み層は,一度に複数の畳み込み(数十以
上)を行うように作る のがふつうである.
• それぞれの畳み込みについて,全ユニットで,重
みとバイアスが同じ
49
前の層 1つの畳み込み層
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
複数のカーネル
畳み込みニューラルネットワーク(CNN)
さまざまなバリエーション
50
畳み込みニューラルネットワークは,畳み込み
層と,プーリング層を交互に繰り返すディープ
ニューラルネットワーク
畳
み
込
み
層
• 畳み込み層 ・・・ 畳み込みによるパターンの識別
• プーリング層 ・・・ 画像の小移動に対して,出力が不
変になる
畳
み
込
み
層
畳
み
込
み
層
畳
み
込
み
層
畳
み
込
み
層
プ
ー
リ
ン
グ
層
プ
ー
リ
ン
グ
層
プ
ー
リ
ン
グ
層
プ
ー
リ
ン
グ
層
プ
ー
リ
ン
グ
層
プーリングを行う Max Pooling 層
• 2次元のデータの縮小
(例)サイズ 100 × 100 ⇒ 50 × 50 のように
• 一定領域内の結果を,1つにまとめる.
• 定まった計算を行う(学習の対象ではない)
• Max Pooling は,縮小後に,最大値が残る
範囲内のユニットの活性度の最大を得る
51
・4, 8, 7, 1 の最大値は 4
・「4, 8, 7, 1」の 4マス
から,最大値の 8 を選ぶ.
出典: https://github.com/jeffheaton/t81_558_deep_learning/blob/084023876b6cf09c931b452584dbd44c56314a03/t81_558_class_06_2_cnn.ipynb
畳み込みニューラルネットワークでのパターン認識
52
Mei Wang, Weihong Deng,
Deep Face Recognition: A Survey, arXiv:1804.06655, 2018.
「畳み込みニューラルネットワークの利用により,さまざま
なレベルのパターンを抽出・認識できるようになる」という
考える場合も
10-5. ディープラーニングによ
る画像理解
53
画像分類 AlexNet (2012年)
• 画像分類,教師有り学習,ディープニューラルネットワーク
• 特徴:CNN(畳み込みニューラルネットワーク)の導入
畳み込み, max pooling, 正規化(LCN), softmax, ReLU, ドロップアウト
• 画像分類結果が報告された
訓練データ: 画像約 100万枚以上(ImageNet データセット,22000種類に分
類済み),ILSVRCコンペティション: 画像を 1000 種類に分類
54
文献: ImageNet classification with deep convolutional neural networks,
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, NIPS'12, 2012.
全
結
合
全
結
合
全
結
合
畳
み
込
み
畳
み
込
み
畳
み
込
み
畳
み
込
み
max
pooling
max
pooling
max
pooling
畳
み
込
み
L
C
N
L
C
N
ディープラーニングによる画像分類の進展 (1/2)
CNN(畳み込みニューラルネットワーク)
• AlexNet(2012年)
CNN(畳み込みニューラルネットワーク)の導入
• VGG-16,VGG-19(2014年)
プーリングカーネルのサイズ縮小.サイズ縮小の結果,従来より深い
CNN を可能に
• ResNet (2015 年)
残差結合 (Residual Connection),Bottleneck Residual Block の導入.
30層以上の深い CNN を可能に.ResNet34, ResNet50, ResNet101,
ResNet 152 などの種類
• Xception(2016年)
ResNet の畳み込み層を Depthwise Separable Convolution に置き換え
• EfficientNet(2019年)
CNN の深さとチャンネル数と解像度の配分を探索
55
(私見)CNNの深さ(層の数)を増やすという方向では完成の域にある.
いまは,チャンネル数,解像度も含む総合的な分析が行われている
ディープラーニングによる画像分類の進展 (2/2)
Transformer
• Transformer(2017年)
自然言語処理のために Transformer が考案された.Attention を特色
とする.
• vision Transformer (2020年)
Transformer を画像理解に使用.CNNと違うもので,畳み込み演算
を用いない
• Swin Transformer (2021年)
vision Transformer に Sifted Windows を導入
• DiNAT(2022年)
vision Transormer で用いられる NA (Neighborhood Attention) の
改良.
56
(私見)精度向上の途上である.CNNによる方法を性能で上回る可能性も
あるし,そうでない可能性もある
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun,
Deep Residual Learning for Image Recognition, IEEE Conference on Computer Vision and Pattern Recognition,
2016.
CNN 層 (weight layer)
CNN 層 (weight layer)
x
+
残余関数
(residual mapping)
残余接続
Residual Block
ReLU
Bottleneck Residual Block
58
物体検出の仕組み ①
59
結果
最初の区切り
画像分類
元画像から
切り出す
物体検出の仕組み ②
60
結果
画像分類
区切りごとに画像分類を行う.
「区切り」を用いた物体検出での課題と解決
マルチスケールの画像の中のどれかでは,
物体は「一定の大きさ」に近くなる
61
課題:物体の大きさがさまざま
(物体の大きさが一定ならば,検出は
難しくはない)
解決へのアプローチ
さまざまなスケールの画像を作る(マルチスケール)
画像分類とセマンティック・セグメンテーション
62
画像分類
person
bicycle
セマンティック
セグメンテーション
画素単位で分類
person
全画素を分類
画像を分類
画素
セグメンテーションのための FCN (2015年発表)
• 画素ごとに分類結果の正解を与えての学習を可能にする技術
• 最終層を畳み込み層にする = FCN と呼ぶ
63
Jonathan Long, Evan Shelhamer, Trevor Darrell,
Fully Convolutional Networks for Semantic Segmentation, arXiv:1411.4038, 2015.
畳み込みニューラルネット
ワークによる画像分類
元画像 結果
元画像 結果
最終層は
全結合層
最終層は
FCN
畳み込みニューラルネットワー
クと FCN によるセマンティッ
ク・セグメンテーション
FCN まとめ
• 画像分類を行う畳み込みニューラルワーク(出力は分類結
果)で,最終層を FCN に置き換え
• セマンティック・セグメンテーションに応用
64
Jonathan Long, Evan Shelhamer, Trevor Darrell,
Fully Convolutional Networks for Semantic Segmentation, arXiv:1411.4038, 2015.
セグメンテーションの種類
65
• OneFormer のデモサイトを使用
• URL: https://huggingface.co/spaces/shi-labs/OneFormer
• 訓練データは COCO
• バックボーンは DiNAT-L を使用
元画像
パノプティック・セグメンテーション
インスタンス・セグメンテーション
セマンティック・セグメンテーション
セグメンテーションの種類
66
パノプティック・セグメンテーション
インスタンス・セグメンテーション
セマンティック・セグメンテーション
全画素を種類に分類
個別の物体を識別する
「物体として識別できない部分は結果がない」
ということもある
セマンティック・セグメンテーションと
インスタンス・セグメンテーションの同時実行
10-6. 顔情報処理
67
群衆のカウント
• 群衆のカウント(画像内の人数を数える)
• 監視等に役立つ.
68
元画像 FIDTM 法による群衆のカウント
FIDTM 法(2021年発表)は,
それ以前の手法よりも,さまざま
な大きさの顔を精度よく検出
できるとされている
顔写真からの3次元再構成
3DFFA 法(2022年発表)
• 元画像から,3次元の顔を生成(3次元再構成)
• 顔検出,顔ランドマーク(顔の目印となるポイント)の検
出ののち,ランドマークに顔の3次元モデルをあてはめる
69
元画像 顔ランドマーク 3次元再構成
顔検出を行う AI
70
コンピュータ
プログラム
データ
(入力)
顔検出結果
顔画像と
バウンディングボックス
訓練データ
• 顔検出を行う AI は教師あり学習である
• 顔検出は,物体検出が基礎となる
顔画像の例
• 顔識別(本人の特定)を行い,鍵代わりに使用
71
顔のコード化
• 顔のコードは,複数の数値(ふつう100以上)の組み合
わせ
• 顔画像から,顔ランドマークを求め,顔のコードを得る
• さまざまな用途:顔識別(本人の特定),顔認識,年齢の
推定,性別の推定,表情の推定,顔の3次元再構成など
72
顔検出,
顔ランドマーク
数値化
顔検証 (face verification)
2つの別の写真あるいはビデオを照合し,同一人
物であるかを判定する
73
同一人物である
同一人物でない
顔の
コード
顔の
コード
比較
(距離計算)
または
顔認識
• データベース内の顔写真との比較により、人物を
特定する
74
データベース
顔の
コード
顔の
コード
顔の
コード
顔の
コード
顔の
コード
顔の
コード
顔の
コード
顔の
コード
顔の
コード
顔の
コード
比較
(距離計算)
写真内のそれぞれの人物が
誰なのか
10-7. 姿勢推定
75
人体の姿勢推定
76
撮影
人工知能で処理
姿勢推定の結果
マーカーレス:画像,ビデオから姿勢推定を行う.
特別な機材は使わない
人体の姿勢推定の例
77
(OpenPose を使用)
人体の姿勢推定
• 人体のランドマーク(顔,胴体,手,足の中の特
定の点)の位置推定
• 人体の姿勢についての情報を得る
78
ランドマークとボーン
79
ボーン = 骨格,ランドマーク = 点
OpenPose では,25個のランドマークが定
まっている
(OpenPose は,人体の姿勢推定の一手法)
0:鼻 1:首 2:右肩 3:右ひじ 4:右手首
5:左肩6:左ひじ 7:左手首 8:真ん中腰
9:右腰 10:右ひざ 11:右足首 12:左腰
13:左ひざ 14:左足首 15:右目16:左目
17:右耳 18:左耳 19:左足親指 20:左足小指
21:左かかと 22:右足親指 23:右足小指
24:右かかと
OpenPoseのランドマークとボーン
ランドマークの位置推定
80
①元画像 ②ランドマークの ③ランドマークと
位置推定 ボーン
Qi Dang, Jianqin Yin, Bin Wang, Wenqing Zheng,
Deep Learning Based 2D Human Pose Estimation: A SurveyDeep Learning Based 2D Human Pose Estimation: A Survey,
Tsinghua Science and TechnologyTsinghua Science and Technology,
Volume 24 Issue 6 Article 5, 2019.
②ランドマークの位置推定:Body Part Detection 法では,元画像の中から,顔,
首,肩,手などの部位を検出する
③ランドマークとボーン:②の結果と体全体の情報から,ランドマークの位置
の特定,ボーンの生成を行う
ランドマークの位置推定
81
Alejandro Newell, Kaiyu Yang, and Jia Deng,
Stacked Hourglass Networks for Human Pose Estimation,
arXiv:1603.06937v2, 2016.
https://arxiv.org/pdf/1603.06937v2.pdf
画像の縮小 画像の拡大
各レベルでの推定結果を
後段へ
ランドマークの位置推定
部位の大きさはさまざま ⇒ マルチスケールの画像を使う
• 画像を複数レベルに縮小し,各レベルで部位を検出
• 元の大きさに戻しながら,検出結果を重ね合わせ
10-8. 自然言語処理
82
人間の言葉を理解し,
曲をかけたり,電気製品を制御したり
するスマートスピーカー
83
84
問答
リカレントニューラルネットワークは,回帰により,過去の情報を
保持する.時系列データなどのデータの並びを扱う能力を持つ
テキスト
質問 回帰 答え 保持する
AIが生成する結果の例
要約
要約 データは回帰する能力がある.
テキスト生成
生成
リカレントニューラルネットワークは,回帰により,過去
の情報を保持する.時系列データなどのデータの並びを扱
う能力を持つ.線形回帰モデル(pn-model)は,過去のデータが
現在から何百年後かに再度出現する.つまり,
リカレントニューラルネットワークは,回帰により,過去の情報を
保持する.時系列データなどのデータの並びを扱う能力を持つ
リカレントニューラルネットワークは,回帰により,過去の情報を
保持する.時系列データなどのデータの並びを扱う能力を持つ
翻訳(日本語から英語,英語から日本語)
85
DeepL 翻訳ツール https://www.deepl.com/ja/translator
自然言語の処理の例
• 問答
• 要約
• テキスト生成
• 分類
• 翻訳
• 欠損の補充
• 文章の類似度
• 人間の言葉として正しいか正しくないかの判定
• 文法に関するもの(品詞,係り受け) など
86
単語の特徴ベクトル
単語の特徴ベクトル ・・・ 単語を数値化(1つ
の単語を複数の数値の組で置き換えたもの)
• 文章は長い.単語の順が変わっても同じ意味とい
うこともある:
文章全体を単語の列として扱う.2017年発表の
Transformer などの技術がある.
87
多数の数値の組
iPhone
数値化
単
語
自然言語を扱うニューラルネットワーク
<文章> = 単語1 単語2 単語3
88
単語1 単語2 単語3
特徴
ベクトル
特徴
ベクトル
特徴
ベクトル
ニューラル
ネットワーク
自然言語を扱うニューラルネットワーク
<文章> = 単語1 単語2 単語3
89
単語1 単語2 単語3
特徴
ベクトル
特徴
ベクトル
特徴
ベクトル
ニューラル
ネットワーク
1
番
目
の
出
力
自然言語を扱うニューラルネットワーク
<文章> = 単語1 単語2 単語3
90
単語1 単語2 単語3
特徴
ベクトル
特徴
ベクトル
特徴
ベクトル
ニューラル
ネットワーク
2
番
目
の
出
力
自然言語を扱うニューラルネットワーク
91
単語1 単語2 単語3
特徴
ベクトル
特徴
ベクトル
特徴
ベクトル
ニューラル
ネットワーク
3
番
目
の
出
力
順々に処理される
(文章が長いときも同じ)
単語の特徴ベクトル
単語の特徴ベクトル ・・・ 単語を数値化(1つ
の単語を複数の数値の組で置き換えたもの)
92
多数の数値の組
iPhone
数値化
単
語
【自然言語処理の課題】
語順が違っても扱えること
今日は晴れだが、明日も晴れだ。
明日は晴れだが、今日も晴れだ。
93
文章は長い.単語の順が変わっても同じ意味
ということもある:
2017年発表の Transformer などの技術がある.
Transformer
リカレントニューラルネットワークの欠点を克服す
るものとして,Transformer が 2017年提案された
• 列を入力とし,列を出力とする点などは,リカレ
ントニューラルネットワークと同じ
• リカレントニューラルネットワークの欠点を克服
するため,離れた単語間に依存関係を直接扱う
Attention の仕組みを導入
94
全体まとめ 1/2
① 機械学習の能力向上
→ ディープニューラルネットワーク,
大量の訓練データの利用
② 画像分類
→ 畳み込みニューラルネットワーク
③ 物体検出
→ マルチスケール
95
全体まとめ 2/2
④ セグメンテーション
→ 最終層を畳み込み層にする(FCN)
⑤ 顔情報処理
→ 顔のコード化,顔のランドマーク
⑥ 姿勢推定
→ ランドマークとボーン
⑦ 自然言語処理
→ 単語の特徴ベクトル,Transformer
96

Más contenido relacionado

Similar a ae-10. 中間まとめ(ディープラーニング)

Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像Rei Takami
 
LIFULL HOME'S「かざして検索」リリースの裏側
LIFULL HOME'S「かざして検索」リリースの裏側LIFULL HOME'S「かざして検索」リリースの裏側
LIFULL HOME'S「かざして検索」リリースの裏側Takuro Hanawa
 
Rethinking and Beyond ImageNet
Rethinking and Beyond ImageNetRethinking and Beyond ImageNet
Rethinking and Beyond ImageNetcvpaper. challenge
 
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析Yoji Kiyota
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用Kazuki Fujikawa
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?Daiki Tsuchiya
 
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and AudioToru Tamaki
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...cvpaper. challenge
 
HTML5で作るスマホブラウザゲーム
HTML5で作るスマホブラウザゲームHTML5で作るスマホブラウザゲーム
HTML5で作るスマホブラウザゲームTakumi Ohashi
 
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みKenta Oono
 

Similar a ae-10. 中間まとめ(ディープラーニング) (20)

Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
20150930
2015093020150930
20150930
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
LIFULL HOME'S「かざして検索」リリースの裏側
LIFULL HOME'S「かざして検索」リリースの裏側LIFULL HOME'S「かざして検索」リリースの裏側
LIFULL HOME'S「かざして検索」リリースの裏側
 
Rethinking and Beyond ImageNet
Rethinking and Beyond ImageNetRethinking and Beyond ImageNet
Rethinking and Beyond ImageNet
 
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
SeRanet
SeRanetSeRanet
SeRanet
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?
 
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
 
2018/6/26 deep learning Neural Network Console hands-on
2018/6/26 deep learning Neural Network Console hands-on2018/6/26 deep learning Neural Network Console hands-on
2018/6/26 deep learning Neural Network Console hands-on
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...
 
HTML5で作るスマホブラウザゲーム
HTML5で作るスマホブラウザゲームHTML5で作るスマホブラウザゲーム
HTML5で作るスマホブラウザゲーム
 
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
 

Más de kunihikokaneko1

cs-8. 表計算ソフトウエアを用いたデータの扱い
cs-8. 表計算ソフトウエアを用いたデータの扱い cs-8. 表計算ソフトウエアを用いたデータの扱い
cs-8. 表計算ソフトウエアを用いたデータの扱い kunihikokaneko1
 
cs-7. 乱数,シミュレーション
cs-7. 乱数,シミュレーション  cs-7. 乱数,シミュレーション
cs-7. 乱数,シミュレーション kunihikokaneko1
 
cs-6. データベースとデータサイエンス
cs-6. データベースとデータサイエンスcs-6. データベースとデータサイエンス
cs-6. データベースとデータサイエンスkunihikokaneko1
 
cs-5. 人工知能の概要
cs-5. 人工知能の概要 cs-5. 人工知能の概要
cs-5. 人工知能の概要 kunihikokaneko1
 
cs-4. プログラミング入門
cs-4. プログラミング入門cs-4. プログラミング入門
cs-4. プログラミング入門kunihikokaneko1
 
cs-3. パノラマ画像,ストリートビュー,3次元コンピュータグラフィックス
cs-3. パノラマ画像,ストリートビュー,3次元コンピュータグラフィックスcs-3. パノラマ画像,ストリートビュー,3次元コンピュータグラフィックス
cs-3. パノラマ画像,ストリートビュー,3次元コンピュータグラフィックスkunihikokaneko1
 
cs-2. コンピュータによる画像制作,人工知能でできること,情報のコード化,デジタル画像,画素
cs-2. コンピュータによる画像制作,人工知能でできること,情報のコード化,デジタル画像,画素 cs-2. コンピュータによる画像制作,人工知能でできること,情報のコード化,デジタル画像,画素
cs-2. コンピュータによる画像制作,人工知能でできること,情報のコード化,デジタル画像,画素 kunihikokaneko1
 
cs-1. 無料ソフトウエア,無料データ,エコシステム,Scratch プログラミング,Scratch のキャラクタ
cs-1. 無料ソフトウエア,無料データ,エコシステム,Scratch プログラミング,Scratch のキャラクタcs-1. 無料ソフトウエア,無料データ,エコシステム,Scratch プログラミング,Scratch のキャラクタ
cs-1. 無料ソフトウエア,無料データ,エコシステム,Scratch プログラミング,Scratch のキャラクタkunihikokaneko1
 
mi-8. 人工知能とコンピュータビジョン
mi-8. 人工知能とコンピュータビジョンmi-8. 人工知能とコンピュータビジョン
mi-8. 人工知能とコンピュータビジョンkunihikokaneko1
 
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線kunihikokaneko1
 
mi-6. 画像分類システム
mi-6. 画像分類システムmi-6. 画像分類システム
mi-6. 画像分類システムkunihikokaneko1
 
mi-5. ディープラーニング
mi-5. ディープラーニングmi-5. ディープラーニング
mi-5. ディープラーニングkunihikokaneko1
 
mi-3. データサイエンス・AIの演習
mi-3. データサイエンス・AIの演習mi-3. データサイエンス・AIの演習
mi-3. データサイエンス・AIの演習kunihikokaneko1
 
mi-2. データサイエンス・AIの事例
mi-2. データサイエンス・AIの事例mi-2. データサイエンス・AIの事例
mi-2. データサイエンス・AIの事例kunihikokaneko1
 
mi-1. 人工知能の概要
mi-1. 人工知能の概要mi-1. 人工知能の概要
mi-1. 人工知能の概要kunihikokaneko1
 
Coding Standards of C++ について
 Coding Standards of C++ について  Coding Standards of C++ について
Coding Standards of C++ について kunihikokaneko1
 
co-3. サブクラス、継承
co-3. サブクラス、継承co-3. サブクラス、継承
co-3. サブクラス、継承kunihikokaneko1
 
co-2. メソッド定義と呼び出し
co-2. メソッド定義と呼び出しco-2. メソッド定義と呼び出し
co-2. メソッド定義と呼び出しkunihikokaneko1
 

Más de kunihikokaneko1 (20)

cs-8. 表計算ソフトウエアを用いたデータの扱い
cs-8. 表計算ソフトウエアを用いたデータの扱い cs-8. 表計算ソフトウエアを用いたデータの扱い
cs-8. 表計算ソフトウエアを用いたデータの扱い
 
cs-7. 乱数,シミュレーション
cs-7. 乱数,シミュレーション  cs-7. 乱数,シミュレーション
cs-7. 乱数,シミュレーション
 
cs-6. データベースとデータサイエンス
cs-6. データベースとデータサイエンスcs-6. データベースとデータサイエンス
cs-6. データベースとデータサイエンス
 
cs-5. 人工知能の概要
cs-5. 人工知能の概要 cs-5. 人工知能の概要
cs-5. 人工知能の概要
 
cs-4. プログラミング入門
cs-4. プログラミング入門cs-4. プログラミング入門
cs-4. プログラミング入門
 
cs-3. パノラマ画像,ストリートビュー,3次元コンピュータグラフィックス
cs-3. パノラマ画像,ストリートビュー,3次元コンピュータグラフィックスcs-3. パノラマ画像,ストリートビュー,3次元コンピュータグラフィックス
cs-3. パノラマ画像,ストリートビュー,3次元コンピュータグラフィックス
 
cs-2. コンピュータによる画像制作,人工知能でできること,情報のコード化,デジタル画像,画素
cs-2. コンピュータによる画像制作,人工知能でできること,情報のコード化,デジタル画像,画素 cs-2. コンピュータによる画像制作,人工知能でできること,情報のコード化,デジタル画像,画素
cs-2. コンピュータによる画像制作,人工知能でできること,情報のコード化,デジタル画像,画素
 
cs-1. 無料ソフトウエア,無料データ,エコシステム,Scratch プログラミング,Scratch のキャラクタ
cs-1. 無料ソフトウエア,無料データ,エコシステム,Scratch プログラミング,Scratch のキャラクタcs-1. 無料ソフトウエア,無料データ,エコシステム,Scratch プログラミング,Scratch のキャラクタ
cs-1. 無料ソフトウエア,無料データ,エコシステム,Scratch プログラミング,Scratch のキャラクタ
 
mi-8. 人工知能とコンピュータビジョン
mi-8. 人工知能とコンピュータビジョンmi-8. 人工知能とコンピュータビジョン
mi-8. 人工知能とコンピュータビジョン
 
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
 
mi-6. 画像分類システム
mi-6. 画像分類システムmi-6. 画像分類システム
mi-6. 画像分類システム
 
mi-5. ディープラーニング
mi-5. ディープラーニングmi-5. ディープラーニング
mi-5. ディープラーニング
 
mi-4. 機械学習
mi-4. 機械学習mi-4. 機械学習
mi-4. 機械学習
 
mi-3. データサイエンス・AIの演習
mi-3. データサイエンス・AIの演習mi-3. データサイエンス・AIの演習
mi-3. データサイエンス・AIの演習
 
mi-2. データサイエンス・AIの事例
mi-2. データサイエンス・AIの事例mi-2. データサイエンス・AIの事例
mi-2. データサイエンス・AIの事例
 
mi-1. 人工知能の概要
mi-1. 人工知能の概要mi-1. 人工知能の概要
mi-1. 人工知能の概要
 
kaneko202304.pptx
kaneko202304.pptxkaneko202304.pptx
kaneko202304.pptx
 
Coding Standards of C++ について
 Coding Standards of C++ について  Coding Standards of C++ について
Coding Standards of C++ について
 
co-3. サブクラス、継承
co-3. サブクラス、継承co-3. サブクラス、継承
co-3. サブクラス、継承
 
co-2. メソッド定義と呼び出し
co-2. メソッド定義と呼び出しco-2. メソッド定義と呼び出し
co-2. メソッド定義と呼び出し
 

ae-10. 中間まとめ(ディープラーニング)

Notas del editor

  1. 良好な学習能力をもち,機械学習が脚光をあびるきっかけにも 機械学習を勉強するとき,ニューラルネットワークは良い手段と考える 機械学習では,ニューラルネットワークを使う場合もあれば,ニューラルネットワークではない他のものもある(あとで詳しく)
  2. 画像分類は,画像に対して,ラベルとその確率を得ることです. ラベルというのは,画像分類した結果の,画像の種類を表すキーワードのことです. このラベルと確率を精度よく自動で求めるために,人工知能を使うことができます.
  3. 画像分類の例 画像に対して,いくつかのラベル, それぞれのラベルに対しての確率が得られています. 例えば,この結果を見ると,この画像,ラベルが lab_coat である確率が,約 0.98 のように結果が得られています. このように,1枚の画像に対して,複数のラベルとそれぞれの確率を得ること. それが画像分類です. 画像分類は,画像を扱う他の人工知能,例えば,物体検出などの基礎になっています. 画像分類の説明は以上です. 視聴ありがとうございました.