Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
確率ロボティクスと移動ロボットの行動生成
第6回
上田隆一
本日の内容
• finite Markov Decision Process
(有限マルコフ決定過程)
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 2
行動決定
• 疑問: 我々は日々、その瞬間瞬間、何を基準に
自分の行うことを決め、行っているのか?
• 移動の例(長期間→短期間)
– どの高校を選ぶ?→どの大学を選ぶ?→院に行く?
– どの経路で大学(津田沼駅)に行くか
– どうやって散らか...
行動決定の原理
• 他者の存在をあまり気にしない場合
(他、色々条件はあるけど)、以下の共通項がありそう
– 何か達成すると嬉しい or 何か達成しないと罰
– 途中には選択肢が多いので選んで実行しないといけない
– 途中、正しく選択肢を選んで...
有限マルコフ決定過程
(finite Markov decision process, finite MDP)
• 何度も選択と実行を繰り返してゴールに
到達する過程をモデル化したもの
• モデル
– 離散時間
– 有限個の状態: 途中の状況を...
状態のマルコフ性
• 何か行動した時にある状態から次の状態に移る
確率が時間に依存せず一定
(あるいは一定とみなす)
• マルコフ決定過程を考える時は
報酬も時間に依存しないと考える
• 例
– 状態「船橋駅にいる」から状態「津田沼駅にいる」
...
価値関数
• 「状態の価値」
– ある状態において、将来どれくらいの報酬
がもらえそうなのかの期待値
– 終端状態も価値を持つ
• 例
– 津田沼駅まで最短時間で行くというタスク
– 「新小岩駅にいる状態」: 15分
• 以下の時間経過(コスト...
グラフでの表現
• ノード: 状態
• アーク: 行動(状態遷移)
• 問題: 下のグラフの各ノードの価値は?
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 8
-4
-2
ゴール1(価値-2)
ゴール2(価値0)
-1
...
どうやって解きましたか?
• ゴールの方から解いていくと分かりやすい
– ただしコンピュータでやると「ゴールの方」は不明
• 最も価値が高くなる(コストが低くなる)
状態遷移を選択
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動...
最適な行動・経路
• 価値の増加と釣り合う状態遷移を選ぶと
「最適」となる
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 10
-4
-2
ゴール1(価値-2)
ゴール2(価値0)
-1
-2-3
-6
-3
-4
-1
...
計算機での価値の計算
• どこが終端状態に近いのかは
データからはすぐにわからない
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 11
A
E
B
-4
-2
G1(価値-2)
G2(価値0)
-1
-2
D
-3
-6
...
価値反復
1. 最初に仮の値を入れておく
2. 各状態の各状態遷移について
A. 遷移後の状態の価値に状態遷移の報酬を足したものを計算
B. Aで計算した値で最良の値をその状態の価値として採用
3. 2を繰り返す
Oct. 7, 2015 確率...
最適方策
• 各状態の最大な価値を実現する行動決定
• 状態に対して決まる
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 13
状態遷移と報酬
A-B: -2 A-C: -2
B-A: -2 B-C: -1 B-E: -4...
有限マルコフ決定過程とロボット
• 例1: マニピュレータの動作計画
– 大抵、計算時間がかかるので普通は別の方法を使うが、
原理的には解ける
– ただし計算機の性能が向上すると応用範囲は広がる
– 状態の作り方を工夫すると適用範囲内に
– 手...
• 例2: 移動ロボット
– 環境をグリッドに切って状態を作る方法
• 3次元しかないのでマニピュレータよりは実用的
• 実時間処理は大変
• 状態遷移を確率的に扱う必要がある(後述)
– 環境に名前をつけて状態を抽出する方法
• 「キッチン」...
MDPと探索手法
• finite MDPから、その基本的な解き方である価値
反復までを説明
– 価値反復は計算量が大きいのになぜ取り上げるか?
– 学部で習った幾何学的な方法 or
探索手法 or if文でいいんじゃないの?
Oct. 7, ...
最適性
• 他の手法を使うときも、「最適性」の視点が
必要となる
• 最適性の原理
– あるマルコフ性を満たす状態にいるとき、その前に何が
起こっていようがその後の最適な行動はその状態だけに
依存
• コードを書くときは次のことに最大限の配慮を...
例1: 自分で行動決定のコードを書く場合
• 自分で自律ロボットの行動決定のコードを
書いてif文で場合分けを書きました、という状況
• if文で書いた条件 = 状態
– 本当に場合分けはそれでいいのか
• 例えば速度の考慮は本当にしなくて良い...
例2: 価値反復やその他総当たりの
方法を使わない場合
• 価値関数や方策に相当するものが得られても・・・
– 条件が揃った場合にしか最適にしかならない
• このような条件を探すことは重要な研究のテーマ
• そうでない場合には最適ではない
• ...
確率的な状態遷移
• ロボットの場合、状態遷移は通常、確率的
– 誤差(デッドレコニングでやったように)
– 状態を作るときに離散化
• 離散化した状態のどこにいるかで遷移後の状態に違い
– そもそも状態がわからない(これは後日)
• このよう...
確率的な状態遷移
• 例: 下図のようにどこに遷移するか不確定な場合
– ここでは行動は選べないとしましょう
– 1タイムステップごとに強制的にどこかに遷移
– 価値は、遷移後の価値と報酬の期待値計算となる
Oct. 7, 2015 確率ロボテ...
• 計算結果
• 行動が選べる場合は、最大の期待値を選び、
それを実現する行動を選択すると最適方策に
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 22
-4
-2
G1(価値-2)
G2(価値0)
-1
-2-3
-6
...
確率的な状態遷移モデルの算出
• パーティクルフィルタと同じ方法で求めることが可能
– ただし幾何計算で求められるならその方が良い
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 23
前進した時の事後の
位置のばらつき
離...
続きは
• 数式で
• 教科書
– https://webdocs.cs.ualberta.ca/~sutton/book/ebo
ok/node33.html
Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 24
本日のまとめ
• 有限マルコフ決定過程について
– 行動決定の問題は
状態、行動、報酬、状態遷移、終端状態
で説明可能
• 価値反復
– 計算量が多い
– 他の手法を使う時は価値及び最大方策をちゃんと
算出できているだろうかを考える。
Oct....
Próxima SlideShare
Cargando en…5
×

確率ロボティクス第六回

4.539 visualizaciones

Publicado el

有限マルコフ決定過程

Publicado en: Tecnología
  • Inicia sesión para ver los comentarios

確率ロボティクス第六回

  1. 1. 確率ロボティクスと移動ロボットの行動生成 第6回 上田隆一
  2. 2. 本日の内容 • finite Markov Decision Process (有限マルコフ決定過程) Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 2
  3. 3. 行動決定 • 疑問: 我々は日々、その瞬間瞬間、何を基準に 自分の行うことを決め、行っているのか? • 移動の例(長期間→短期間) – どの高校を選ぶ?→どの大学を選ぶ?→院に行く? – どの経路で大学(津田沼駅)に行くか – どうやって散らかった部屋から出るか • 操作(簡単→複雑) – どうやって目の前の箸を取るか – どうやってビル建てる? Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 3
  4. 4. 行動決定の原理 • 他者の存在をあまり気にしない場合 (他、色々条件はあるけど)、以下の共通項がありそう – 何か達成すると嬉しい or 何か達成しないと罰 – 途中には選択肢が多いので選んで実行しないといけない – 途中、正しく選択肢を選んで行っても後で間違えると台無し – 途中でいいこともあるけどトラブルも多い • 人生から制御まで扱える枠組みはないだろう か? Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 4
  5. 5. 有限マルコフ決定過程 (finite Markov decision process, finite MDP) • 何度も選択と実行を繰り返してゴールに 到達する過程をモデル化したもの • モデル – 離散時間 – 有限個の状態: 途中の状況を有限個で識別したもの • 状態は「マルコフ性」を満たす必要 – 行動: 状態遷移を起こす – 報酬: 状態遷移をスカラで評価(負の報酬 = 罰・コスト) – ゴールの状態(終端状態)に点数が付いている – 報酬と点数の合計で行動決定の点数とする Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 5
  6. 6. 状態のマルコフ性 • 何か行動した時にある状態から次の状態に移る 確率が時間に依存せず一定 (あるいは一定とみなす) • マルコフ決定過程を考える時は 報酬も時間に依存しないと考える • 例 – 状態「船橋駅にいる」から状態「津田沼駅にいる」 は電車に乗れば必ず遷移できる • 時間が負の報酬なら、必ず「3分のコスト」とする – 実際はどうでしょう? Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 6
  7. 7. 価値関数 • 「状態の価値」 – ある状態において、将来どれくらいの報酬 がもらえそうなのかの期待値 – 終端状態も価値を持つ • 例 – 津田沼駅まで最短時間で行くというタスク – 「新小岩駅にいる状態」: 15分 • 以下の時間経過(コスト)の合計 – 新小岩→市川 – 市川→船橋 – 船橋→津田沼 Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 7
  8. 8. グラフでの表現 • ノード: 状態 • アーク: 行動(状態遷移) • 問題: 下のグラフの各ノードの価値は? Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 8 -4 -2 ゴール1(価値-2) ゴール2(価値0) -1 -2-3 -6 -3 -4 -1 -2
  9. 9. どうやって解きましたか? • ゴールの方から解いていくと分かりやすい – ただしコンピュータでやると「ゴールの方」は不明 • 最も価値が高くなる(コストが低くなる) 状態遷移を選択 Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 9 -4 -2 ゴール1(価値-2) ゴール2(価値0) -1 -2-3 -6 -3 -4 -1 -2 −2 −5 −6 −7 −8
  10. 10. 最適な行動・経路 • 価値の増加と釣り合う状態遷移を選ぶと 「最適」となる Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 10 -4 -2 ゴール1(価値-2) ゴール2(価値0) -1 -2-3 -6 -3 -4 -1 -2 −2 −5 −6 −7 −8
  11. 11. 計算機での価値の計算 • どこが終端状態に近いのかは データからはすぐにわからない Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 11 A E B -4 -2 G1(価値-2) G2(価値0) -1 -2 D -3 -6 -3C -4 -1 -2 状態遷移の表 A-B: -2 A-C: -2 B-A: -2 B-C: -1 B-E: -4 C-A: --2 C-B: -1 C-D: -4 D-C: -4 D-E: -3 D-G1: -3 D-G2: -6 E-B: -4 E-D: -3 E-G1: -1 E-G2: -2 価値の表 G1: -2 G2: 0 A: ? B: ? C: ? D: ? E: ?
  12. 12. 価値反復 1. 最初に仮の値を入れておく 2. 各状態の各状態遷移について A. 遷移後の状態の価値に状態遷移の報酬を足したものを計算 B. Aで計算した値で最良の値をその状態の価値として採用 3. 2を繰り返す Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 12 価値 (初期値) G1: -2 G2: 0 A: -100 B: -100 C: -100 D: -100 E: -100 価値 (1回目) G1: -2 G2: 0 A: -102 B: -101 C: -102 D: -5 E: -2 状態遷移と報酬 A-B: -2 A-C: -2 B-A: -2 B-C: -1 B-E: -4 C-A: -2 C-B: -1 C-D: -4 D-C: -4 D-E: -3 D-G1: -3 D-G2: -6 E-B: -4 E-D: -3 E-G1: -1 E-G2: -2 価値 (2回目) G1: -2 G2: 0 A: -103 B: -6 C: -7 D: -5 E: -2 価値 (3回目) G1: -2 G2: 0 A: -8 B: -6 C: -7 D: -5 E: -2 (注意: A-Eの順番を変えると1回で終わる)
  13. 13. 最適方策 • 各状態の最大な価値を実現する行動決定 • 状態に対して決まる Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 13 状態遷移と報酬 A-B: -2 A-C: -2 B-A: -2 B-C: -1 B-E: -4 C-A: -2 C-B: -1 C-D: -4 D-C: -4 D-E: -3 D-G1: -3 D-G2: -6 E-B: -4 E-D: -3 E-G1: -1 E-G2: -2 価値 (収束) G1: -2 G2: 0 A: -8 B: -6 C: -7 D: -5 E: -2 方策 (最適方策) G1: --- G2: --- A: A→B B: B→C or B→E C: C→B D: D→G1 E: E→G2
  14. 14. 有限マルコフ決定過程とロボット • 例1: マニピュレータの動作計画 – 大抵、計算時間がかかるので普通は別の方法を使うが、 原理的には解ける – ただし計算機の性能が向上すると応用範囲は広がる – 状態の作り方を工夫すると適用範囲内に – 手順 • 例えば関節角を1[deg]ずつ刻んで状態を作る – ダイナミクスを考慮するなら角速度も • (360[deg]動くとして)360^n 状態を作る • 何かとぶつかる状態を列挙(負の価値の大きい終端状態とする) • 持って行きたい終端状態を決める • 時間を負の報酬にする • 価値反復 • 価値から最適な経路を選択 Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 14
  15. 15. • 例2: 移動ロボット – 環境をグリッドに切って状態を作る方法 • 3次元しかないのでマニピュレータよりは実用的 • 実時間処理は大変 • 状態遷移を確率的に扱う必要がある(後述) – 環境に名前をつけて状態を抽出する方法 • 「キッチン」、「寝室」等 • グリッドを切るより状態数は数なくなる • ただし状態遷移をどう実行するかは難しくなる • 基本、ロボットは何でも(finite)MDPで動く – 計算量、雑音、他者の存在を気にしなければ。 Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 15
  16. 16. MDPと探索手法 • finite MDPから、その基本的な解き方である価値 反復までを説明 – 価値反復は計算量が大きいのになぜ取り上げるか? – 学部で習った幾何学的な方法 or 探索手法 or if文でいいんじゃないの? Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 16
  17. 17. 最適性 • 他の手法を使うときも、「最適性」の視点が 必要となる • 最適性の原理 – あるマルコフ性を満たす状態にいるとき、その前に何が 起こっていようがその後の最適な行動はその状態だけに 依存 • コードを書くときは次のことに最大限の配慮を – その状態の判断が本当にその状態だけで 正しく決まるだろうか? Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 17
  18. 18. 例1: 自分で行動決定のコードを書く場合 • 自分で自律ロボットの行動決定のコードを 書いてif文で場合分けを書きました、という状況 • if文で書いた条件 = 状態 – 本当に場合分けはそれでいいのか • 例えば速度の考慮は本当にしなくて良いのか? • モータか何かのヒステリシスは? • バッテリーの消費量が動きに影響しないか? – よくなければコードを直して動かしての 繰り返し地獄で時間を無駄に Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 18
  19. 19. 例2: 価値反復やその他総当たりの 方法を使わない場合 • 価値関数や方策に相当するものが得られても・・・ – 条件が揃った場合にしか最適にしかならない • このような条件を探すことは重要な研究のテーマ • そうでない場合には最適ではない • 終端状態にたどり着かない場合がある • 価値反復で収束した価値関数 – 全状態で最適で終端状態に至る行動が決まる – 手抜きするとそれが満たされなくなる Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 19
  20. 20. 確率的な状態遷移 • ロボットの場合、状態遷移は通常、確率的 – 誤差(デッドレコニングでやったように) – 状態を作るときに離散化 • 離散化した状態のどこにいるかで遷移後の状態に違い – そもそも状態がわからない(これは後日) • このようなときに価値関数はどうやって求める? Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 20
  21. 21. 確率的な状態遷移 • 例: 下図のようにどこに遷移するか不確定な場合 – ここでは行動は選べないとしましょう – 1タイムステップごとに強制的にどこかに遷移 – 価値は、遷移後の価値と報酬の期待値計算となる Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 21 A E B -4 -2 G1(価値-2) G2(価値0) -1 -2 D -3 -6 -3C -4 -1 -2 → P=0.5
  22. 22. • 計算結果 • 行動が選べる場合は、最大の期待値を選び、 それを実現する行動を選択すると最適方策に Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 22 -4 -2 G1(価値-2) G2(価値0) -1 -2-3 -6 -3 -4 -1 -2 → P=0.5-2.5 -4.3 -6.5 -7.9 -9.2
  23. 23. 確率的な状態遷移モデルの算出 • パーティクルフィルタと同じ方法で求めることが可能 – ただし幾何計算で求められるならその方が良い Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 23 前進した時の事後の 位置のばらつき 離散状態内での 不確定性
  24. 24. 続きは • 数式で • 教科書 – https://webdocs.cs.ualberta.ca/~sutton/book/ebo ok/node33.html Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 24
  25. 25. 本日のまとめ • 有限マルコフ決定過程について – 行動決定の問題は 状態、行動、報酬、状態遷移、終端状態 で説明可能 • 価値反復 – 計算量が多い – 他の手法を使う時は価値及び最大方策をちゃんと 算出できているだろうかを考える。 Oct. 7, 2015 確率ロボティクスと移動ロボットの行動生成 25

×