4. No.Xⓒ 2016 UEC Tokyo.
Today’s Topic
Title : “Concrete Problems in AI Safety”
Author : Dario Amodei, Chris Olah, Jacob Steinhardt,
Paul Christiano, John Schulman, Dan Mane
Published : June, 21th, 2016
+人工知能学会全国大会 倫理委員会 公開討論
+人工知能学会 倫理委員会 倫理綱領(案)
5. No.Xⓒ 2016 UEC Tokyo.
・ (Loosely) inspired by what (just a little)
know about the biological brain.
Deep Learning Background ①
6. No.Xⓒ 2016 UEC Tokyo.
Deep Learning Background ②
・ Lower layers have low level of abstraction
7. No.Xⓒ 2016 UEC Tokyo.
Deep Learning Background ②
・ Higher layers have high level of abstraction
23. No.Xⓒ 2016 UEC Tokyo.
Today’s
Topic ( Repeated )
Title : “Concrete Problems in AI Safety”
Author : Dario Amodei, Chris Olah, Jacob Steinhardt,
Paul Christiano, John Schulman, Dan Mane
Published : June, 21th, 2016
+人工知能学会全国大会 倫理委員会 公開討論
+人工知能学会 倫理委員会 倫理綱領(案)
24. No.Xⓒ 2016 UEC Tokyo.
Mind when they make…
・ Avoiding Negative Side Effects
→ Don’t knock over a vase for faster cleaning
・ Avoiding Reward Hacking
→ Don’t game its reward function
・ Scalable Oversight
→ Human Check might have to be relatively infrequent
・ Safe Exploration
→ Putting a wet mop in an electrical outlet is bad idea
・ Robustness to Distributional Shift
→ Factory work floor may be dangerous than Office floor
25. No.Xⓒ 2016 UEC Tokyo.
AI Safety
Avoiding Negative Side Effects
・ Define or Learn an Impact Regularizer
→ Side effects may be similar across tasks than main
goals
・ Penalize Influence
→ This idea as written would not quite work
・ Multi-Agent Approaches
→ Cooperative Inverse Reinforcement Learning
・ Reward Uncertainty
→ Uncertain reward function is better
26. No.Xⓒ 2016 UEC Tokyo.
AI Safety
Avoiding Reward Hacking
・ Partially Observed Goals
→ Don’t say “Perfect.” with closing eyes.
・ Careful Engineering
→ No comment…
・ Multiple Rewards
→ There also call bad behaviors
27. No.Xⓒ 2016 UEC Tokyo.
AI Safety
Scalable Oversight
・ Distant supervision
→ where feedback is more interactive and i.i.d
・ Hierarchical reinforcement learning
→ Top -> Middle -> Low
28. No.Xⓒ 2016 UEC Tokyo.
AI Safety
Safe Exploration
・ Use Demonstrations : Simulated Exploration
→ Use simulated environments is less for catastrophe
・ Human Oversight
→ But some actions are too fast for humans to judge
29. No.Xⓒ 2016 UEC Tokyo.
AI Safety
Robustness to Distributional Shift
・ Omitted because it is technical…
30. No.Xⓒ 2016 UEC Tokyo.
AI Safety Sammary
・ Journey (making AI) is “keep an eye” till making a good
one
・ Does not mean that the end once working the program
32. No.Xⓒ 2016 UEC Tokyo.
AI Safety(?) in Japan
・ 人類への貢献
→専門家として,安全への脅威を排除する
・ 誠実な振る舞い
→虚偽や不明瞭な主張を行わない
・ 公正性
→不公平や格差を生む可能性を認識する
・ 不断の自己研鑽
→絶え間ない自己研鑽に努める
・ 検証と警鐘
→潜在的な危険性について警鐘を鳴らす
33. No.Xⓒ 2016 UEC Tokyo.
AI Safety(?) in Japan
・ 社会の啓蒙
→社会が誤った認識をしてるときに正す主張をする
・ 法規制の遵守
→法規制が整合していない場合は倫理的に判断する
・ 他社の尊重
→他社の情報や財産の損失をしてはならない
・ 他社のプライバシーの尊重
→個人情報の適正な取り扱いを行う義務を負う
・ 説明責任
→技術を悪用するものには説明を求め,
正当でない場合はそれを防止しなければならない
34. No.Xⓒ 2016 UEC Tokyo.
Japan and America
・ The “manual”
to avoid making bad AI
・ Focus on the
problem
concretely
・ The “manual”
to avoid making bad AI
・ Focus on the
problem
concretely
・研究者,専門家と
して
”あるべき姿の“指針
・人類の幸福を目指
す
人工知能の開発
・研究者,専門家と
して
”あるべき姿の“指針
・人類の幸福を目指
す
人工知能の開発America Japan
どちらも非常に大事な考え方だと思ってい
ます
どちらも非常に大事な考え方だと思ってい
ます