Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
蓑田和麻 @ml_info_game
仙石裕明 @xianshiyuming
12th Dec 2020
Fracta
Bringing AI/ML to Infrastructure
社会を支えるインフラが、
社会の問題にならないために。
上...
2
本日の内容
©2020Fractainc.Allrightsreserved.
産業界の観点から、上水道インフラへのデータサイエンス
の活用方法や実際についてお話します。
学んだ知識を早速アウトプットしていただきたく、ディス
カッションの時...
3
目次
©2020Fractainc.Allrightsreserved.
はじめに
自己紹介・Fracta紹介
水道インフラが抱える社会問題
Fractaのアプローチ
そもそもAIとは?
AI(機械学習)を作るプロセス
AIの注意点
AIの...
4
目次
©2020Fractainc.Allrightsreserved.
はじめに
自己紹介・Fracta紹介
水道インフラが抱える社会問題
Fractaのアプローチ
そもそもAIとは?
AI(機械学習)を作るプロセス
AIの注意点
AIの...
自己紹介
5
Fracta Inc. Data Scientist。
2016年 慶應義塾大学理工学研究科修了。2016年新卒採用で、株式会社リク
ルート ホールディングスのデータ解析専門職として入社。
その後、リクルートテクノロジーズに出向し...
自己紹介
© Hiroaki Sengoku. All Right Reserved. 6
Fracta Inc. GIS Specialist。
2014年 東京大学大学院新領域創成科学研究科博士号取得。2009年 慶應義
塾大学環境情報学部...
7
Fractaとは?
©2020Fractainc.Allrightsreserved.
所在地
• 米国本社(カリフォルニア州レッドウッドシティ)
• 日本支社(東京都渋谷区渋谷2-10-2 3F)
事業内容
従業員数
• 機械学習アルゴリ...
8
コンセプト
©2020Fractainc.Allrightsreserved.
社会を支えるインフラが、
社会の問題にならないために。
9
水道インフラの持続可能性な
運営支援を目的とし、誰でも
漏水リスクが高い場所を確認
し、漏水箇所を閲覧・共有で
きるサービスです。
Save Water Now とは?
©2020Fractainc.Allrightsreserved.
h...
Save Water Now とは?
10
現在はアメリカのミシガン州を
対象に漏水リスクを確認する
ことができます!
©2020Fractainc.Allrightsreserved.
11
全米において年間24万件の漏水事故
ミシガン州のフリント市:
水道配管の中に鉛が混入し、健康被害が
出るという衝撃的なニュースが全米に。
カリフォルニア州のモントレー市:
水道民営化に伴い、 1家庭の平均水道料金が
月に5万円を突破し、日...
12
水道維持の難しさ
水道は市街地全体をほぼ365日24時間稼働しなくてはいけ
ないサービスである。
• 1軒でもあれば山奥まで水を提供し続ける必要がある
「法定耐用年数」と、「実際の耐用年数」は大きく異なるが、水
道管は地中に埋まっているた...
13
水道維持の難しさ
©2020Fractainc.Allrightsreserved.
• 水道配管の状況をつぶさに監視する技術がないために、配管
の平均寿命を使って更新時期を推定する方法が定着。
(実際に掘り返して交換してみると全然ピンピ...
14
アメリカにある5万3000社とい
う水道会社が保有する合計
100万マイル(160万キロメート
ル)の6%以上の分析ノ
ウハウ・経験から、
パイプ情報がなくとも水道配
管がどんな状態であるかを独
自に推定。
Save Water Now!...
15
Fractaのソリューション
©2020Fractainc.Allrightsreserved.
市民が水道会社にFracta(=AIで地中に埋まる水道
配管の状態を推定)を紹介する仕組みをつくる
16
目次
©2020Fractainc.Allrightsreserved.
はじめに
自己紹介・Fracta紹介
水道インフラが抱える社会問題
Fractaのアプローチ
そもそもAIとは?
AI(機械学習)を作るプロセス
AIの注意点
AI...
17
そもそもAIとは?
現在、世の中に溢れているAIの99.999%は特化型AIです。
もちろんFractaのAIも特化型AIです。
巷で言われているAI ≠ドラえもん、ターミネーターのスカイネット
AI
特化型AI 汎用型AI
基本教えたこ...
18
AIとは
特化型AI ≒ 機械学習技術(※ ディープラーニングは機械学習技術の一つです。)
機械学習
教師あり
学習
教師なし
学習
ナイーブベイズ、ロジスティック回帰、
重回帰分析、KNN、ニューラルネット
ワーク、ディープラーニング、...
19
機械学習とは?
機械学習とは、
コンピューターが大量のデータを学習し、
分類や予測などのタスクを自動的に遂行する
アルゴリズムやモデルを構築する技術
20
具体例
【課題】 マンション情報から資産価値を自動で予測したい!
どうやって予測する???
【パターン1】 機械学習が使えない場合、、、
人間の過去の知識、熟練の知見を使って・・・・・
IF 3LDK以上 and 駅距離近い →→→ 資産...
21
具体例
【パターン2】 機械学習を使う場合、、、
データを活用できる!
実際の過去の結果(教師ラベル)と合わせて、機械学習手法に投入すると、
自動でロジックを作成してくれる
大
大
・
・
人気
小
中
中
1K
1DK
・
・
広さ
1...
データセット(学習データ)
= 過去の漏水含めたパイプデータ
大
大
・
・
人口
小
中
中
CI
ST
・
・
材質
DI
CON
PLS
10
8
・
・
口径
12
8
10
3
8
・
・
土壌ph
7.5
4.5
1
中
中
・
・...
AI(機械学習)を作るプロセス
機械学習 ≒ 人間が物事を学習する
学習データ ≒ 解答付きの練習問題
人間が勉強するとき、たくさん練習問題を解いてできるようになります。
それと同じメカニズムで、練習問題を機械学習にも与えてあげる必要があります。
AI(機械学習)を作るプロセス
良い(勉強ができる)不動産鑑定士とは?
• 良い問題(データ)をたくさん鑑定して、たくさん結果を見ている
• 色々な側面(多量の特徴量)から考えて、思考している
機械学習に用いるデータも同じ条件にしなければいけない
25
AI(機械学習モデル)のメリット/デメリット
機械学習を使わない場合 機械学習を使う場合
どういう情報(特徴量)を使うか 人間が勘と経験で決める 人間(サイエンティスト等)が決める
(※ロジックによっては決めなくても良い)
どういうロジッ...
26
AI(機械学習モデル)のメリット
【演習1.1】 ここで問題です。どちらのパイプが漏水リスクが高いでしょうか?(簡単)
パイプ 年齢 材質 口径 近辺人口 土壌状態
A 58 ダクタイル 8 600 普
B 58 ねずみ鋳鉄 8 610 ...
27
AI(機械学習モデル)のメリット
【演習1.1】 答え:パイプBは翌年、漏水が起きた
AIの予測は・・・
パイプAの漏水確率: 2.27E-13 ≒ 0
パイプBの漏水確率: 0.9999275
見事AIも正解!!
やはり学習データの中に...
28
AI(機械学習モデル)のメリット
【演習1.2】 どちらのパイプが漏水リスクが高いでしょうか?(普通)
パイプ 年齢 材質 口径 近辺人口 土壌状態 過去漏水
A 58 ダクタイル 8 600 普 有
B 58 ダクタイル 8 610 普...
29
AI(機械学習モデル)のメリット
【演習1.2】 答え:パイプAは翌年、漏水が起きた
AIの予測は・・・
パイプAの漏水確率: 0.88785
パイプBの漏水確率: 2.50E-05 ≒ 0
見事AIも正解!!
過去漏水が起きたパイプは修...
30
AI(機械学習モデル)のメリット
【演習1.3】 どちらのパイプが漏水リスクが高いでしょうか?(難)
パイプ 年齢 材質 口径 土壌状態 過去漏水 土壌Ph 人口密度
A 61 ねずみ鋳鉄 8 普 無 7.375 0.00329
B 61...
31
AI(機械学習モデル)のメリット
【演習1.3】 答え:パイプAは翌年、漏水が起きた
AIの予測は・・・
パイプAの漏水確率: 0.829121
パイプBの漏水確率: 0.055185
見事AIも正解!!
基本的に人間がわかる範囲での情報...
32
AI(機械学習モデル)のデメリット
どちらのパイプが漏水リスクが高いでしょうか?(簡単)
パイプ 年齢 材質 口径 土壌状態 過去漏水
A 5 ダクタイル 8 普 無
B 65 ねずみ鋳鉄 8 普 無
• AとBの環境はほぼ同じ
• パイ...
33
AI(機械学習モデル)のメリット
答え:パイプBは翌年、漏水が起きた
AIの予測は・・・
パイプAの漏水確率: 0.678924
パイプBの漏水確率: 0.357865
AIがミスった・・・・こんな簡単なのになぜ????
学習データに問題...
34
AIの注意点
このようなデメリットになり得るパターンはどういう時に起きるのか?
インチキ不動産鑑定士の場合、、、
1. ほとんど物件(データ)を鑑定していな人
→ 経験不足から良い鑑定はできない
2. 変わった物件(データ)ばかり鑑定して...
35
AIの注意点
機械学習でも同様です。
よって、
なるべく多く、質の高いデータで、より関連性のある特徴量を作ってあげる必要があります。
ドメイン知識を持った現場の方、データ扱いのプロであるデータサイエンティストの協力が
より良いAIを作るた...
36
AIのこれから
1. 人間との共存が進みます
→ AIがどのように解答を導いたかの可視化技術が進歩します。そうすることで本当に賢い人間が判断しているもの
として活用できます。
逆に練習問題にない事例(震災等)は人間の汎用能力が活きてくるの...
37
目次
©2020Fractainc.Allrightsreserved.
はじめに
自己紹介・Fracta紹介
水道インフラが抱える社会問題
Fractaのアプローチ
そもそもAIとは?
AI(機械学習)を作るプロセス
AIの注意点
AI...
38
GIS(地理情報システム)とは
©2020Fractainc.Allrightsreserved.
引用: Wikipedia(初期versionのGoogle Earth)
衛星画像から生成した
3次元農村マップ
世界人口3Dマップ
デ...
39
なぜGIS?
©2020Fractainc.Allrightsreserved.
さまざまな影響を受けて劣化していく水道管。
市内全域に分布する水道管は一つ一つ全く異なる環境下にある。
引用:荒井ら(2008), 送配水管路事故の実態調査...
環境要因による劣化要因
40
交通網データ
河川・湖沼データ
建物データ
地域データ
変数 配管劣化への影響(例)
人口密度
標高、傾斜
建物の位置または大きさ
地質種類、土地内元素
河川、湖沼、海外線
自然地域(森林 等)・土地利用地
域(公...
GISによる加工・結合処理
41
KEY_CODEをもつメッシュ単位GISデータ
(データサンプル)
KEY_CODEと標高情報
(データサンプル)
「環境データ」
(データサンプル)
デ
ータ
処
理
結合処
理
衛星画像や統計資料(非GIS...
42
環境データベースの構築
©2020Fractainc.Allrightsreserved.
水道管劣化に関係する150以上の環
境に関する変数を対象
人口
土壌
河川
交通網
地震など
データベース構築!!座標系や空間単位の統一
按分処理...
43
米国ミシガン州を皮切りに、Save Water Nowを世界展開予定。
まずは下記地域を対象に展開。
• 米国全土
• 日本全国
• 欧州
全世界中の環境データベースを構築中
©2020Fractainc.Allrightsreserve...
44
Save Water Nowを支える技術構成
Data Processing Data Science Backend Front End
1 2 3 4
Open Data
GDAL, GeoPandas,
Shapely etc
Nu...
45
目次
©2020Fractainc.Allrightsreserved.
はじめに
自己紹介・Fracta紹介
水道インフラが抱える社会問題
Fractaのアプローチ
そもそもAIとは?
AI(機械学習)を作るプロセス
AIの注意点
AI...
46
AI×GISによる新ソリューション
統計的な分析手法である、線形回帰の手法では、
それぞれのデータポイントが相互に独立しながら、同じ特徴量分布に由来している
という仮定の基、構築できるアルゴリズムである。
※ 数学的な証明もあるが割愛しま...
47
AI×GISによる新ソリューション
ディープラーニング含む、各種機械学習手法においては、
この仮定がなくても機能はするが、
訓練データ+テストデータの分割時に同様の問題が発生する。
???
48
AI×GISによる新ソリューション
機械学習モデルを構築した際、そのモデルが上手くいっているかどうかを
判定しなければいけない(評価と呼ぶ)
【基本的な評価方法】
• データを学習用データと評価用データに分割する。
• 学習用データのみで...
49
AI×GISによる新ソリューション
どのように分割する???
• ランダムに分割
→ データポイント同士が独立であれば問題ない。
→ 独立でない場合、どうなる?
50
AI×GISによる新ソリューション
【独立でない場合】
• データAとデータBに関連性がある
• ランダムに分割してしまうと、学習データにA、評価データにBが含まれることがある
• このまま評価してしまうと、とても近い問題を学習しているの...
51
AI×GISによる新ソリューション
【GISデータ】
空間的自己相関関係(spatial autocorrelation)
を持ったデータであることが多い。
空間的に近いデータはお互いに影響を及ぼし合うこと
つまり、データポイント間で独立...
52
AI×GISによる新ソリューション
【解決策】
• 空間的に遠いところで訓練データ+評価データを分ける
• 空間的自己相関を加味した特徴量(自分自身のパイプと近いパイプの情報など)を
用いる
実際に文献が少ないので、自分達でTry&Err...
53
目次
©2020Fractainc.Allrightsreserved.
はじめに
自己紹介・Fracta紹介
水道インフラが抱える社会問題
Fractaのアプローチ
そもそもAIとは?
AI(機械学習)を作るプロセス
AIの注意点
AI...
54
ディスカッション
① どんな特徴量を入れたら、もっと精度を上げることができそうか?
② 下水道分野ではどんなAIを作ると良さそうか?
55
まとめ
• 水道管維持は社会的責任が大きいインフラ。
• 市内全域に張り巡らされた水道管は置かれた場所によ
って、劣化のメカニズムがバラバラ。
1. 数多くの特徴量を考慮して表現可能な機械学習のアプ
ローチ
2. 特徴量そのもののデータ抽...
56
「世の中を変革することへの執着」のある方へ
インターンシップを募集しています!
©2020Fractainc.Allrightsreserved.
必要な資格
• 学んだ知識や論文資料などあらゆる知を活かし、実世界の問
題解決に有効な機械...
57
クレイジーでいこう!!
クレイジーで行こう! グーグルとスタン
フォードが認めた男、「水道管」に挑む
加藤 崇 著 1,760円(税込)
©2020Fractainc.Allrightsreserved.
クレイジーで行こう!第2章
© 2020 Fracta inc. All rights reserved.
今後に活かすべく、
ご感想いただけると嬉しいです 🙌
Próxima SlideShare
Cargando en…5
×

社会を支えるインフラが、 社会の問題にならないために。 上水道インフラへのAI導入の挑戦。

東京大学工学部都市工学科での講演資料です。
20201222

  • Sé el primero en comentar

  • Sé el primero en recomendar esto

社会を支えるインフラが、 社会の問題にならないために。 上水道インフラへのAI導入の挑戦。

  1. 1. 蓑田和麻 @ml_info_game 仙石裕明 @xianshiyuming 12th Dec 2020 Fracta Bringing AI/ML to Infrastructure 社会を支えるインフラが、 社会の問題にならないために。 上水道インフラへのAI導入の挑戦。
  2. 2. 2 本日の内容 ©2020Fractainc.Allrightsreserved. 産業界の観点から、上水道インフラへのデータサイエンス の活用方法や実際についてお話します。 学んだ知識を早速アウトプットしていただきたく、ディス カッションの時間を設けたいと考えています。 みなさんの今後の研究のヒントのお役に立てば幸いです!
  3. 3. 3 目次 ©2020Fractainc.Allrightsreserved. はじめに 自己紹介・Fracta紹介 水道インフラが抱える社会問題 Fractaのアプローチ そもそもAIとは? AI(機械学習)を作るプロセス AIの注意点 AIのこれから GISとはなにか? なぜGIS? 環境データの構築 Save Water Nowを支える技術構成 AI × GIS による新ソリューション 既存プロセスの限界 ディスカッション まとめ
  4. 4. 4 目次 ©2020Fractainc.Allrightsreserved. はじめに 自己紹介・Fracta紹介 水道インフラが抱える社会問題 Fractaのアプローチ そもそもAIとは? AI(機械学習)を作るプロセス AIの注意点 AIのこれから GISとはなにか? なぜGIS? 環境データの構築 Save Water Nowを支える技術構成 AI × GIS による新ソリューション 既存プロセスの限界 ディスカッション まとめ
  5. 5. 自己紹介 5 Fracta Inc. Data Scientist。 2016年 慶應義塾大学理工学研究科修了。2016年新卒採用で、株式会社リク ルート ホールディングスのデータ解析専門職として入社。 その後、リクルートテクノロジーズに出向し機械学習を活用したR&Dプロジェクト に従事。2020年4月からFractaにData Scientistとして参画し、アルゴリズムの開 発を行っている。 Data Scientist 蓑田 和麻: 2016年 リクルートテクノロジーズ出向後、人事/広報等スタッフ業務の効率化のた めにデータ蓄積〜分析基盤構築プロジェクトを発足し新規プロダクト開発。 そ の後、自然言語処理を活用した原稿自動校閲プロダクトの開発、導入推進を行い、 そのアルゴリズムをAPIとして一部外部公開や外板に繋げた。 2019年から「web×強化学習」というR&Dを行い、強化学習の仕組みをゲームやロ ボットだけでなく、webで活用できる仕組みを構築した。 2020年からFractaに参画し、水道管の劣化予測アルゴリズムやSavewaternowの裏 側のロジック構築に従事している。@ml_info_game
  6. 6. 自己紹介 © Hiroaki Sengoku. All Right Reserved. 6 Fracta Inc. GIS Specialist。 2014年 東京大学大学院新領域創成科学研究科博士号取得。2009年 慶應義 塾大学環境情報学部卒業。SFC AWARD受賞。 麗澤大学都市・不動産科学研究センター客員准教授、東京大学空間情報科学 センター客員研究員。NPO法人伊能社中理事。マイクロベース株式会社 代表 取締役。テックプレナー株式会社代表取締役。 Geo Specialist 仙石 裕明: 2013年 博士課程在学中に研究内容を軸に事業化。位置情報データを活用したビジ ネスプランを立て、第7回キャンパスベンチャーグランプリ テクノロジー部門 優秀賞受賞。位置情報に関する研究開発を手がけ、過去に株式会社電通・株式会 社ドコモ・インサイトマーケティングと「マチログ」を共同開発等を実施。高等 教育における学びのあり方に問題意識を持ち、研究事業化を志す学生とゼミを開 催。2019年にフロントエンド・バックエンド・データサイエンスを1ヶ月で学び、 サービス開発を行う「テックプレナー道場」を開催。200名を越える学生のなかか ら、12名の学生を選抜し、仕事の発注を実施中。
  7. 7. 7 Fractaとは? ©2020Fractainc.Allrightsreserved. 所在地 • 米国本社(カリフォルニア州レッドウッドシティ) • 日本支社(東京都渋谷区渋谷2-10-2 3F) 事業内容 従業員数 • 機械学習アルゴリズムによるインフラ劣化予測サービス • 35名 顧客・ パートナー • 米国大規模水道公社とβパートナー契約を締結 • 全米27州で63の水道事業者と契約締結 • 英国の上水道で、丸紅とNorthumbrian Waterとの現地 適用の実証に着手 • メタウォーター・日本鋳鉄管との上水道でのパートナー シップ契約を締結 • 東急電鉄と鉄道でのAIアルゴリズムの実証実験を実施 • 技術系ベンチャー企業社長などを歴任した後、ヒト型ロボ ットベンチャーであるSCHAFTを共同創業し、その後同社を 日本企業で初めてGoogleへ売却 • 2015年よりAIによるインフラ劣化予測ソフトベンチャーであ るFRACTAを創業、2018年に栗田工業に同社の株式の過 半を売却 • 早稲田大学理工学部卒業後、オーストラリア国立大学で 経営学修士号(MBA)を取得、スタンフォード大学にてUS- ASIA Technology Management Centerで客員研究員 加藤崇(共同創業者・社長CEO)
  8. 8. 8 コンセプト ©2020Fractainc.Allrightsreserved. 社会を支えるインフラが、 社会の問題にならないために。
  9. 9. 9 水道インフラの持続可能性な 運営支援を目的とし、誰でも 漏水リスクが高い場所を確認 し、漏水箇所を閲覧・共有で きるサービスです。 Save Water Now とは? ©2020Fractainc.Allrightsreserved. https://savewaternow.fracta.ai/
  10. 10. Save Water Now とは? 10 現在はアメリカのミシガン州を 対象に漏水リスクを確認する ことができます! ©2020Fractainc.Allrightsreserved.
  11. 11. 11 全米において年間24万件の漏水事故 ミシガン州のフリント市: 水道配管の中に鉛が混入し、健康被害が 出るという衝撃的なニュースが全米に。 カリフォルニア州のモントレー市: 水道民営化に伴い、 1家庭の平均水道料金が 月に5万円を突破し、日本の約10倍 に。市民との訴訟問題に。 Þ 日本では起きていないけども、 近い将来起きる未来 水道インフラが抱える社会問題 Source: Wikipedia(2017 Climate March protester holds up an anti-Rick Snyder sign on the Flint water crisis) Source: Wikipedia (President Barack Obama sips filtered Flint water following a roundtable on the crisis at Northwestern High School on May 4, 2016.) ©2020Fractainc.Allrightsreserved.
  12. 12. 12 水道維持の難しさ 水道は市街地全体をほぼ365日24時間稼働しなくてはいけ ないサービスである。 • 1軒でもあれば山奥まで水を提供し続ける必要がある 「法定耐用年数」と、「実際の耐用年数」は大きく異なるが、水 道管は地中に埋まっているために、掘り起こすまでは状態が わからない。 ©2020Fractainc.Allrightsreserved.
  13. 13. 13 水道維持の難しさ ©2020Fractainc.Allrightsreserved. • 水道配管の状況をつぶさに監視する技術がないために、配管 の平均寿命を使って更新時期を推定する方法が定着。 (実際に掘り返して交換してみると全然ピンピン現役で使える管路が多い) • 多くの水道局は、地域の独占企業であり、自分たちから動き出 そうとするインセンティブが弱い。 • なかには配管DBがまとまって利用できる状態にない場合もある。 水道産業の不都合な真実:横浜市の水道料金値上げは本当に必要だったのか? より抜粋
  14. 14. 14 アメリカにある5万3000社とい う水道会社が保有する合計 100万マイル(160万キロメート ル)の6%以上の分析ノ ウハウ・経験から、 パイプ情報がなくとも水道配 管がどんな状態であるかを独 自に推定。 Save Water Now!! ©2020Fractainc.Allrightsreserved. https://savewaternow.fracta.ai/
  15. 15. 15 Fractaのソリューション ©2020Fractainc.Allrightsreserved. 市民が水道会社にFracta(=AIで地中に埋まる水道 配管の状態を推定)を紹介する仕組みをつくる
  16. 16. 16 目次 ©2020Fractainc.Allrightsreserved. はじめに 自己紹介・Fracta紹介 水道インフラが抱える社会問題 Fractaのアプローチ そもそもAIとは? AI(機械学習)を作るプロセス AIの注意点 AIのこれから GISとはなにか? なぜGIS? 環境データの構築 Save Water Nowを支える技術構成 AI × GIS による新ソリューション 既存プロセスの限界 ディスカッション まとめ
  17. 17. 17 そもそもAIとは? 現在、世の中に溢れているAIの99.999%は特化型AIです。 もちろんFractaのAIも特化型AIです。 巷で言われているAI ≠ドラえもん、ターミネーターのスカイネット AI 特化型AI 汎用型AI 基本教えたことしか できない 人間のように知能を 持つ
  18. 18. 18 AIとは 特化型AI ≒ 機械学習技術(※ ディープラーニングは機械学習技術の一つです。) 機械学習 教師あり 学習 教師なし 学習 ナイーブベイズ、ロジスティック回帰、 重回帰分析、KNN、ニューラルネット ワーク、ディープラーニング、サポート ベクターマシーン、ブースティングアル ゴリズム、LightGBM、Xgboost、決定 木、ランダムフォレスト・・・・ 主成分分析、特異値分解、K-means、 Dbscan、Auto-encoder、NMF、行列因 子分解、カーネル密度推定・・・
  19. 19. 19 機械学習とは? 機械学習とは、 コンピューターが大量のデータを学習し、 分類や予測などのタスクを自動的に遂行する アルゴリズムやモデルを構築する技術
  20. 20. 20 具体例 【課題】 マンション情報から資産価値を自動で予測したい! どうやって予測する??? 【パターン1】 機械学習が使えない場合、、、 人間の過去の知識、熟練の知見を使って・・・・・ IF 3LDK以上 and 駅距離近い →→→ 資産価値高い IF 1LDK以下 and 駅距離遠い and 人気エリアではない →→→ 資産価値低い などなど 人間がロジックや論理を考えて、マシン(パソコン)にプログラムする
  21. 21. 21 具体例 【パターン2】 機械学習を使う場合、、、 データを活用できる! 実際の過去の結果(教師ラベル)と合わせて、機械学習手法に投入すると、 自動でロジックを作成してくれる 大 大 ・ ・ 人気 小 中 中 1K 1DK ・ ・ 広さ 1LDK 2LDK 3LDK 10 8 ・ ・ 駅距離 12 8 10 3 8 ・ ・ 人口 7.5 4.5 1 中 中 ・ ・ 災害リスク 小 大 小 ・・ 30 20 ・ ・ 築年 50 60 15 高い 低い 低い 高い ・ ・ 低い 資産価値 特徴量 教師データ 学習データ
  22. 22. データセット(学習データ) = 過去の漏水含めたパイプデータ 大 大 ・ ・ 人口 小 中 中 CI ST ・ ・ 材質 DI CON PLS 10 8 ・ ・ 口径 12 8 10 3 8 ・ ・ 土壌ph 7.5 4.5 1 中 中 ・ ・ 建物 小 大 小 ・・ データ 100種類以 上の変数 30 20 ・ ・ 年齢 50 60 15 漏水した 漏水しない 漏水しない 漏水した ・ ・ 漏水しない 教師ラベル ※ とあるパイプがとある環境下にある場合に、漏水したか/しなかった かを過去データのパターンから教えて上げるイメージ AIは与えられたデータをたくさん正解できるようなパターンを探し導く パターンを 教える = 訓練する 例.) 材質がねずみ鋳鉄管で、年齢が40 以上で人口が多くて、土壌のph値 が低くて、建物が多て、・・・・ (100種類以上の変数が複雑に絡 み合う) 〇〇な場合、漏水確率が高い 学んだ結果
  23. 23. AI(機械学習)を作るプロセス 機械学習 ≒ 人間が物事を学習する 学習データ ≒ 解答付きの練習問題 人間が勉強するとき、たくさん練習問題を解いてできるようになります。 それと同じメカニズムで、練習問題を機械学習にも与えてあげる必要があります。
  24. 24. AI(機械学習)を作るプロセス 良い(勉強ができる)不動産鑑定士とは? • 良い問題(データ)をたくさん鑑定して、たくさん結果を見ている • 色々な側面(多量の特徴量)から考えて、思考している 機械学習に用いるデータも同じ条件にしなければいけない
  25. 25. 25 AI(機械学習モデル)のメリット/デメリット 機械学習を使わない場合 機械学習を使う場合 どういう情報(特徴量)を使うか 人間が勘と経験で決める 人間(サイエンティスト等)が決める (※ロジックによっては決めなくても良い) どういうロジックかを決める 人間が勘と経験で決める 機械学習がデータを基に決める どのくらいの量の情報(特徴量)を基に できるか 人間なのでせいぜい5、6個 数千個でも問題ない 機械学習を活用することで、人間だと気付かない(にくい)/意識してい なかったメカニズムをも学習できる/見つけ出せる可能性を秘めている。
  26. 26. 26 AI(機械学習モデル)のメリット 【演習1.1】 ここで問題です。どちらのパイプが漏水リスクが高いでしょうか?(簡単) パイプ 年齢 材質 口径 近辺人口 土壌状態 A 58 ダクタイル 8 600 普 B 58 ねずみ鋳鉄 8 610 普 • AとBの環境データは似ている • ダクタイル管は比較的新しい最新な高級管、ねずみ鋳鉄は古くに開発された管
  27. 27. 27 AI(機械学習モデル)のメリット 【演習1.1】 答え:パイプBは翌年、漏水が起きた AIの予測は・・・ パイプAの漏水確率: 2.27E-13 ≒ 0 パイプBの漏水確率: 0.9999275 見事AIも正解!! やはり学習データの中にもねずみ鋳鉄の方が漏水している履歴が多く、きちんと学習できた模様
  28. 28. 28 AI(機械学習モデル)のメリット 【演習1.2】 どちらのパイプが漏水リスクが高いでしょうか?(普通) パイプ 年齢 材質 口径 近辺人口 土壌状態 過去漏水 A 58 ダクタイル 8 600 普 有 B 58 ダクタイル 8 610 普 無 • AとBの環境データは似ている • パイプ情報はどちらも同じ
  29. 29. 29 AI(機械学習モデル)のメリット 【演習1.2】 答え:パイプAは翌年、漏水が起きた AIの予測は・・・ パイプAの漏水確率: 0.88785 パイプBの漏水確率: 2.50E-05 ≒ 0 見事AIも正解!! 過去漏水が起きたパイプは修理されるが、修理部分からの再発漏水が多い。 過去の漏水状況という特徴量を入れていたので、見事AIも学習できた。
  30. 30. 30 AI(機械学習モデル)のメリット 【演習1.3】 どちらのパイプが漏水リスクが高いでしょうか?(難) パイプ 年齢 材質 口径 土壌状態 過去漏水 土壌Ph 人口密度 A 61 ねずみ鋳鉄 8 普 無 7.375 0.00329 B 61 ねずみ鋳鉄 8 普 無 5.875 0.001651 • AとBの環境データは異なる • パイプ情報はどちらも同じ • 一般的に酸性や塩基性の偏りがある方がパイプを腐食させると言われている
  31. 31. 31 AI(機械学習モデル)のメリット 【演習1.3】 答え:パイプAは翌年、漏水が起きた AIの予測は・・・ パイプAの漏水確率: 0.829121 パイプBの漏水確率: 0.055185 見事AIも正解!! 基本的に人間がわかる範囲での情報はどちらも同じ。 むしろ基本知識であるPhの偏りはパイプBの方が激しいので、パイプBの方が危険そう ただし、学習データから人口密度の重要度が高いと評価され、パイプAを危険と予測し見事正解。 人間の判断でこれは見分けがつくでしょうか??
  32. 32. 32 AI(機械学習モデル)のデメリット どちらのパイプが漏水リスクが高いでしょうか?(簡単) パイプ 年齢 材質 口径 土壌状態 過去漏水 A 5 ダクタイル 8 普 無 B 65 ねずみ鋳鉄 8 普 無 • AとBの環境はほぼ同じ • パイプAは最近新しいパイプに入れ替えたばかり
  33. 33. 33 AI(機械学習モデル)のメリット 答え:パイプBは翌年、漏水が起きた AIの予測は・・・ パイプAの漏水確率: 0.678924 パイプBの漏水確率: 0.357865 AIがミスった・・・・こんな簡単なのになぜ???? 学習データに問題あり。 学習データを調べると、若くて最新の管で漏水が起こっているデータを何個か見つけた。 ただしそれらの漏水原因は基本的に施工不良であった。それを知らずにAIの学習データに突っこ んでしまったのでこういった結果が得られた。 施工不良を予測するには「どこの業者か?」、「工事時間」、「施工複雑度」などの特徴量が必要だ がいずれも入っておらず、AIが不手際を起こしたケース
  34. 34. 34 AIの注意点 このようなデメリットになり得るパターンはどういう時に起きるのか? インチキ不動産鑑定士の場合、、、 1. ほとんど物件(データ)を鑑定していな人 → 経験不足から良い鑑定はできない 2. 変わった物件(データ)ばかり鑑定している人 → 変な鑑定結果になりがち 3. 少ない側面(特徴量)だけで鑑定している人 → 判断しきれず信憑性に欠ける
  35. 35. 35 AIの注意点 機械学習でも同様です。 よって、 なるべく多く、質の高いデータで、より関連性のある特徴量を作ってあげる必要があります。 ドメイン知識を持った現場の方、データ扱いのプロであるデータサイエンティストの協力が より良いAIを作るために必要になります。 ※ 色々ある機械学習技術全てに、上記のことは共通します。 ただし、最近では、関連性のない特徴量を入れても、自動で弾いてくれたり、重きを置かないようにテクノロジー側でできたりするので、 多少なりとも意味がありそうな特徴量は使ってみる傾向にあります。 よって、一番重要なことは、なるべく多く、質の高いデータを集めることです。
  36. 36. 36 AIのこれから 1. 人間との共存が進みます → AIがどのように解答を導いたかの可視化技術が進歩します。そうすることで本当に賢い人間が判断しているもの として活用できます。 逆に練習問題にない事例(震災等)は人間の汎用能力が活きてくるのでここは棲み分けが必要です。 人間がクリエイティブな仕事に専念できます。 2. 「汎用的AI」 の研究も少しずつ進んでいます。本気でドラえもんを作ろうとしている研究 室もあります。
  37. 37. 37 目次 ©2020Fractainc.Allrightsreserved. はじめに 自己紹介・Fracta紹介 水道インフラが抱える社会問題 Fractaのアプローチ そもそもAIとは? AI(機械学習)を作るプロセス AIの注意点 AIのこれから GISとはなにか? なぜGIS? 環境データの構築 Save Water Nowを支える技術構成 AI × GIS による新ソリューション 既存プロセスの限界 ディスカッション まとめ
  38. 38. 38 GIS(地理情報システム)とは ©2020Fractainc.Allrightsreserved. 引用: Wikipedia(初期versionのGoogle Earth) 衛星画像から生成した 3次元農村マップ 世界人口3Dマップ デジタル地図の画面上に様々な情報を重ねて、 それらの情報を用いて様々な分析を行うシステム
  39. 39. 39 なぜGIS? ©2020Fractainc.Allrightsreserved. さまざまな影響を受けて劣化していく水道管。 市内全域に分布する水道管は一つ一つ全く異なる環境下にある。 引用:荒井ら(2008), 送配水管路事故の実態調査アンケートデータ による故障率曲線の推定方法, 環境システム研究論文集
  40. 40. 環境要因による劣化要因 40 交通網データ 河川・湖沼データ 建物データ 地域データ 変数 配管劣化への影響(例) 人口密度 標高、傾斜 建物の位置または大きさ 地質種類、土地内元素 河川、湖沼、海外線 自然地域(森林 等)・土地利用地 域(公共施設、商用施設 等) 降水量、湿度 道路、鉄道、駅、バス 人の生活空間や移動時に発生する振動が物理的な配管の劣化を促す 斜面方向に力が加わり配管の位置がずれることで配管の継ぎ手部分や表面 の劣化・破損を促すため。 建物建設時に発生する振動による物理的な配管の劣化を促す また、人の生活により発生する振動を間接的に把握できる 元素が水分と化学反応を起こし酸性環境や腐食性物質となることで配管腐 食を促す 河川・湖沼から配管までの距離によって配管周辺の地下水位が分かり、水流 や水中の物質による配管腐食を促す 土地利用によって人の移動パターン(学校、オフィス等)を把握し、振動による 物理的な配管の劣化を促す 降水による雨滴が土地に浸透し配管表面に接触することで配管腐食を促す 道路を走行する車両から発生する振動による物理的な配管の劣化を促す 人口 土壌 気象 標高・傾斜
  41. 41. GISによる加工・結合処理 41 KEY_CODEをもつメッシュ単位GISデータ (データサンプル) KEY_CODEと標高情報 (データサンプル) 「環境データ」 (データサンプル) デ ータ 処 理 結合処 理 衛星画像や統計資料(非GISデータ)をAIが利用できるかたちまで変換・加工。 GISによって位置参照による結合や近接性の考慮ができる。
  42. 42. 42 環境データベースの構築 ©2020Fractainc.Allrightsreserved. 水道管劣化に関係する150以上の環 境に関する変数を対象 人口 土壌 河川 交通網 地震など データベース構築!!座標系や空間単位の統一 按分処理を施し、集約
  43. 43. 43 米国ミシガン州を皮切りに、Save Water Nowを世界展開予定。 まずは下記地域を対象に展開。 • 米国全土 • 日本全国 • 欧州 全世界中の環境データベースを構築中 ©2020Fractainc.Allrightsreserved. 国ごとに異なるフォーマット・粒度を統一化
  44. 44. 44 Save Water Nowを支える技術構成 Data Processing Data Science Backend Front End 1 2 3 4 Open Data GDAL, GeoPandas, Shapely etc Numpy, Scipy, Scikit-learn etc 漏水予測試算 Django GeoServer PostGIS Angular.js Cesium ©2020Fractainc.Allrightsreserved.
  45. 45. 45 目次 ©2020Fractainc.Allrightsreserved. はじめに 自己紹介・Fracta紹介 水道インフラが抱える社会問題 Fractaのアプローチ そもそもAIとは? AI(機械学習)を作るプロセス AIの注意点 AIのこれから GISとはなにか? なぜGIS? 環境データの構築 Save Water Nowを支える技術構成 AI × GIS による新ソリューション 既存プロセスの限界 ディスカッション まとめ
  46. 46. 46 AI×GISによる新ソリューション 統計的な分析手法である、線形回帰の手法では、 それぞれのデータポイントが相互に独立しながら、同じ特徴量分布に由来している という仮定の基、構築できるアルゴリズムである。 ※ 数学的な証明もあるが割愛します。
  47. 47. 47 AI×GISによる新ソリューション ディープラーニング含む、各種機械学習手法においては、 この仮定がなくても機能はするが、 訓練データ+テストデータの分割時に同様の問題が発生する。 ???
  48. 48. 48 AI×GISによる新ソリューション 機械学習モデルを構築した際、そのモデルが上手くいっているかどうかを 判定しなければいけない(評価と呼ぶ) 【基本的な評価方法】 • データを学習用データと評価用データに分割する。 • 学習用データのみで作成したモデルを用いて、評価用データを予測して どのくらい正しい答えと合っているかを求める
  49. 49. 49 AI×GISによる新ソリューション どのように分割する??? • ランダムに分割 → データポイント同士が独立であれば問題ない。 → 独立でない場合、どうなる?
  50. 50. 50 AI×GISによる新ソリューション 【独立でない場合】 • データAとデータBに関連性がある • ランダムに分割してしまうと、学習データにA、評価データにBが含まれることがある • このまま評価してしまうと、とても近い問題を学習しているので、評価としては高くな ってしまう(カンニングに近い)
  51. 51. 51 AI×GISによる新ソリューション 【GISデータ】 空間的自己相関関係(spatial autocorrelation) を持ったデータであることが多い。 空間的に近いデータはお互いに影響を及ぼし合うこと つまり、データポイント間で独立ではない
  52. 52. 52 AI×GISによる新ソリューション 【解決策】 • 空間的に遠いところで訓練データ+評価データを分ける • 空間的自己相関を加味した特徴量(自分自身のパイプと近いパイプの情報など)を 用いる 実際に文献が少ないので、自分達でTry&Errorが必要
  53. 53. 53 目次 ©2020Fractainc.Allrightsreserved. はじめに 自己紹介・Fracta紹介 水道インフラが抱える社会問題 Fractaのアプローチ そもそもAIとは? AI(機械学習)を作るプロセス AIの注意点 AIのこれから GISとはなにか? なぜGIS? 環境データの構築 Save Water Nowを支える技術構成 AI × GIS による新ソリューション 既存プロセスの限界 ディスカッション まとめ
  54. 54. 54 ディスカッション ① どんな特徴量を入れたら、もっと精度を上げることができそうか? ② 下水道分野ではどんなAIを作ると良さそうか?
  55. 55. 55 まとめ • 水道管維持は社会的責任が大きいインフラ。 • 市内全域に張り巡らされた水道管は置かれた場所によ って、劣化のメカニズムがバラバラ。 1. 数多くの特徴量を考慮して表現可能な機械学習のアプ ローチ 2. 特徴量そのもののデータ抽出および地理的な特性を反 映するためのGIS 3. 両アプローチを組み合わせた汎用性が高く、表現力の 高いモデルの構築
  56. 56. 56 「世の中を変革することへの執着」のある方へ インターンシップを募集しています! ©2020Fractainc.Allrightsreserved. 必要な資格 • 学んだ知識や論文資料などあらゆる知を活かし、実世界の問 題解決に有効な機械学習エンジンを実装したいという思い。 • Pythonの基礎、統計学の基礎 • データマイニング、機能定義、MLベースのデータクリーニ ングなどの困難なデータの課題に対処するための知的体力。 • 非常に不均衡なデータセットを処理する意欲。 • 歓迎スキル:クラウドベースのアプリケーション(AWS、 GCP、Azure)でデータを操作した経験、PyTorchおよび SQL(BigQuery等)を推奨 • チームプレイ:チームの一員として問題を共有・解決してい く姿勢 その他: • 勤務地は日本ですが、アメリカ本社とのコミュニケーション のため英語文書を歓迎 • 自主的な学習ができるように、Udemyなどの学習リソースを 提供 • チームへの共有を大歓迎 私たちは、世界クラスの機械学習モデルと予測の構築に情熱 のある、成果主義でやる気あるインターンシップを探していま す。革新的な手法とモデルをテストして核となるアルゴリズ ムの精度を向上させ、会社に大きな影響を与えることができ ます。 • 応募対象: 学年学科不問。勤務時間: 裁量労働制 • 必要スキル: Python, Jupyter Notebook, Git • 勤務場所: 東京都渋谷区渋谷2-10-2 渋谷2丁目ビル 3F・4F、自宅勤務可 • 報酬: 最初の3ヶ月は見なし時給1050円。プロジェ クト状況をみて昇給。 • 交通アクセス: 渋谷から徒歩5分 • 待遇・福利厚生: オフィス2F併設カフェ Menlo Park Coffee のコーヒー飲み放題、学習サイトUdemyのアカ ウント提供
  57. 57. 57 クレイジーでいこう!! クレイジーで行こう! グーグルとスタン フォードが認めた男、「水道管」に挑む 加藤 崇 著 1,760円(税込) ©2020Fractainc.Allrightsreserved. クレイジーで行こう!第2章
  58. 58. © 2020 Fracta inc. All rights reserved. 今後に活かすべく、 ご感想いただけると嬉しいです 🙌

×