SlideShare una empresa de Scribd logo
1 de 19
BearTail(Dr.Wallet) Sansan -合同LT会-
クラウドソーシングで
学習データを爆速で作る
Motoshi Nishihira(@snomof)
BearTail CTO
手入力 レシート撮影 アカウントアグリゲーション
3タイプの入力方式を兼ね備えた100万DL家計簿アプリ
2
Dr.Walletとは
100万DL
BearTailでの機械学習
• 購買のカテゴリ分類
• 購買データのクレンジング
• 画像処理
BearTailでの機械学習
• 購買のカテゴリ分類
• 購買データのクレンジング
• 画像処理 特に学習用データの作成について
機械学習をするには
• 大量の学習用画像
• 大量の正解データ
• 例えば
- Haar-like検出器(顔認識でよく使う):      数千枚
- MNIST(DeepLearningでの手書き数字検出):  数万枚
学習データを作る時間
• 例えば、1000枚の少なめのデータセットを作る時
- ツールを使って1枚10秒で切り取ったとしても160分
- 160分あれば、どれだけコーディングやリサーチが出来るのだ
ろう・・・
クラウドソーシングを使う
• 属人的で無い作業なら、

クラウドソーシングで解決できる
- 簡単な画像の加工
- データの分類
• BearTailでは在宅ワーカーさんに依頼
- 一般的な話にするため、クラウドソーシングとします
多くの人に作業してもらうには
• 誰でも簡単に作業出来る必要がある
- 研究用に、JavaやQtで実装される事もあるが、一般人にセット
アップは不可能
• ブラウザで使えるWebアプリケーションが最適
クラウドソーシングで解決している事
• 学習用の理想的なデータの作成
- 台形補正による歪みの解消
歪み補正後の画像処理の学習・検証用
- 画像の特定部分の切り出し
日付、電話番号などに特化した処理の学習・検証用
歪み補正
斜め方向から撮影された画像を補正
4点を選択
画像の切り出し
• 1つの画像から複数の
部位を切り出せる
• 切り出す部位の個数な
どは任意の設定をDB
に事前に登録できる
フロー
作業画面 Amazon SQS
画像処理サーバ
①作業内容をDBに登録
②画像情報をキューイング③人力作業
画像URLなど
作業内容・進
作業結果
④バッチ処理
導入のメリット
• 数千枚の作業でも、1日で完了
• PDCAが早く回せる
- R&Dの速度を上げるためにとても重要
• レシート入力システムと共有しているコードが多く、
実装コストはほぼフロントエンドのみ
問題点-ルール作り
• ルール作りが意外と大変
- 対象画像の明文化
金額 とは ¥ や 円 を含むのか?
合計 の文字を切り取る仕事だけど 現計 と記載されているものはあり?
- 程度の問題
傾きの許容範囲は?
鮮明さの許容範囲は?
• 条件漏れが発生し、まるでコーディングのよう
- プログラミングとは違い、条件の判定に曖昧さが入るので、ルールの記述が難しい
例: 読めるくらいのブレは許容、傾きは5 くらいまで
問題点-作業者の管理
• ルールに漏れがある時に、

多くの人から同時に質問が来る事がある
- メッセージのやりとりに時間がかかってしまう
• 複雑な条件の作業を複数回行う時は、同じ作業者に頼む
方が学習コストが低い
- 作業者リストが必要
• オーガナイズ役の人がいると る
- 個人プロジェクトでは難しい
今後
• 学習後の精度検証・問題点の調査にもクラウドソー
シングを取り入れる
- 学習後の検証は専門家が行う必要がある
- 明らかな外れ値の除外など、

学習後にも属人的でない作業も一部ある
• より柔軟に作業を配信できるように
We	
  are	
  hiring!
KDDI	
  ∞	
  Labo	
  ベストエンジニア賞	
  
DMTC	
  AWARD	
  大賞	
  
全国高校生プログラミングコンテスト 優勝	
  
mixi	
  Scrap	
  Challenge	
  1位	
  
日経Linux	
  連載	
  
IPA未踏採択	
  
全国高専プログラミングコンテスト	
  
	
   優秀賞/特別賞/敢闘賞	
  
paizaオンラインハッカソン Haskell最速
SuperCon 2014 優勝	
  
ICPC2015	
  国内予選突破(11月本戦)	
  
2Weeks	
  US	
  Workshop	
  2015	
  優勝
メンバーの実績
人間と機械の組み合わせで

最高のシステムを作りましょう!

Más contenido relacionado

Destacado

動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法Seiichi Uchida
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用NVIDIA Japan
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明Seiichi Uchida
 
結果を出すチームビルディング術
結果を出すチームビルディング術結果を出すチームビルディング術
結果を出すチームビルディング術Mao Ohnishi
 

Destacado (6)

動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
Front series A deck
Front series A deckFront series A deck
Front series A deck
 
結果を出すチームビルディング術
結果を出すチームビルディング術結果を出すチームビルディング術
結果を出すチームビルディング術
 
Ibis2016okanohara
Ibis2016okanoharaIbis2016okanohara
Ibis2016okanohara
 

Último

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Último (8)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

クラウドソーシングで 学習データを爆速で作る