Más contenido relacionado
Similar a 論文紹介 dhSegment:文書セグメンテーションのための包括的ディープラーニングアプローチ (6)
論文紹介 dhSegment:文書セグメンテーションのための包括的ディープラーニングアプローチ
- 6. アウトライン
● ステップ1:
○ 完全畳み込みニューラルネットワーク( FCN)
■ 入力:文書の画像;
■ 出力:各ピクセルについて予測された属性の確率のマップ
■ 学習:各ピクセルの属性 IDを示すマスク画像
● ステップ2:(後処理)
○ 予測マップを各々のタスクの目的の出力に変換
○ タスクに依存する手作り画像処理を使用(単純・標準的な範囲のアルゴリズムに限定)
● 実装
○ TensorFlow を使用。GitHubに公開
6
- 10. ステップ2:(後処理)
単純かつ標準的な画像処理だけ使用
● 2値化
○ 固定しきい値
○ 大津の方法
● モルフォロジー
○ 基本演算:膨張(dilation)・収縮(erosion)→開・閉演算子(opening, closing op.)
● 連結成分分析(CCA:Connected Component Analysis)
○ 2値化、モルフォロジーの後に実施
○ 面積の小さなブロブの除去に使う
● 形状ベクトル化
○ CCAで抽出した連結画素の外周の多角形の頂点座標(位置ベクトル)列に変換
○ 面積のない線分も多角形に含む、とする
10
- 11. 訓練方法
● ロス関数:L2正則化(weight decay 10-6
)を適用
● 学習率:指数関数的減衰(0.95)、初期値範囲[10-5
, 10-4
]
● 重み初期化:Xavier の初期化法
● 最適化制御:Adam optimizer
● 学習安定化:Batch Normalization 使用
● 画像のサイズ調整:
○ 総画素数範囲:6x105
〜106
の範囲
○ さらに300x300サイズにクロップ
○ 『境界効果』を避けるため、マージンを追加
● データ拡張(Augmentation)
○ on-the-fly での実行
■ 画像回転:角度範囲: [-0.2, 0.2] (rad.)
■ スケーリング:拡縮比率範囲: [08, 1.2]
■ ミーラリング
11
- 15. ページ抽出
● 目的:文書画像の背景を除去して、ページ部分だけにする
○ ページ部分に該当する 2値マスク画像を得ること
● 訓練:1635枚の画像、バッチサイズ=1、30エポック
○ 画像は、アスペクト比維持下で、 6x105
画素にリサイズしている。
● 後処理:
○ (1)ステップ1のネットワーク出力に対し、大津の方法で2値化を実施 →(A)
○ (2)opening-closing を使って、(A)の2値画像の点状のゴミを消去 →(B)
○ (3)2値画像(B)の画素領域を包絡する四辺形を見つける。
■ =4つのもっとも極端な角を探索する。
15
- 19. ベースライン検出
● 目的:ベースラインの検出
○ ベースラインとは?
■ 画像上の仮想的な線分で、その上にほとんどの文字が乗っており、またディセンダ分がその
下に拡張されるもの。
■ ※ディセンダ=アルファベットの小文字表記において「 g」のように下に伸びた部分
● 検出方法
○ ネットワークは、ベースラインから半径5ピクセル以内にある画素を予測するように訓練する(訓練
データをそのように与える)
● 訓練:画像は106
サイズにリサイズ、30エポック、約50分
19
- 26. オーナメント検出
● 目的:文書画像から、オーナメント(装飾部分)を検出する
● 訓練:
○ データ:
■ オーナメントを矩形でアノーテーションした訓練データ。計 912ページ分の
アノテーションつき画像、うち 612ページに1個以上のオーナメントが含まれる。
● 訓練用610ページ(オーナメントつき 427ページ)
● 評価用92ページ(同上 92ページ)
● テスト用183ページ(同上 123ページ)
● 画像サイズ:8x105
にリサイズ
○ 学習:バッチサイズ= 16、30エポック、2時間未満
● 後処理:
○ 2値化により、バイナリマスク画像を生成
○ モルフォロジー開閉 (Opening/Closing)処理
○ バウンディングボックスのあてはめ
○ 極小のボックスは除去(画像サイズ比 0.5%未満のもの)
26