SlideShare una empresa de Scribd logo
1 de 23
第七回 カーネル/VM探検隊発表
x86-64/Linuxに独自メモリ空間を勝手増設

                 中村 実
        nminoru1975@gmail.com
          Twitter @nminoru_jp
   http://www.nminoru.jp/~nminoru/

                                     1
自己紹介
• 某電機メーカーのサラリーマンです。

• 01~05 Java VM
• 06~10 メインフレームのソフトエミュ
  レータ
• 11    ファイルシステム



                         2
エミュレータを高速化するに
      は?
• ゲストとホストでCPUが異なる計算機を想
  定
 – ARM、MIPS、SPARC、Alphaをx86-64上で実行


• ゲストの仮想メモリがネック
 – ソフトウェアでエミュレーションすると絶対
   的に遅い
 – ホストのMMUを使ってゲストのメモリ空間を
   エミュレーションしましょう。
                                     3
ホストMMUをどうやって使う
      か?
• どうすればいい?
 1. OSを自前で作る
 2. OSから一部のCPUを切り離して独自処理
 3. 既存のOSを改造



 このLTではx86-64/Linux上で32ビットCPUを
 エミュレーションする勝手改造を紹介しま
                 す
                                 4
オレオレVM
• Linux仮想メモリ(VM)中に自分専用のVMを!
  – https://github.com/nminoru/oleolevm/
    x86風の2段のページテーブルを持つCPUを仮定

• 使い方
  – /proc/oleolevm を mmap
  – CPU 命令のインタプリータがロード・ストア
  – ゲストのTLB ミス・保護違反は SIGSEGV シグナルで通知
                          Memory
                                            Load/Store
                 mmap
                                                         CPU Interpreter
/proc/oleolevm             oleolevm
                                            SIGSEGV


                        ioctol or syscall                              5
どのように改造するか?
• Hugetlb を参考に (`・ω・´)
• vm_area_structのvm_flagsを勝手に追加
  – /include/linux/mm.h
     #define VM_HUGETLB 0x00400000
     #define VM_OLEOLETLB 0x100000000UL

• VM_HUGETLBとis_vm_hugetlb_pageを手掛
  かりに追加
     if (is_vm_hugetlb_page(vma))
           return copy_hugetlb_page_range(dst_mm, src_mm, vma);

     if (is_vm_oleoletlb_page(vma))
           return -ENOMEM;                                        6
Shadow Page Table(SPT)
  • ゲストの仮想メモリ空間をホストのページテーブルに
    組み込む。
                                          CR3
            oleolevm      0x3,000,000

       Guest Virt Space                                 PGD

                Page                            512GB
                          0x2,000,000                   PUD

            空き4GB                                1GB
写像                        0x1,000,000                   PMD
       Guest Phy Space
                                                 2MB
                Page                                     PTE

gCR3   ST        PT                              4KB
                          0x0,000,000
                                        Page
                                                               7
サンプルはここまでで力尽きま
      した




                 8
ゲストCR3を切り替え対応
 • ゲストのコンテキストスイッチに応じてSPTの書き換
   えが必要
 • 毎回破棄するとコスト高なので過去のSPTも保存
      – PUDをゲスト仮想空間1つに割り当てると効率がイイ!!
         CR3

         PGD                          PMD   PMD   PMD   PMD
                           CR3が変更され
                           たら入れ替え
  PUD                                 PTE   PTE   PTE   PTE

                     1GB

                                      PMD   PMD   PMD   PMD
PMD     PMD    PMD         PMD
                                      PTE   PTE   PTE   PTE
PTE     PTE    PTE         PTE
                                                              9
ゲストモード対応
• ゲストにもuser modeとsupervisor modeがあり
  アクセス禁止領域が違う
• User mode用とsupervisor mode用の空間を分
  けてしまえば解決
        Guest Virt Space
         (Supervisor)
             空き            CPU Interpreter
        Guest Virt Space
            (User)
             空き

        Guest Phy Space
                                             10
JITコンパイラ対応
• 高速化のためのJIT Compilation
  – Dynamic Binary Translationとも言う

• 分岐回数テーブル
  – 普通はハッシュテーブル
                                     Branch Counter Table
  – オレオレVMならMMUで用意
• 翻訳コードへのlookup table                   Page    カウン
                                                 タ
  – これもMMUで用意できる
• 翻訳元コードの書込み保護                                 空き
  – 書込み保護違反時にカーネル側                     Guest Virt Space
    で翻訳コードの破棄が可能
                                        Page
                                                命令


                                                            11
ゲストデバッグ機能対応
• Watchpoint Debug
  – 指定したメモリ範囲にアクセスがあったことを検
    出
• 問題
  – アクセスの補足方法
     • x86のdebug registerはエミュは使い辛い
     • ゲストのwatchpoint範囲をカバーするようにSPTのペー
       ジにプロテクションを付ける
  – アドレスの判定
  – Watchpointに引っかかったx86命令の再実行方法
                                         12
アドレス判定
• #PF例外はCR2に例外を起こしたメモリアドレ
  スを返すが不正確
 – movq %rax, [0x0FFE] で #PF がでてもCR2は0x1000に
   なるかも。
• x86命令をデコードしてアドレスを判定
 – struct pt_regsに#PFが起きた時点のレジスタが格納
   されている
 – %ripから16バイトを読み込んで命令をデコード
 – でもオペコードレベルで400命令以上のデコード
   が必要 (´;ω;`)

                                           13
再実行
• ゲストのLOAD/STOREは#PF例外補足後に再実
  行できないとダメ
  – でもSPTにプロテクションをかけているよ
• x86を1命令エミュレーション
  – #PFを起こしたx86命令をカーネルランドで1命令
    エミュし、pt_regsに結果を書き戻す。%ripも1命
    令分続ける。
• x86のSingle Step実行を使う
  1. #PFハンドラでSPTのプロテクションを解除し、
     EFLAGSにTFを立ててユーザランドに戻る
  2. 1命令を実行したら#DB例外が発生
  3. SPTのプロテクションを元に戻す
                                   14
まとめ
• オレオレVMを使えばx86-64のMMUを全部
  使える (`・ω・´)

• でもカーネルのリベースが大変 (´;ω;`)

• なにかうまい手はありませんか?



                            15
参考文献
• Jim Smith, Ravi Nair, Virtual Machines:
  Versatile Platforms for Systems and Processes




                                                  16
清聴ありがとうございまし
     た。




               17
ここから未使用




          18
予約領域を使う
• x86/x86-64は#PF例外の種類が少ない
• #PF例外時のエラーコード
 – Present bit
 – W/R bit
 – U/S bit
• そうだ!! 予約領域を使おう
 – RSVD


                            19
SPTの一貫性(1/2)
• ゲストのページテーブルとSPTの一貫性の維
  持するには?
 1. ゲストのページテーブル領域に書込み保護をか
    ける
 2. 毎回SPTを破棄
 3. 毎回SPTをゲストのページテーブルとチェック
• x86-64の予約領域を使ってSPTのチェックを
  遅延させる方法があるよ
 – 特許4897578「仮想計算機の制御プログラムおよ
   び仮想計算機システム」服部 直也ほか

                               20
SPTの一貫性(2/2)
• 予約領域へビットを打った場合「SPTを
  チェックしろ」という意味
• RSVD=1の#PF例外をハンドルして検査
• 最初はPGDのreserved bitを打つ。
• #PF例外があがるとPGDのreserved bitを解除し
  て直下のPUDの512エントリにresreved bitを打
  つ。
• 中位のエントリのreserved bitを下位のテーブ
  ルに写してゆく。
• 最後のPTEのreserved bitを解除する時にゲス
  トPTEとチェックを行う
                               21
改造なしで独自メモリ管理
• vm_area_structにvm_opsを設定
 static int foo_vm_fault(struct vm_area_struct *vma, struct vm_fault *vmf)
 {
     vmf->page = page; // ここにロジックを入れる
 }

 static struct vm_operations_struct foo_vm_ops = {
      .fault = foo_vm_fault,
 };

 static int foo_mmap(struct file *filp, struct vm_area_struct *vma)
 {
      vma->vm_ops = &foo_vm_ops;
 }

 static struct file_operations foo_fops = {
      .mmap = foo_mmap,
 };

                                                                             22
X86-64の仮想メモリは将来拡張さ
          れるか?
• U.S. Patent 6,671,791 Processor including a translation
  unit for selectively translating virtual addresses of
  different sizes using a plurality of paging tables and
  mapping mechanisms




                                                        23

Más contenido relacionado

La actualidad más candente

Basic of virtual memory of Linux
Basic of virtual memory of LinuxBasic of virtual memory of Linux
Basic of virtual memory of LinuxTetsuyuki Kobayashi
 
Richard high performance fuzzing ja
Richard  high performance fuzzing jaRichard  high performance fuzzing ja
Richard high performance fuzzing jaPacSecJP
 
Spectre/Meltdownとその派生
Spectre/Meltdownとその派生Spectre/Meltdownとその派生
Spectre/Meltdownとその派生MITSUNARI Shigeo
 
x86とコンテキストスイッチ
x86とコンテキストスイッチx86とコンテキストスイッチ
x86とコンテキストスイッチMasami Ichikawa
 
Infinite Debian - Platform for mass-producing system every second
Infinite Debian - Platform for mass-producing system every secondInfinite Debian - Platform for mass-producing system every second
Infinite Debian - Platform for mass-producing system every secondTaisuke Yamada
 
プロセスとコンテキストスイッチ
プロセスとコンテキストスイッチプロセスとコンテキストスイッチ
プロセスとコンテキストスイッチKazuki Onishi
 
FPGAでゲーム機を作ろう! 第6回
FPGAでゲーム機を作ろう! 第6回FPGAでゲーム機を作ろう! 第6回
FPGAでゲーム機を作ろう! 第6回yoshimitsusudoh
 
本当にわかる Spectre と Meltdown
本当にわかる Spectre と Meltdown本当にわかる Spectre と Meltdown
本当にわかる Spectre と MeltdownHirotaka Kawata
 
デバドラを書いてみよう!
デバドラを書いてみよう!デバドラを書いてみよう!
デバドラを書いてみよう!Masami Ichikawa
 
SpectreとMeltdown:最近のCPUの深い話
SpectreとMeltdown:最近のCPUの深い話SpectreとMeltdown:最近のCPUの深い話
SpectreとMeltdown:最近のCPUの深い話LINE Corporation
 
あるmmapの話
あるmmapの話あるmmapの話
あるmmapの話nullnilaki
 
2011.09.18 v7から始めるunix まとめ
2011.09.18 v7から始めるunix まとめ2011.09.18 v7から始めるunix まとめ
2011.09.18 v7から始めるunix まとめMakiko Konoshima
 
【学習メモ#7th】12ステップで作る組込みOS自作入門
【学習メモ#7th】12ステップで作る組込みOS自作入門 【学習メモ#7th】12ステップで作る組込みOS自作入門
【学習メモ#7th】12ステップで作る組込みOS自作入門 sandai
 
C/C++プログラマのための開発ツール
C/C++プログラマのための開発ツールC/C++プログラマのための開発ツール
C/C++プログラマのための開発ツールMITSUNARI Shigeo
 
あるコンテキストスイッチの話
あるコンテキストスイッチの話あるコンテキストスイッチの話
あるコンテキストスイッチの話nullnilaki
 
GHC 6.12.1 マルチコア対応ランタイムシステムについて
GHC 6.12.1 マルチコア対応ランタイムシステムについてGHC 6.12.1 マルチコア対応ランタイムシステムについて
GHC 6.12.1 マルチコア対応ランタイムシステムについてMitsutoshi Aoe
 

La actualidad más candente (20)

Basic of virtual memory of Linux
Basic of virtual memory of LinuxBasic of virtual memory of Linux
Basic of virtual memory of Linux
 
Bhyve Internals
Bhyve InternalsBhyve Internals
Bhyve Internals
 
Richard high performance fuzzing ja
Richard  high performance fuzzing jaRichard  high performance fuzzing ja
Richard high performance fuzzing ja
 
Spectre/Meltdownとその派生
Spectre/Meltdownとその派生Spectre/Meltdownとその派生
Spectre/Meltdownとその派生
 
x86とコンテキストスイッチ
x86とコンテキストスイッチx86とコンテキストスイッチ
x86とコンテキストスイッチ
 
Infinite Debian - Platform for mass-producing system every second
Infinite Debian - Platform for mass-producing system every secondInfinite Debian - Platform for mass-producing system every second
Infinite Debian - Platform for mass-producing system every second
 
プロセスとコンテキストスイッチ
プロセスとコンテキストスイッチプロセスとコンテキストスイッチ
プロセスとコンテキストスイッチ
 
ゆるバグ
ゆるバグゆるバグ
ゆるバグ
 
FPGAでゲーム機を作ろう! 第6回
FPGAでゲーム機を作ろう! 第6回FPGAでゲーム機を作ろう! 第6回
FPGAでゲーム機を作ろう! 第6回
 
本当にわかる Spectre と Meltdown
本当にわかる Spectre と Meltdown本当にわかる Spectre と Meltdown
本当にわかる Spectre と Meltdown
 
デバドラを書いてみよう!
デバドラを書いてみよう!デバドラを書いてみよう!
デバドラを書いてみよう!
 
SpectreとMeltdown:最近のCPUの深い話
SpectreとMeltdown:最近のCPUの深い話SpectreとMeltdown:最近のCPUの深い話
SpectreとMeltdown:最近のCPUの深い話
 
あるmmapの話
あるmmapの話あるmmapの話
あるmmapの話
 
2011.09.18 v7から始めるunix まとめ
2011.09.18 v7から始めるunix まとめ2011.09.18 v7から始めるunix まとめ
2011.09.18 v7から始めるunix まとめ
 
【学習メモ#7th】12ステップで作る組込みOS自作入門
【学習メモ#7th】12ステップで作る組込みOS自作入門 【学習メモ#7th】12ステップで作る組込みOS自作入門
【学習メモ#7th】12ステップで作る組込みOS自作入門
 
C/C++プログラマのための開発ツール
C/C++プログラマのための開発ツールC/C++プログラマのための開発ツール
C/C++プログラマのための開発ツール
 
あるコンテキストスイッチの話
あるコンテキストスイッチの話あるコンテキストスイッチの話
あるコンテキストスイッチの話
 
GHC 6.12.1 マルチコア対応ランタイムシステムについて
GHC 6.12.1 マルチコア対応ランタイムシステムについてGHC 6.12.1 マルチコア対応ランタイムシステムについて
GHC 6.12.1 マルチコア対応ランタイムシステムについて
 
仮想記憶の構築法
仮想記憶の構築法仮想記憶の構築法
仮想記憶の構築法
 
d-kami x86-1
d-kami x86-1d-kami x86-1
d-kami x86-1
 

Destacado

0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラムMinoru Nakamura
 
Persistent-Memory-Programming-Model
Persistent-Memory-Programming-ModelPersistent-Memory-Programming-Model
Persistent-Memory-Programming-ModelMinoru Nakamura
 
Jvm reading-synchronization
Jvm reading-synchronizationJvm reading-synchronization
Jvm reading-synchronizationMinoru Nakamura
 
UseNUMA做了什么?(2012-03-14)
UseNUMA做了什么?(2012-03-14)UseNUMA做了什么?(2012-03-14)
UseNUMA做了什么?(2012-03-14)Kris Mok
 
プログラマ目線から見たRDMAのメリットと その応用例について
プログラマ目線から見たRDMAのメリットとその応用例についてプログラマ目線から見たRDMAのメリットとその応用例について
プログラマ目線から見たRDMAのメリットと その応用例についてMasanori Itoh
 
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワークNaoto MATSUMOTO
 
シーサーでのInfiniBand導入事例
シーサーでのInfiniBand導入事例シーサーでのInfiniBand導入事例
シーサーでのInfiniBand導入事例Naoto MATSUMOTO
 
InfiniBand Presentation
InfiniBand PresentationInfiniBand Presentation
InfiniBand PresentationShekhar Kumar
 
ioDriceとInfiniBandとDRBDを利用したリアルタイムレプリケーション
ioDriceとInfiniBandとDRBDを利用したリアルタイムレプリケーションioDriceとInfiniBandとDRBDを利用したリアルタイムレプリケーション
ioDriceとInfiniBandとDRBDを利用したリアルタイムレプリケーションIwasaki Noboru
 
Concurrent Mark-Sweep Garbage Collection #jjug_ccc
Concurrent Mark-Sweep Garbage Collection #jjug_cccConcurrent Mark-Sweep Garbage Collection #jjug_ccc
Concurrent Mark-Sweep Garbage Collection #jjug_cccYuji Kubota
 
Garbage First Garbage Collection (G1 GC) #jjug_ccc #ccc_cd6
Garbage First Garbage Collection (G1 GC) #jjug_ccc #ccc_cd6Garbage First Garbage Collection (G1 GC) #jjug_ccc #ccc_cd6
Garbage First Garbage Collection (G1 GC) #jjug_ccc #ccc_cd6Yuji Kubota
 

Destacado (16)

Jvm reading-parallel gc
Jvm reading-parallel gcJvm reading-parallel gc
Jvm reading-parallel gc
 
0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム
 
JVM-Reading-ParalleGC
JVM-Reading-ParalleGCJVM-Reading-ParalleGC
JVM-Reading-ParalleGC
 
Persistent-Memory-Programming-Model
Persistent-Memory-Programming-ModelPersistent-Memory-Programming-Model
Persistent-Memory-Programming-Model
 
Jvm reading-synchronization
Jvm reading-synchronizationJvm reading-synchronization
Jvm reading-synchronization
 
UseNUMA做了什么?(2012-03-14)
UseNUMA做了什么?(2012-03-14)UseNUMA做了什么?(2012-03-14)
UseNUMA做了什么?(2012-03-14)
 
SC16 NVIDIA NEWS
SC16 NVIDIA NEWSSC16 NVIDIA NEWS
SC16 NVIDIA NEWS
 
Dentoo.LT12 並列処理・MPIの第一歩 20151025
Dentoo.LT12 並列処理・MPIの第一歩 20151025Dentoo.LT12 並列処理・MPIの第一歩 20151025
Dentoo.LT12 並列処理・MPIの第一歩 20151025
 
プログラマ目線から見たRDMAのメリットと その応用例について
プログラマ目線から見たRDMAのメリットとその応用例についてプログラマ目線から見たRDMAのメリットとその応用例について
プログラマ目線から見たRDMAのメリットと その応用例について
 
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
 
シーサーでのInfiniBand導入事例
シーサーでのInfiniBand導入事例シーサーでのInfiniBand導入事例
シーサーでのInfiniBand導入事例
 
MPIによる並列計算
MPIによる並列計算MPIによる並列計算
MPIによる並列計算
 
InfiniBand Presentation
InfiniBand PresentationInfiniBand Presentation
InfiniBand Presentation
 
ioDriceとInfiniBandとDRBDを利用したリアルタイムレプリケーション
ioDriceとInfiniBandとDRBDを利用したリアルタイムレプリケーションioDriceとInfiniBandとDRBDを利用したリアルタイムレプリケーション
ioDriceとInfiniBandとDRBDを利用したリアルタイムレプリケーション
 
Concurrent Mark-Sweep Garbage Collection #jjug_ccc
Concurrent Mark-Sweep Garbage Collection #jjug_cccConcurrent Mark-Sweep Garbage Collection #jjug_ccc
Concurrent Mark-Sweep Garbage Collection #jjug_ccc
 
Garbage First Garbage Collection (G1 GC) #jjug_ccc #ccc_cd6
Garbage First Garbage Collection (G1 GC) #jjug_ccc #ccc_cd6Garbage First Garbage Collection (G1 GC) #jjug_ccc #ccc_cd6
Garbage First Garbage Collection (G1 GC) #jjug_ccc #ccc_cd6
 

Similar a x86-64/Linuxに独自メモリ空間を勝手増設

PEZY-SC2上における倍々精度Rgemmの実装と評価
PEZY-SC2上における倍々精度Rgemmの実装と評価PEZY-SC2上における倍々精度Rgemmの実装と評価
PEZY-SC2上における倍々精度Rgemmの実装と評価Toshiaki Hishinuma
 
コンテナ型仮想化とはなんだったのか
コンテナ型仮想化とはなんだったのかコンテナ型仮想化とはなんだったのか
コンテナ型仮想化とはなんだったのかえむ ばーど
 
仮想化技術によるマルウェア対策とその問題点
仮想化技術によるマルウェア対策とその問題点仮想化技術によるマルウェア対策とその問題点
仮想化技術によるマルウェア対策とその問題点Kuniyasu Suzaki
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜京大 マイコンクラブ
 
Effective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディションEffective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディションKuninobu SaSaki
 
DRBD/Heartbeat/Pacemakerで作るKVM仮想化クラスタ
DRBD/Heartbeat/Pacemakerで作るKVM仮想化クラスタDRBD/Heartbeat/Pacemakerで作るKVM仮想化クラスタ
DRBD/Heartbeat/Pacemakerで作るKVM仮想化クラスタ株式会社サードウェア
 
Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
Windows Server 2019 の Hyper-Converged Infrastructure (HCI) Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
Windows Server 2019 の Hyper-Converged Infrastructure (HCI) Hiroshi Matsumoto
 
Dalvik仮想マシンのアーキテクチャ 改訂版
Dalvik仮想マシンのアーキテクチャ 改訂版Dalvik仮想マシンのアーキテクチャ 改訂版
Dalvik仮想マシンのアーキテクチャ 改訂版Takuya Matsunaga
 
NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012Takuro Iizuka
 
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVR第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVRToru Makabe
 
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)Takeshi Yamamuro
 
Yet another Intel Chipset Internal SMBus device’s driver: ismt(4) (and spdmem...
Yet another Intel Chipset Internal SMBus device’s driver: ismt(4)(and spdmem...Yet another Intel Chipset Internal SMBus device’s driver: ismt(4)(and spdmem...
Yet another Intel Chipset Internal SMBus device’s driver: ismt(4) (and spdmem...Masanobu Saitoh
 
OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo1
OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo1OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo1
OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo1Etsuji Nakai
 
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)Mr. Vengineer
 

Similar a x86-64/Linuxに独自メモリ空間を勝手増設 (20)

PEZY-SC2上における倍々精度Rgemmの実装と評価
PEZY-SC2上における倍々精度Rgemmの実装と評価PEZY-SC2上における倍々精度Rgemmの実装と評価
PEZY-SC2上における倍々精度Rgemmの実装と評価
 
コンテナ型仮想化とはなんだったのか
コンテナ型仮想化とはなんだったのかコンテナ型仮想化とはなんだったのか
コンテナ型仮想化とはなんだったのか
 
Let's play with Goldfish
Let's play with GoldfishLet's play with Goldfish
Let's play with Goldfish
 
仮想化技術によるマルウェア対策とその問題点
仮想化技術によるマルウェア対策とその問題点仮想化技術によるマルウェア対策とその問題点
仮想化技術によるマルウェア対策とその問題点
 
Open VZ
Open VZOpen VZ
Open VZ
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
Effective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディションEffective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディション
 
DRBD/Heartbeat/Pacemakerで作るKVM仮想化クラスタ
DRBD/Heartbeat/Pacemakerで作るKVM仮想化クラスタDRBD/Heartbeat/Pacemakerで作るKVM仮想化クラスタ
DRBD/Heartbeat/Pacemakerで作るKVM仮想化クラスタ
 
Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
Windows Server 2019 の Hyper-Converged Infrastructure (HCI) Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
Windows Server 2019 の Hyper-Converged Infrastructure (HCI)
 
Dalvik仮想マシンのアーキテクチャ 改訂版
Dalvik仮想マシンのアーキテクチャ 改訂版Dalvik仮想マシンのアーキテクチャ 改訂版
Dalvik仮想マシンのアーキテクチャ 改訂版
 
NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012
 
MongoDB on AWS
MongoDB on AWSMongoDB on AWS
MongoDB on AWS
 
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVR第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
 
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
 
LXC入門 - Osc2011 nagoya
LXC入門 - Osc2011 nagoyaLXC入門 - Osc2011 nagoya
LXC入門 - Osc2011 nagoya
 
Yet another Intel Chipset Internal SMBus device’s driver: ismt(4) (and spdmem...
Yet another Intel Chipset Internal SMBus device’s driver: ismt(4)(and spdmem...Yet another Intel Chipset Internal SMBus device’s driver: ismt(4)(and spdmem...
Yet another Intel Chipset Internal SMBus device’s driver: ismt(4) (and spdmem...
 
Isca13 study
Isca13 studyIsca13 study
Isca13 study
 
OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo1
OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo1OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo1
OpenStackクラウド基盤構築ハンズオンセミナー 第1日:ハンズオンNo1
 
WalBの紹介
WalBの紹介WalBの紹介
WalBの紹介
 
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
ZynqMPのブートとパワーマネージメント : (ZynqMP Boot and Power Management)
 

x86-64/Linuxに独自メモリ空間を勝手増設

  • 1. 第七回 カーネル/VM探検隊発表 x86-64/Linuxに独自メモリ空間を勝手増設 中村 実 nminoru1975@gmail.com Twitter @nminoru_jp http://www.nminoru.jp/~nminoru/ 1
  • 2. 自己紹介 • 某電機メーカーのサラリーマンです。 • 01~05 Java VM • 06~10 メインフレームのソフトエミュ レータ • 11 ファイルシステム 2
  • 3. エミュレータを高速化するに は? • ゲストとホストでCPUが異なる計算機を想 定 – ARM、MIPS、SPARC、Alphaをx86-64上で実行 • ゲストの仮想メモリがネック – ソフトウェアでエミュレーションすると絶対 的に遅い – ホストのMMUを使ってゲストのメモリ空間を エミュレーションしましょう。 3
  • 4. ホストMMUをどうやって使う か? • どうすればいい? 1. OSを自前で作る 2. OSから一部のCPUを切り離して独自処理 3. 既存のOSを改造 このLTではx86-64/Linux上で32ビットCPUを エミュレーションする勝手改造を紹介しま す 4
  • 5. オレオレVM • Linux仮想メモリ(VM)中に自分専用のVMを! – https://github.com/nminoru/oleolevm/ x86風の2段のページテーブルを持つCPUを仮定 • 使い方 – /proc/oleolevm を mmap – CPU 命令のインタプリータがロード・ストア – ゲストのTLB ミス・保護違反は SIGSEGV シグナルで通知 Memory Load/Store mmap CPU Interpreter /proc/oleolevm oleolevm SIGSEGV ioctol or syscall 5
  • 6. どのように改造するか? • Hugetlb を参考に (`・ω・´) • vm_area_structのvm_flagsを勝手に追加 – /include/linux/mm.h #define VM_HUGETLB 0x00400000 #define VM_OLEOLETLB 0x100000000UL • VM_HUGETLBとis_vm_hugetlb_pageを手掛 かりに追加 if (is_vm_hugetlb_page(vma)) return copy_hugetlb_page_range(dst_mm, src_mm, vma); if (is_vm_oleoletlb_page(vma)) return -ENOMEM; 6
  • 7. Shadow Page Table(SPT) • ゲストの仮想メモリ空間をホストのページテーブルに 組み込む。 CR3 oleolevm 0x3,000,000 Guest Virt Space PGD Page 512GB 0x2,000,000 PUD 空き4GB 1GB 写像 0x1,000,000 PMD Guest Phy Space 2MB Page PTE gCR3 ST PT 4KB 0x0,000,000 Page 7
  • 9. ゲストCR3を切り替え対応 • ゲストのコンテキストスイッチに応じてSPTの書き換 えが必要 • 毎回破棄するとコスト高なので過去のSPTも保存 – PUDをゲスト仮想空間1つに割り当てると効率がイイ!! CR3 PGD PMD PMD PMD PMD CR3が変更され たら入れ替え PUD PTE PTE PTE PTE 1GB PMD PMD PMD PMD PMD PMD PMD PMD PTE PTE PTE PTE PTE PTE PTE PTE 9
  • 10. ゲストモード対応 • ゲストにもuser modeとsupervisor modeがあり アクセス禁止領域が違う • User mode用とsupervisor mode用の空間を分 けてしまえば解決 Guest Virt Space (Supervisor) 空き CPU Interpreter Guest Virt Space (User) 空き Guest Phy Space 10
  • 11. JITコンパイラ対応 • 高速化のためのJIT Compilation – Dynamic Binary Translationとも言う • 分岐回数テーブル – 普通はハッシュテーブル Branch Counter Table – オレオレVMならMMUで用意 • 翻訳コードへのlookup table Page カウン タ – これもMMUで用意できる • 翻訳元コードの書込み保護 空き – 書込み保護違反時にカーネル側 Guest Virt Space で翻訳コードの破棄が可能 Page 命令 11
  • 12. ゲストデバッグ機能対応 • Watchpoint Debug – 指定したメモリ範囲にアクセスがあったことを検 出 • 問題 – アクセスの補足方法 • x86のdebug registerはエミュは使い辛い • ゲストのwatchpoint範囲をカバーするようにSPTのペー ジにプロテクションを付ける – アドレスの判定 – Watchpointに引っかかったx86命令の再実行方法 12
  • 13. アドレス判定 • #PF例外はCR2に例外を起こしたメモリアドレ スを返すが不正確 – movq %rax, [0x0FFE] で #PF がでてもCR2は0x1000に なるかも。 • x86命令をデコードしてアドレスを判定 – struct pt_regsに#PFが起きた時点のレジスタが格納 されている – %ripから16バイトを読み込んで命令をデコード – でもオペコードレベルで400命令以上のデコード が必要 (´;ω;`) 13
  • 14. 再実行 • ゲストのLOAD/STOREは#PF例外補足後に再実 行できないとダメ – でもSPTにプロテクションをかけているよ • x86を1命令エミュレーション – #PFを起こしたx86命令をカーネルランドで1命令 エミュし、pt_regsに結果を書き戻す。%ripも1命 令分続ける。 • x86のSingle Step実行を使う 1. #PFハンドラでSPTのプロテクションを解除し、 EFLAGSにTFを立ててユーザランドに戻る 2. 1命令を実行したら#DB例外が発生 3. SPTのプロテクションを元に戻す 14
  • 15. まとめ • オレオレVMを使えばx86-64のMMUを全部 使える (`・ω・´) • でもカーネルのリベースが大変 (´;ω;`) • なにかうまい手はありませんか? 15
  • 16. 参考文献 • Jim Smith, Ravi Nair, Virtual Machines: Versatile Platforms for Systems and Processes 16
  • 19. 予約領域を使う • x86/x86-64は#PF例外の種類が少ない • #PF例外時のエラーコード – Present bit – W/R bit – U/S bit • そうだ!! 予約領域を使おう – RSVD 19
  • 20. SPTの一貫性(1/2) • ゲストのページテーブルとSPTの一貫性の維 持するには? 1. ゲストのページテーブル領域に書込み保護をか ける 2. 毎回SPTを破棄 3. 毎回SPTをゲストのページテーブルとチェック • x86-64の予約領域を使ってSPTのチェックを 遅延させる方法があるよ – 特許4897578「仮想計算機の制御プログラムおよ び仮想計算機システム」服部 直也ほか 20
  • 21. SPTの一貫性(2/2) • 予約領域へビットを打った場合「SPTを チェックしろ」という意味 • RSVD=1の#PF例外をハンドルして検査 • 最初はPGDのreserved bitを打つ。 • #PF例外があがるとPGDのreserved bitを解除し て直下のPUDの512エントリにresreved bitを打 つ。 • 中位のエントリのreserved bitを下位のテーブ ルに写してゆく。 • 最後のPTEのreserved bitを解除する時にゲス トPTEとチェックを行う 21
  • 22. 改造なしで独自メモリ管理 • vm_area_structにvm_opsを設定 static int foo_vm_fault(struct vm_area_struct *vma, struct vm_fault *vmf) { vmf->page = page; // ここにロジックを入れる } static struct vm_operations_struct foo_vm_ops = { .fault = foo_vm_fault, }; static int foo_mmap(struct file *filp, struct vm_area_struct *vma) { vma->vm_ops = &foo_vm_ops; } static struct file_operations foo_fops = { .mmap = foo_mmap, }; 22
  • 23. X86-64の仮想メモリは将来拡張さ れるか? • U.S. Patent 6,671,791 Processor including a translation unit for selectively translating virtual addresses of different sizes using a plurality of paging tables and mapping mechanisms 23