Submit Search
Upload
ゲノムデータストレージのための次世代データ圧縮法(第三回NGS現場の会)
•
1 like
•
1,251 views
S
Shirou Maruyama
Follow
第三回NGS現場の会(2013年9月)で発表したポスター資料です
Read less
Read more
Technology
Report
Share
Report
Share
1 of 1
Recommended
Burtin force vitesse et kinésithérapie JFK2011
Burtin force vitesse et kinésithérapie JFK2011
Pierre Trudelle
PhD Certificate
PhD Certificate
Dr Aly Salama
Fiesta De Las Colectividades
Fiesta De Las Colectividades
dkbariloche
대신리포트_모닝미팅_151016
대신리포트_모닝미팅_151016
DaishinSecurities
How can i configure my email on outlook 2007
How can i configure my email on outlook 2007
Wazafny Shokran
Долгие версты войны
Долгие версты войны
Светлана Агапова
лекция 5
лекция 5
Эльмира Нигматулина
New Kidz Profile
New Kidz Profile
New Kidz
Recommended
Burtin force vitesse et kinésithérapie JFK2011
Burtin force vitesse et kinésithérapie JFK2011
Pierre Trudelle
PhD Certificate
PhD Certificate
Dr Aly Salama
Fiesta De Las Colectividades
Fiesta De Las Colectividades
dkbariloche
대신리포트_모닝미팅_151016
대신리포트_모닝미팅_151016
DaishinSecurities
How can i configure my email on outlook 2007
How can i configure my email on outlook 2007
Wazafny Shokran
Долгие версты войны
Долгие версты войны
Светлана Агапова
лекция 5
лекция 5
Эльмира Нигматулина
New Kidz Profile
New Kidz Profile
New Kidz
Fff
Fff
NickyNicks121
Tasca 6.teorema de pitagoras
Tasca 6.teorema de pitagoras
Rafael Alvarez Alonso
Презентация для владельца недвижимости
Презентация для владельца недвижимости
Marketing HOUSE
Coquisart jfk2011
Coquisart jfk2011
Pierre Trudelle
RHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персонала
Yury Stelmakh
Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420.
TCenter500
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
TCenter500
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
Eleni Kots
CPM2013-tabei201306
CPM2013-tabei201306
Yasuo Tabei
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
More Related Content
Viewers also liked
Fff
Fff
NickyNicks121
Tasca 6.teorema de pitagoras
Tasca 6.teorema de pitagoras
Rafael Alvarez Alonso
Презентация для владельца недвижимости
Презентация для владельца недвижимости
Marketing HOUSE
Coquisart jfk2011
Coquisart jfk2011
Pierre Trudelle
RHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персонала
Yury Stelmakh
Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420.
TCenter500
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
TCenter500
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
Eleni Kots
CPM2013-tabei201306
CPM2013-tabei201306
Yasuo Tabei
Viewers also liked
(9)
Fff
Fff
Tasca 6.teorema de pitagoras
Tasca 6.teorema de pitagoras
Презентация для владельца недвижимости
Презентация для владельца недвижимости
Coquisart jfk2011
Coquisart jfk2011
RHSoft - Проект: Аттестация персонала
RHSoft - Проект: Аттестация персонала
Об опыте работы по организации работы групп присмотра в школе №1420.
Об опыте работы по организации работы групп присмотра в школе №1420.
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
О проведении Фестиваля Межрайонного Совета Директоров образовательных организ...
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
εργασια μαθητων παροιμίες-αποφθέγματα για τις γυναίκες
CPM2013-tabei201306
CPM2013-tabei201306
Recently uploaded
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
Recently uploaded
(11)
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
ゲノムデータストレージのための次世代データ圧縮法(第三回NGS現場の会)
1.
4. 実験結果 3.
提案⼿手法2. ⽂文法圧縮 (Grammar Compression) 1. 研究背景 ゲノムデータストレージのための次世代データ圧縮法 丸⼭山 史郎郎(i ⽥田部井 靖⽣生(ii 5. 今後の予定 同種の個別個別のゲノム配列はとても良く似ている。 ヒトゲノムの場合は99.9〜99.99%は同じと言われる(1。 (1) M. Cargill et al., “Characterization of single-nucleotide polymorphisms in coding regions of human genes”, Nature Genetics 22, 231 - 238 (1999). 異なる部分は ほんの一部のみ! Mさんのゲノム配列 Tさんのゲノム配列 ゲノム集合に有効なデータ圧縮法 Relative Lempel-Ziv法 (RLZ法)(2 → リファレンス配列との差分を取る戦略 メモリ上でのランダムアクセスをサポート (2) S. Kuruppu et al., “Relative Lempel-Ziv Compression of Genomes for Large-Scale Storage and Retrieval”, SPIRE2010. 関連研究 0 5 10 15 20 25 30 gzip bzip2 ppmdi Re-Pair (CFG) LZMA (LZ77) 出芽酵⺟母菌36個体に 対する圧縮率率率[%] LZ77(窓長制限なし)型や文法(CFG)型の圧縮法が有効 → 共通した長い部分文字列を捕える性質があるため Re-PairやLZMAの問題点 1. 入力サイズに比例したメモリ使用量 2. LZMAについては圧縮時間も問題 ヒトゲノム(約3Gバイト/人)のよう な大規模データには適用困難 (※) http://pizzachili.dcc.uchile.cl/repcorpus/statistics.pdfからの引用 (※) リファレンス配列に対して高速検索可能な索引構造 (Suffix/LCP Array)を付加する リファレンス配列との共通部分(差分)を検索して符号化 (1, 7) (9, 16) 一致長 一致開始位置 ゲノム集合全体をリファレンスとして利用できる 現実的なデータ圧縮は可能か? 圧縮対象ゲノム: 圧縮率はリファレンス配列の選び方に依存する。 入力文字列を一意に導出する文脈自由文法を構成するデータ圧縮法 X1 X1 X1 X3 X3 X2 X4 X5 X6 X1 X1 X1 X3 X3 X1 X7 X5 X8 ゲノム配列A ゲノム配列B 木構造(構文木)表現 木構造表現の 共通ノードを集約 文法(CFG)表現 X1 → X2 → X3 → X4 → X5 → X6 → X7 → X8 → X1 X3 X2 X3 X1 X4 X5 X3 X1 X7 X5 どのように木構造を作るか、どのように文法表現を符号化(バイナリ化) するかで様々な種類の圧縮法が存在する。(Re-Pair, Sequitur等) 圧縮文字列処理 文法圧縮は圧縮データを復元せずに〇〇することに適している。 e.g., パターン検索、特徴的パターンマイニング、q-gram統計計算、 ランダムアクセス/部分文字列復元など。 完全オンライン文法圧縮(Fully-Online Grammar Compression)(3 (3) S. Maruyama, Y. Tabei, H. Sakamoto and K. Sadakane, “Fully-Online Grammar Compression”, SPIRE2013 accepted. - 完全オンライン性 - オンラインで文法変換と符号化を同時 に実行可能な初の文法圧縮 - 低圧縮処理コスト - 共通部分文字列の検索を行わずに 長い共通部分文字列を集約する 性質を持つ - 省メモリスペース - 圧縮データサイズに比例 データが圧縮しやすければしやすいほど、 少ないメモリ領域で動作 - ランダムアクセス機能をサポート - 圧縮処理の途中であっても圧縮済みデータ から任意の部分のみを高速復元可能 次々に生成・追加される冗長データを逐次圧縮しながら高効率で保存する用途に適している。 ユーザー NGS 圧縮ゲノムDB ゲノム配列読み取り アセンブル処理 T T T T X1 → X2 → X3 → X4 → X5 → X1 X2 X3 X1 差分を格納 圧縮処理 圧縮DB(文法)情報を参照 圧縮データサイズ 圧縮処理時間 部分文字列復元時間 考察 - 圧縮サイズ - Real/Simulation共に高圧縮率を達成。 - 圧縮処理時間 - 大規模データについて現実的な時間で圧縮できることを確認。 - zipやbzip2よりも2-3倍ほど遅いが、実装の工夫により改善可能。 - 部分文字列復元時間 - 0.8μ秒/文字と高速。圧縮データと意識せずに扱うことが可能。 - エンジニアリングによる圧縮処理の高速化 - メモリ使用量の改良(固定メモリ動作) - データ圧縮による処理の高速化 - パターン検索 - 類似ゲノム配列計算 - アノテート付きデータの効率の良い保存 (i) Preferred Infrastructure, Inc. (ii) JST 湊離離散構造処理理系プロジェクト 0 50000 100000 150000 200000 250000 300000 020000400006000080000 size (MB) compressedsize(MB) FOLCA bzip2 zip 0 50000 100000 150000 200000 250000 300000 020000400006000080000100000120000140000 size (MB) compressiontime(sec) FOLCA bzip2 zip - Real (7人分、合計 約22Gバイト) - リファレンスゲノム配列7種 - Simulation (100人分、合計 約300Gバイト) - wgsimを利用してシミュレーションゲノムを生成 - オリジナルゲノムはhg19 - シーケンシングエラーは0に設定(違いは変異のみ) Real Simulation Simulation データセット 比較手法 - FOLCA (提案手法) - zip (LZ77型) - bzip2 (BW変換型) 復復元⻑⾧長 FOLCA bzip2 zip 10 8.21E-06 153.69 38.67 100 1.96E-05 153.69 38.67 1000 3.25E-04 153.69 38.67 10000 2.00E-03 153.69 38.67 100000 10.41E-02 153.69 38.67 1000000 0.50 153.69 38.67 10000000 2.18 153.69 38.67 100000000 11.37 153.69 38.67 ※ bzip2, zipは参考として1個体分(3Gバイト)の 復元時間を記載 データ⻑⾧長が短くなった 分だけ⾼高速化 圧縮データ上での処理 データサイズが⼤大きいと 全部⾒見見るだけでも⼤大変 生データ上での処理 5000 10000 15000 20000 010002000300040005000 size (MB) compressedsize(MB) FOLCA bzip2 zip