Enviar búsqueda
Cargar
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
•
7 recomendaciones
•
24,547 vistas
A
Amelieff
Seguir
2014年6月21日に開催した、アメリエフ株式会社・第33回バイオインフォマティクス勉強会の「フリーソフトではじめるがん体細胞変異解析入門」のスライドです。
Leer menos
Leer más
Salud y medicina
Denunciar
Compartir
Denunciar
Compartir
1 de 59
Recomendados
フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
Amelieff
Exome解析入門
Exome解析入門
Amelieff
正準相関分析
正準相関分析
Akisato Kimura
遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx
Osamu Ogasawara
負の二項分布について
負の二項分布について
Hiroshi Shimizu
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題
京都大学大学院情報学研究科数理工学専攻
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
Takahiro Kubo
Recomendados
フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
Amelieff
Exome解析入門
Exome解析入門
Amelieff
正準相関分析
正準相関分析
Akisato Kimura
遺伝研スパコンを使った解析の並列化.pptx
遺伝研スパコンを使った解析の並列化.pptx
Osamu Ogasawara
負の二項分布について
負の二項分布について
Hiroshi Shimizu
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題
京都大学大学院情報学研究科数理工学専攻
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
Takahiro Kubo
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
Kentaro Kanamori
時系列分析による異常検知入門
時系列分析による異常検知入門
Yohei Sato
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
Yu Tamura
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
Yosuke Shinya
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
Deep Learning JP
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
Tadahiro Taniguchi
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"
Yuta Koreeda
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
Masahiro Suzuki
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
RyuichiKanoh
Anova君を使った分散分析
Anova君を使った分散分析
Takashi Yamane
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
Hironobu Isoda
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
Deep Learning JP
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析
Mitsunori Sato
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
Deep Learning JP
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
Kenji Urai
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
Amelieff
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
Genaris Omics, Inc.
Más contenido relacionado
La actualidad más candente
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
Kentaro Kanamori
時系列分析による異常検知入門
時系列分析による異常検知入門
Yohei Sato
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
Yu Tamura
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
Yosuke Shinya
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
Deep Learning JP
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
Tadahiro Taniguchi
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"
Yuta Koreeda
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
Masahiro Suzuki
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
RyuichiKanoh
Anova君を使った分散分析
Anova君を使った分散分析
Takashi Yamane
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
Hironobu Isoda
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
Deep Learning JP
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析
Mitsunori Sato
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
Deep Learning JP
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
Kenji Urai
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
La actualidad más candente
(20)
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
時系列分析による異常検知入門
時系列分析による異常検知入門
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
グラフィカルモデル入門
グラフィカルモデル入門
論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
Anova君を使った分散分析
Anova君を使った分散分析
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Similar a フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
Amelieff
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
Genaris Omics, Inc.
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
pinmarch_t Tada
SNPデータ解析入門
SNPデータ解析入門
Amelieff
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
Amelieff
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
Genaris Omics, Inc.
StatGenSummerSchool2023_GenomeDataAnalysis1.pdf
StatGenSummerSchool2023_GenomeDataAnalysis1.pdf
The University of Tokyo, Osaka University, RIKEN IMS
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
Amelieff
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
Haruka Ozaki
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状
Takeru Nakazato
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
The University of Tokyo, Osaka University, RIKEN IMS
2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習
Jun Nakabayashi
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報
DNA Data Bank of Japan center
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
DNA Data Bank of Japan center
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
弘毅 露崎
36th mtg in NIBIO
36th mtg in NIBIO
Maori Ito
Metabolic network and cheminformatics
Metabolic network and cheminformatics
Mas Kot
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
Itoshi Nikaido
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
Dell TechCenter Japan
Hormon 127.07
Hormon 127.07
NCCHD, Tokyo
Similar a フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
(20)
フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPデータ解析入門
SNPデータ解析入門
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
StatGenSummerSchool2023_GenomeDataAnalysis1.pdf
StatGenSummerSchool2023_GenomeDataAnalysis1.pdf
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
36th mtg in NIBIO
36th mtg in NIBIO
Metabolic network and cheminformatics
Metabolic network and cheminformatics
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
Hormon 127.07
Hormon 127.07
Más de Amelieff
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
Amelieff
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
Amelieff
はじめてのLinux
はじめてのLinux
Amelieff
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
Amelieff
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
Amelieff
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
Amelieff
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
Amelieff
Más de Amelieff
(7)
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
はじめてのLinux
はじめてのLinux
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
1.
フ リ ー
ソ フ ト で は じ め る が ん 体 細 胞 変 異 解 析 入 門
2.
Copyright © Amelieff
Corporation All Rights Reserved. ゲ ノ ム 解 読 量 の 増 大 2 1997年 200 200bp 2000年 60,000 60kbp 2006年 1,000,000 1Mbp 2009年 5,000,000,000 5Gbp 2012年 150,000,000,000 150Gbp ◆1日当たりのゲノム解析量 ◆ヒトゲノム配列決定のコスト 1990-2003年 時間:13年間 費用:3000億円 2012年 時間:27時間 費用:65万円 ※イルミナHiSeq2500
3.
Copyright © Amelieff
Corporation All Rights Reserved. ゲ ノ ム 解 析 プ ロ ジ ェ ク ト 3 ・2008年1月開始の国際研究プロジェクト ・異なる民族からなる1000人分の匿名ゲノムの配列決定 ・一般的な遺伝子多型を探索し、データベース化を目指す 1000 Genomes project http://www.1000genomes.org/ ・英国サンガー研究所が主催 ・1万人のゲノムを超高速シーケンサーでシーケンシング ・まだ見つかっていない希少疾患に関連する遺伝子多型を 網羅的に探し出す計画 ・健常者4000サンプル(Whole genomes) 神経発達疾患3000サンプル(Whole exomes) 肥満関連病2000サンプル(Whole exomes) 希少疾患1000サンプル(Whole exomes) http://www.uk10k.org 50種の異なる癌ゲノムデータ公開を目指す (現時点で7358人分を公開) http://cancergenome.nih.gov/ http://icgc.org/ 現時点で26種、7664人分の癌ゲノムデータを公開 http://cancer.sanger.ac.uk/cancergenome/projects/cosmic/ 24517個の遺伝子に関する somatic mutation のデータを公開
4.
Copyright © Amelieff
Corporation All Rights Reserved. シ ー ケ ン ス 技 術 の 発 展 と 活 用 4 手法の確立 (シーケンス・解析) 基礎研究への応用 臨床研究への応用 トランスレーショナル・リサーチ 新しい原理の 新世代シーケンサが登場 大規模プロジェクト発足 国際がんゲノムコンソーシアム(ICGC) UK10Kプロジェクト オーダーメイド医療実現化プロジェクト ナショナルセンター バイオバンク ネットワークプロジェクト 東北メディカルメガバンクプロジェクト SNV・Small Indel・融合遺伝子検出 新しい技術を活用 家族性疾患などの 多くの関連遺伝子を特定 迅速で正確な 解析方法の確立 データの蓄積 リシーケンス解析 一般的な流れ 用途に合った 技術や製品の開発 クリニカル・シーケンス クリニカル・インフォマティクス
5.
Copyright © Amelieff
Corporation All Rights Reserved. 一 般 的 な N G S に よ る 多 型 検 出 の 流 れ 5 ◆マッピングからSNV/Indel検出 ショートリード リファレンスゲノム
6.
日々、多くのソフトが公開されている Copyright © Amelieff
Corporation All Rights Reserved. 6 体 細 胞 変 異 解 析 ソ フ ト 論文化されたばかりの最新ツールは LinuxというOSで動作するものが多い • VarScan2 • SomaticSniper • Strelka • Mutect • EBCall • Seurat • Cake • JointSNVMix : 同一症例におけるペア検体のマッピング結果を比較し、腫瘍特異的な変異を 検出するソフトウェア
7.
体細胞変異を検出する際に問題となる、 – Germline polymorphism –
腫瘍内多様性による低アリル頻度の変異 – 腫瘍サンプルの純度が低いことによる低アリル頻度の変異 … …などの障害を考慮して体細胞変異を検出する、専用のソフトウェアの 使用が望ましいとされています Copyright © Amelieff Corporation All Rights Reserved. 7 よ く あ る 質 問 ① 正常/腫瘍組織のペアで変異を検出した場合と 個々に検出して比較した場合に、どんな違いがありますか? シーケンスDepthが少ないデー タにも適したソフト • SomaticSniper 腫瘍組織の純度が低いサンプル にも適したソフト • Seurat • Strelka
8.
コピー数多型検出には、コントロールが必要です。 Copyright © Amelieff
Corporation All Rights Reserved. 8 よ く あ る 質 問 ② SNV検出以外に、正常/腫瘍組織のペアのデータが 必要な解析はありますか? • GC含量によるPCRバイアスの補正に、基本的にコントロールが必須 • 複数のコントロールを用いることでより精度を上げるソフトウェアもある • FISHなどと違い、copy number neutralなCNVを検出することはできない
9.
Copyright © Amelieff
Corporation All Rights Reserved. 9 よ く あ る 質 問 ② ソフトウェア 備考 CNV-seq 論文引用数が多い RDXplorer 論文引用数が多い CnD Control-FREEC WGSだとコントロールが不要 CMDS 複数のコントロールによる解析可 CNVnator 論文引用数が多い BIC-seq cn.MOPS VarScan2 論文引用数が多い CoNVEX UK10K Projectで使用されている まだゴールデンスタン ダードと呼べるソフトは ない CNV検出ソフトの例
10.
Copyright © Amelieff
Corporation All Rights Reserved. 10 よ く あ る 質 問 ② Control-FREEC(http://bioinfo-out.curie.fr/projects/freec/) Boeva et al., Control-free calling of copy number alterations in deep-sequencing data using GC- content normalization. Bioinformatics 27 (2):268-9 (2011) • 特徴 – 正常・腫瘍サンプルをペアで入力する – WGSだけでなく、ターゲットシーケンスデータも解析できる – WGSデータなら、腫瘍サンプルのみによる解析も可能 (精度は低い) – 計算が速い loss gain neutral Control-FREECの検出結果を付属スクリプト で描画した例 (Control-FREECマニュアルページ http://bioinfo- out.curie.fr/projects/freec/tutorial.html より)
11.
Copyright © Amelieff
Corporation All Rights Reserved. 11 ご 紹 介 す る 論 文 Frequent mutations of chromatin remodeling genes in transitional cell carcinoma of the bladder Yoshida et al. Nat Genet. 2011 Aug 7;43(9):875-8, PMID: 21822268 • 29人の骨髄異形性症候群(myelodysplastic syndrome; MDS)患者の tumor-normalペアのターゲットreseqで腫瘍特異的な変異の多い遺伝子を 探索した • 複数のサンプルでRNAスプライシングにかかわる新規の遺伝子(SRSF2、 U2AF35、ZRSR2)に変異が認められた • 単一のサンプルでのみRNAスプライシングにかかわる新規の遺伝子(SF3A1、 SF3B1、PRPF40B)に変異が認められた • 29サンプルのうち16サンプルでRNAスプライシングにかかわる遺伝子(6 個)に変異が認められた
12.
Copyright © Amelieff
Corporation All Rights Reserved. 12 解 析 準 備 : シ ー ケ ン ス デ ー タ の 取 得 • 論文で用いられたサンプルのうち、5サンプルを抽出し、体細胞変異検出を 行った RNAスプライシングに関わっている遺伝子に 変異が多発していることを再現する https://trace.ddbj.nig.ac.jp/DRASearch/study?acc=PRJDB1903
13.
Copyright © Amelieff
Corporation All Rights Reserved. 13 解 析 準 備 : シ ー ケ ン ス デ ー タ の 取 得 • Study:DRP000442 • Submission:DRA000433 – Agilent SureSelect Human All Exon 50Mb Kitでキャプチャした exomeシーケンスデータ 5 サンプルのペア Sample ID Pair Sample Acc. Nu. (DRA) MDS-09 tumor DRX000849 normal DRX000850 MDS-12 tumor DRX000855 normal DRX000856 MDS-15 tumor DRX000861 normal DRX000862 MDS-16 tumor DRX000863 normal DRX000864 MDS-21 tumor DRX000873 normal DRX000874
14.
Copyright © Amelieff
Corporation All Rights Reserved. 14 よ く あ る 質 問 ③ • アリル頻度や腫瘍サンプルの純度などにも依存しますが、一般的に100x前 後といわれます データ量のdepthはどれくらい必要ですか? たとえば、今回使用する体細胞変異検出ソフトSomaticSniperでは、腫 瘍サンプルと正常サンプル両者のカバレージが、90xで変異アリル25% 以上、30xでがん変異アリル35%以上の変異を、それぞれ90%以上検出 できると報告されています※。 ※Larson DE, Harris CC, Chen K, Koboldt DC, Abbott TE, Dooling DJ, Ley TJ, Mardis ER, Wilson RK, Ding L. "SomaticSniper: identification of somatic point mutations in whole genome sequencing data." Bioinformatics. 2012 Feb 1;28(3):311-7.
15.
Copyright © Amelieff
Corporation All Rights Reserved. 15 解 析 準 備 : 公 共 デ ー タ の 取 得 • シーケンスデータ(fastqファイル) • Reference genome配列(fastaファイル) – ここでは genome.fa • (WGS以外の場合)ターゲット領域の情報(bedファイル) – ここでは target.bed • 既知のSNPの情報 – ここでは dbsnp135.vcf • 公共データベースのアノテーション情報 1. dbSNP… http://www.ncbi.nlm.nih.gov/SNP/ 2. 1000 Genomes… http://www.1000genomes.org/ 3. HGVB… http://www.genome.med.kyoto-u.ac.jp/SnpDB (Japanese genetic variation consortium, A reference database of genetic variations in Japanese population. in preparation) 4. ESP6500… Exome Variant Server, NHLBI GO Exome Sequencing Project (ESP), Seattle, WA (http://evs.gs.washington.edu/EVS/) [6 (December, 2013) accessed].
16.
Copyright © Amelieff
Corporation All Rights Reserved. 16 解 析 準 備 : ソ フ ト ウ ェ ア • BEDTools(v2.13.3) • FastQC(v0.10.0) • BWA(v0.7.8) • Samtools(v0.1.18) • SomaticSniper(v1.0.3) • GenomeAnalysisTK(v1.6-13) • Picard tools(v1.75) • snpEff(v3.2) – FastX Toolkit – その他のオリジナルスクリプト
17.
Copyright © Amelieff
Corporation All Rights Reserved. 17 解 析 環 境 : L i n u x と は Linuxにはさまざまなディストリビューション(配布形式)がある Debian系・・・Ubuntuなど Red Hat系・・・Red Hat Enterprise Linux(商用)、CentOS(無償)など 見た目やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ 解析サーバにCentOSをお奨めする理由 • 更新方針が保守的で、アップデートが頻発しない • 枯れた技術を使っていて、安定している 弊社販売の 解析サーバで使用
18.
Copyright © Amelieff
Corporation All Rights Reserved. 18 解 析 環 境 : L i n u x と は UNIX互換のサーバー向けOS(オペレーティングシステム) つまり、多人数で同時に利用し、常時稼働していることを想定したコンピューター UNIXは権利問題などで、一般人の手の届かない存在となったため、Linus氏がUNIXを 参考にして、PCで動く独自OSを開発 Linux 大多数の解析ツールを使用することができる 新しいツールが出た時、すぐ自分で試せる 次世代シーケンシンスデータのように、大きなデータは、 Excel等で見る事が難しい 自分の思い通りにデータの可視化や加工ができる バイオインフォマティクスで使用する解析 ツールの多くは、Linux用に作成されている 「Primerを数百個作りたい」「数万個の配列がどの遺伝子に当 たるのか確認したい」という時、同じ作業を何度も繰り返す事は、 難しい 繰り返し作業を自動化する事ができる 大量データの扱い 繰り返し操作の簡易化 解析ツールの問題
19.
Copyright © Amelieff
Corporation All Rights Reserved. 19 解 析 環 境 : 今 回 の 解 析 で 用 い た サ ー バ OS CentOS6.4 64bit CPU Intel Corei7-3930K[3.2GHz/6Core] メモリ 64GB SSD 64GB(OS用) HDD 2TB × 4台 時間がかかる処理については 実行時間を示します
20.
Copyright © Amelieff
Corporation All Rights Reserved. 20 解 析 手 順 : ワ ー ク フ ロ ー ( 1 ) QCleaner BWA Picard GATK FASTQ リードのQC (クオリティコントロール) リファレンスゲノムにマッピング 重複するリードの除去 リアライメント・ リキャリブレーション・ Indel予測 intersectBed BAM ターゲット領域以外を除去 FASTQ BWA QCleaner ファイルフォーマット 公開ソフトウェア アメリエフ開発ソフトウェア VCF Indel Indel検出 GATK
21.
Copyright © Amelieff
Corporation All Rights Reserved. 21 解 析 手 順 : ワ ー ク フ ロ ー ( 2 ) Tumor BAM SomaticSniper Filtering Script snpEff・ snpSift VCF Original Script アミノ酸置換アノテーション・ 公共データベースアノテーション 集計結果 • スコアとDepthによるフィルタ • 10bp以内に他のSNVが2つ以上存在 するSNV • 腫瘍・正常サンプルで検出された Indel周辺のSNV 複数サンプルの結果を集計 Normal BAM 腫瘍データと正常データの 比較・変異検出 VCF Indel
22.
Copyright © Amelieff
Corporation All Rights Reserved. 22 解 析 手 順 : S o m a t i c S n i p e r に よ る 変 異 検 出 Normal サンプル:MDS-15_n Tumor サンプル:MDS-15_t Bayesian comparison 統計的に有意な 体細胞変異検出 1サンプルで、 変異として検出するに は信頼性が疑わしい。
23.
Copyright © Amelieff
Corporation All Rights Reserved. 23 解 析 手 法 の ご 紹 介 • FASTQフォーマット @DRR001288.1 HWUSI-EAS1765_0013_FC:7:1:1219:1259 length=107 AAGCTAAGGGAGCACGGATTCCNCAGNNCTNNNTCNNNNNNNGCNGANGTGGNNCANNGCTT NNNNGACTGTGCCTNNNNNNCCCGTACTTCCNNNNNNNNNNNNNC +DRR001288.1 HWUSI-EAS1765_0013_FC:7:1:1219:1259 length=107 DGEE?GGGDDGDDGGGGBGG########################################## ############################################# @DRR001288.2 HWUSI-EAS1765_0013_FC:7:1:3767:1259 length=107 CCTGTCATTTGCCACAACATGGNTGGNNCTNNNGANNNNNNNGTNTANTGAANNAANNCAGG NNNNGAAAGACAAANNNNNNATGTACTCGTTNNNNNNNNNNNNNC +DRR001288.2 HWUSI-EAS1765_0013_FC:7:1:3767:1259 length=107 GGGGEGHHHHHHHHHHHHHGEC#CC##################################### ############################################# : クオリティコントロール → マッピング→体細胞変異検出→フィルタ 4行で1リード
24.
Copyright © Amelieff
Corporation All Rights Reserved. 24 • データのクオリティを集計して可視化する $ fastqc -o 1_qc -f fastq DRR001288_1.fastq fastqc_report.htmlを、ウェブブラウザで開く 注意 (warning) 問題あり (failure) 問題なし 他のFASTQファイルに対しても実施する 解 析 手 法 の ご 紹 介 クオリティコントロール → マッピング→体細胞変異検出→フィルタ
25.
Copyright © Amelieff
Corporation All Rights Reserved. 25 解 析 手 法 の ご 紹 介 • データのクオリティを集計して可視化する 横軸はリード長、縦軸はquality valueを表す Probability that the base is called wrong Probability that the base is called wrong Accuracy of the base call 10 1 in 10 90% 20 1 in 100 99% 30 1 in 1,000 99.9% 40 1 in 10,000 99.99% 50 1 in 100,000 99.999% ※ Quality Scores クオリティコントロール → マッピング→体細胞変異検出→フィルタ
26.
Copyright © Amelieff
Corporation All Rights Reserved. 26 解 析 手 法 の ご 紹 介 • データのクオリティを集計して可視化する リードにおける位置での各塩基の割合を示す リード単位でのクオリティを示す クオリティコントロール → マッピング→体細胞変異検出→フィルタ
27.
Clean FASTQ Copyright ©
Amelieff Corporation All Rights Reserved. 27 解 析 手 法 の ご 紹 介 • Qcleaner(弊社開発ソフト)でクオリティの低い塩基・リードを除去する クオリティコントロール → マッピング→体細胞変異検出→フィルタ クオリティ20未満が80%以上のリードを除去 クオリティ20未満の末端をトリム 片側のみのリードを除外 配列長が短いリード除去 未知の塩基(N)が多いリード除去 Raw FASTQ Illumina CASAVA filter [Y] を除去 5.5時間
28.
$ fastq_quality_trimmer -t
20 -Q 33 -i 1_qc/ DRR001288_1.fastq -o 1_qc/DRR001288_1.step1.fastq Copyright © Amelieff Corporation All Rights Reserved. 28 解 析 手 法 の ご 紹 介 • クオリティの低い塩基・リードを除去する クオリティコントロール → マッピング→体細胞変異検出→フィルタ ① クオリティ20未満が80%以上のリードを除去 ② クオリティ20未満の末端をトリム この後さらにペアエンドをそろえる処理が必要です。 $ fastq_quality_filter -q 20 -p 80 -Q 33 -i 1_qc/DRR001288_1.step2.fastq -o 1_qc/DRR001288_1.filtered.fastq ※オープンソースの FASTX toolkitで同様の処理を行う場合のコマンド (完全には一致しません)
29.
Copyright © Amelieff
Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 29 $ bwa mem -t 4 -M -R "@RG¥tID:MDS-09_t¥tSM:MDS- 09_t¥tPL:Illumina" genome.fa 1_qc/DRR001288_1.filtered.fastq 1_qc/DRR001288_2.filtered.fastq | samtools view -Sb - -o 2_mapping/MDS-09_n_tmp.bam bwa-0.6より前のバージョンでは、bwa alnとbwa sampeの2ステップが必要だっ たコマンドが、bwa memという1ステップのコマンドで行えるようになった クオリティコントロール → マッピング→体細胞変異検出→フィルタ • マッピングする 4.5時間
30.
Copyright © Amelieff
Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 30 $ samtools sort 2_mapping/MDS-09_n_tmp.bam ¥ 2_mapping/MDS-09_n_sorted クオリティコントロール → マッピング→体細胞変異検出→フィルタ $ java -jar MarkDuplicates.jar I=2_mapping/MDS- 09_n_sorted.bam O=2_mapping/MDS-09_n_sorted_redup.bam ¥ METRICS_FILE=jeter.metrics REMOVE_DUPLICATES=true ¥ ASSUME_SORTED=true VALIDATION_STRINGENCY=SILENT ③ 重複リードの除去 $ samtools index 2_mapping/MDS-09_n_sorted.bam $ samtools index 2_mapping/MDS-09_n_sorted_redup.bam • ファイルを加工する ① BAMファイルのソート ② インデックス作成
31.
Copyright © Amelieff
Corporation All Rights Reserved. 解 析 結 果 31 クオリティコントロール → マッピング→体細胞変異検出→フィルタ Average MDS-09 (normal) Average_depth(x1) 90.64 81.1 Average_depth(x10) 107.89 95.6 Average_depth(x30) 130.62 116.2 Average_depth(x50) 152.19 135.8 Coverage(x1) 94% 95.10% Coverage(x10) 78% 80.10% Coverage(x30) 60% 63.20% Coverage(x50) 48% 50.40% 腫瘍サンプルのdepth を正常サンプルの2倍 ほど厚くシーケンスす ることもある (このデータでは特に 差はない)
32.
Copyright © Amelieff
Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 32 $ java -jar GenomeAnalysisTK.jar -T ¥ RealignerTargetCreator -R genome.fa -I ¥ 3_realignment/MDS-09_n_kary.bam -o 3_realignment/MDS- 09_n.intervals $ java -jar GenomeAnalysisTK.jar -T IndelRealigner -R ¥ genome.fa -I 3_realignment/MDS-09_n_kary.bam ¥ -targetIntervals 3_realignment/MDS-09_n.intervals ¥ -o 3_realignment/MDS-09_n_realigned.bam クオリティコントロール → マッピング→体細胞変異検出→フィルタ • Indel周辺のリードのリアライメント ① リアライメントを行う領域の算出 ② リアライメント 1時間 30分
33.
Copyright © Amelieff
Corporation All Rights Reserved. 解 析 の ポ イ ン ト 33 BWAでは、 1本のリードに複数の変異が含まれる場合に、アライメントスコアの計 算上、SNVやIndelの正確な位置を決めることができない。 このような領域を対象領域として抜き出して、改めて丁寧にアライメントを行う。 これらを考慮したマッピングを行ってくれるNovoalignなどのソフトも開発されて いる。 【補足】 リアライメントとは
34.
Copyright © Amelieff
Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 34 $ java -jar FixMateInformation.jar ¥ I=3_realignment/MDS-09_n_realigned.bam ¥ O=3_realignment/MDS-09_n_realigned_fix.bam ¥ SO=coordinate VALIDATION_STRINGENCY=SILENT クオリティコントロール → マッピング→体細胞変異検出→フィルタ $ samtools index 3_realignment/MDS-09_n_realigned_fix.bam • ペアエンド情報の修正 30分~1時間
35.
Copyright © Amelieff
Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 35 $ java -jar GenomeAnalysisTK.jar -T CountCovariates -R ¥ genome.fa -I 3_realignment/MDS-09_n_realigned_fix.bam ¥ -cov ReadGroupCovariate -cov QualityScoreCovariate ¥ -cov CycleCovariate -cov DinucCovariate ¥ -knownSites:name,VCF dbsnp135.vcf -recalFile ¥ 3_realignment/MDS-09_n_realigned_fix_recal.csv クオリティコントロール → マッピング→体細胞変異検出→フィルタ リカリブレーション:スコアを補正し精度を上げる $ java -jar GenomeAnalysisTK.jar -T TableRecalibration ¥ -R genome.fa -I 3_realignment/MDS-09_n_realigned_fix.bam ¥ --out 3_realignment/MDS-09_n_realigned_fix_recal.bam ¥ -recalFile 3_realignment/MDS-09_n_realigned_fix_recal.csv • リカリブレーション 30分~1時間
36.
Copyright © Amelieff
Corporation All Rights Reserved. 36 解 析 結 果 • ターゲット領域上のマッピング情報の抽出 クオリティコントロール → マッピング→体細胞変異検出→フィルタ $ intersectBed –abam 3_realignment/MDS- 09_n_realigned_fix_recal.bam –b target.bed ¥ > 4_target/MDS-09_n_realigned_fix_recal_target.bam MDS-09 (normal) Targeted bam / Raw bam (%) Read counts File size (GB) 47,629,399/73,505,042 (64.8%) 6.0 / 9.6 (62.5%) 他のサンプルでも同様に、リード数やファイル容量が 約50~60%となった
37.
Copyright © Amelieff
Corporation All Rights Reserved. 37 解 析 の ポ イ ン ト – 二つの領域間で重複している領域を抽出する $ intersectBed –a A.bed –b B.bed > intersect.bed A.bed B.bed intersect.bed 【補足】 intersectBedの機能
38.
Copyright © Amelieff
Corporation All Rights Reserved. 38 解 析 の ポ イ ン ト – 二つの領域間で重複している領域を抽出する target.bed MDS-09_n_realigned_fix_recal.bam MDS-09_n_realigned_fix_recal_target.bam target.bed $ intersectBed –abam MDS-09_n_realigned_fix_recal.bam ¥ –b target.bed > MDS-09_n_realigned_fix_recal_target.bam リードのペアのどちらかが、ターゲット領域上に ある場合はどちらも除外されない 【補足】 intersectBedの機能
39.
Copyright © Amelieff
Corporation All Rights Reserved. 39 解 析 手 法 の ご 紹 介 • SomaticSniperの実行 – 実行コマンドの構文 クオリティコントロール → マッピング→体細胞変異検出→フィルタ $ bam-somaticsniper -J -F vcf -f genome.fa ¥ 4_target/MDS-09_t_tar.bam 4_target/MDS-09_n_tar.bam ¥ 5_somaticsnv/MDS-09.vcf • オプションの説明 -J joint prior mode(同一個体由来の腫瘍・正常組織の解析)に付けるオプション -F 出力ファイルフォーマットの指定 -f マッピングでリファレンスに使ったゲノムファイルの指定 $ bam-somaticsniper [options] -f <genome.fa> <tumor bam> <normal bam> <output file> 30分~1時間
40.
Copyright © Amelieff
Corporation All Rights Reserved. 40 解 析 手 法 の ご 紹 介 • SomaticSniperの出力 クオリティコントロール → マッピング→体細胞変異検出→フィルタ
41.
Copyright © Amelieff
Corporation All Rights Reserved. 41 解 析 手 法 の ご 紹 介 • SomaticSniperの出力 クオリティコントロール → マッピング→体細胞変異検出→フィルタ 情報の種類 項目 詳細 各サンプルの情報 GT ジェノタイプ IGT 単独でcallした場合のジェノタイプ(joint prior modeのとき算出) DP depth DP4 forward readおよびreverse read上のrefおよびaltの塩基のdepth BCOUNT 各塩基の出現カウント GQ ジェノタイプクオリティ JGQ joint prior modeで計算したときのジェノタイプクオリティ VAQ 変異のcallクオリティ BQ 塩基の平均クオリティ MQ 全リードの平均マッピングクオリティ AMQ アリルごとの平均マッピングクオリティ 変異についての情報 SS 変異の分類(0=wildtype, 1=germline, 2=somatic, 3=LOH, 4=unknown) SSC 変異のsomaticらしさ
42.
Copyright © Amelieff
Corporation All Rights Reserved. 42 解 析 手 法 の ご 紹 介 • 変異のクオリティによるフィルタリング – SomaticSniper付属のフィルタでは正常サンプルのクオリティを考慮しない クオリティコントロール → マッピング→体細胞変異検出→フィルタ 付属 アメリエフ tumor minimum mapping quality 40 40 minimum consensus quality 20 20 minimum read depth 10 10 minimum indel score 40 (samtools mpileup) 40 (GATK) normal minimum mapping quality 40 minimum consensus quality 20 minimum read depth 10 minimum indel score 40 (samtools mpileup) 40 (GATK) 変異 somatic score 35 35 minimum SNV quality 20 20 maximum SNVs in 10bp window 2 2
43.
Copyright © Amelieff
Corporation All Rights Reserved. 43 解 析 結 果 • 変異のクオリティによるフィルタリング – フィルタ結果の違い クオリティコントロール → マッピング→体細胞変異検出→フィルタ sample raw Default Amelieff MDS-09 1,433 391 122 MDS-12 2,007 605 195 MDS-15 3,233 1,503 1,026 MDS-16 1,818 591 294 MDS-21 1,534 577 54 偽陽性を減らすために、 信頼性の高い変異を抽出 どちらの結果も、論文で報告された変異を、同数検出することができた
44.
Copyright © Amelieff
Corporation All Rights Reserved. 44 解 析 手 法 の ご 紹 介 • 公共データベースのアノテーション付与(SnpSiftとオリジナルスクリプ ト)とフィルタリング 以下の変異を除外した 1. dbSNP:dbSNP build 131以前に登録されている 2. 1000 Genome:アリル頻度(CAF)5%以上 • CAF:comma delimited list of allele frequencies ; refアリルと altアリルの頻度をコンマ区切りで記載 3. Human Genetic Variation Browser:アリル頻度(ref,/altアリル数 より算出)5%以上 4. ESP6500:アリル頻度(TACから算出) 5%以上 • TAC:Total allele count;各アリルのカウント数 クオリティコントロール → マッピング→体細胞変異検出→フィルタ
45.
Copyright © Amelieff
Corporation All Rights Reserved. 45 解 析 手 法 の ご 紹 介 • 変異のインパクトのアノテーション付与とフィルタ – snpEff • 変異の影響を受ける遺伝子のGene symbolやRefSeq ID、変異に より生じるアミノ酸置換やその影響・インパクトなどをアノテー ションする ① hg19のアノテーションデータのダウンロード ② snpEffアノテーション実行 クオリティコントロール → マッピング→体細胞変異検出→フィルタ # java -jar snpEff.jar download hg19 $ java -jar snpEff.jar eff -i vcf hg19 -o vcf ¥ MDS-09_fil.vcf 1> MDS-09_fil_eff.vcf
46.
Copyright © Amelieff
Corporation All Rights Reserved. 46 解 析 手 法 の ご 紹 介 • 変異のインパクトのアノテーション付与とフィルタ – snpEff クオリティコントロール → マッピング→体細胞変異検出→フィルタ 変異がタンパク質に与える影響がHIGHまたはMODERATEの変異を抽出した #CHROM POS …… INFO …… chr2 198266834 …… EFF=NON_SYNONYMOUS_CODING(MODERATE|MISSENSE|Aaa/Gaa|K 700E|1304|SF3B1||CODING|NM_012433.2|15|1) …… #CHROM POS …… INFO …… chr2 198266834 …… . …… 付与前のVCF 付与後のVCF
47.
Copyright © Amelieff
Corporation All Rights Reserved. 47 Impacts Effect Type Region Note High SPLICE_SITE_ACCEPTOR SPLICE_SITE_ACCEPTOR The variant hits a splice acceptor site (defined as two bases before exon start, except for the first exon). SPLICE_SITE_DONOR SPLICE_SITE_DONOR The variant hits a Splice donor site (defined as two bases after coding exon end, except for the last exon). START_LOST EXON or NONE Variant causes start codon to be mutated into a non- start codon. example: aTg/aGg, M/R EXON_DELETED EXON A deletion removes the whole exon. FRAME_SHIFT EXON Insertion or deletion causes a frame shift (An indel size is not multple of 3). STOP_GAINED EXON Variant causes a STOP codon. example: Cag/Tag, Q/* STOP_LOST EXON Variant causes stop codon to be mutated into a non-stop codon. example: Tga/Cga, */R RARE_AMINO_ACID EXON The variant hits a rare amino acid thus is likely to produce protein loss of function. Moderate NON_SYNONYMOUS_CODING EXON Variant causes a codon that produces a different amino acid. example: Tgg/Cgg, W/R CODON_CHANGE EXON One or many codons are changed. CODON_INSERTION EXON One or many codons are inserted. CODON_CHANGE_PLUS_CODON_INSERTION EXON One codon is changed and one or many codons are inserted. CODON_DELETION EXON One or many codons are deleted. CODON_CHANGE_PLUS_CODON_DELETION EXON One codon is changed and one or more codons are deleted. UTR_5_DELETED UTR_5_PRIME The variant deletes an exon which is in the 5'UTR of the transcript. UTR_3_DELETED UTR_3_PRIME The variant deletes an exon which is in the 3'UTR of the transcript. 【補足】 変異のインパクト(snpEffのアノテーション)
48.
Copyright © Amelieff
Corporation All Rights Reserved. 48 解 析 結 果 • アノテーションによる絞り込み(オリジナルスクリプト) クオリティコントロール → マッピング→体細胞変異検出→フィルタ sample Quality Filteration dbSNP build >131 or absence AF< 5% snpEff HIGH/ MODERATE 1000 Genomes HGVB ESP6500 MDS-09 122 60 58 55 55 7 MDS-12 195 115 114 100 100 29 MDS-15 1,026 808 804 791 791 229 MDS-16 294 249 246 227 227 64 MDS-21 54 41 40 32 32 8
49.
Copyright © Amelieff
Corporation All Rights Reserved. 49 解 析 結 果 • 考察 クオリティコントロール → マッピング→体細胞変異検出→フィルタ 論文で報告されている変異のうち、検出されなかった変異が存在した Sample Gene Position Allele Amino Acid MDS-09 SRSF2 chr17:74732959 C>T P95L TP53 chr17:7577539 C>T R116W MDS-12 U2AF35 chr21:44524480 C>T A26V MDS-15 U2AF35 chr21:44514777 A>C Q157P MDS-15 TET2 chr4:106180785 C>G C1271W MDS-16 ZRSR2 chrX:15841000 G>T E362X TET2 chr4:106156066 C>T Q323X MDS-21 SF3B1 chr2:198266834 A>G K700E
50.
Copyright © Amelieff
Corporation All Rights Reserved. 50 解 析 結 果 : 考 察 ① • 考察 クオリティコントロール → マッピング→体細胞変異検出→フィルタ Sample Gene Position Allele Amino Acid MDS-09 SRSF2 chr17:74732959 C>T P95L TP53 chr17:7577539 C>T R116W MDS-12 U2AF35 chr21:44524480 C>T A26V MDS-15 U2AF35 chr21:44514777 A>C Q157P MDS-15 TET2 chr4:106180785 C>G C1271W MDS-16 ZRSR2 chrX:15841000 G>T E362X TET2 chr4:106156066 C>T Q323X MDS-21 SF3B1 chr2:198266834 A>G K700E Tumor、normalともにdepthやクオリティが十分ではなかった (depth10未満、低クオリティ)
51.
Copyright © Amelieff
Corporation All Rights Reserved. 51 解 析 結 果 : 考 察 ② • 考察 クオリティコントロール → マッピング→体細胞変異検出→フィルタ Sample Gene Position Allele Amino Acid MDS-09 SRSF2 chr17:74732959 C>T P95L TP53 chr17:7577539 C>T R116W MDS-12 U2AF35 chr21:44524480 C>T A26V MDS-15 U2AF35 chr21:44514777 A>C Q157P MDS-15 TET2 chr4:106180785 C>G C1271W MDS-16 ZRSR2 chrX:15841000 G>T E362X TET2 chr4:106156066 C>T Q323X MDS-21 SF3B1 chr2:198266834 A>G K700E Normal A 10%、G 90% (depth 31) Tumor A 62%、G35% (depth 37) 検出できなかった理由の可能性として、SomaticSniperは純度がほぼ100%の正常 サンプルが必要だが、腫瘍由来のアリル混入が影響したということが考えられる
52.
Copyright © Amelieff
Corporation All Rights Reserved. 52 解 析 結 果 • 検出した変異を遺伝子ごとに集計し、236個の遺伝子を得た 各遺伝子上の変異数 0 2 4 6 8 10 12 変 異 数 遺伝子 全サンプルにおいて2個以上変異があった遺伝子 遺伝子ごとの集計
53.
Copyright © Amelieff
Corporation All Rights Reserved. 53 解 析 結 果 • 検出した変異を遺伝子ごとに集計し、236個の遺伝子を得た 変異が検出されたサンプル数の順に並べ替えた時の上位5遺伝子 Genes MDS-09 MDS-12 MDS-15 MDS-16 MDS-21 Sample Counts Variation Counts FAM8A1 0 6 3 2 0 3 11 CHD4 0 0 1 0 1 2 2 PABPC3 0 1 0 0 1 2 2 TET2 0 0 1 1 0 2 2 U2AF1 0 1 1 0 0 2 2 MDSで既知の関連遺伝子 遺伝子ごとの集計
54.
Copyright © Amelieff
Corporation All Rights Reserved. 54 検 出 さ れ た 変 異 の 意 味 づ け • 得られた遺伝子について、DAVID Bioinformatics Resourcesで、生物学的 機能ごとに分類した NIAID によって提供される無償のデータベース。 ここでは、遺伝子リストから、それらの遺伝子に多く含まれる生物学的機能を 調べた。 生物学的機能 Huang Dwet al., Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources. Nature Protoc. 2009;4(1):44-57. Huang DW et al., Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 2009;37(1):1-13. http://david.abcc.ncifcrf.gov/home.jsp
55.
Copyright © Amelieff
Corporation All Rights Reserved. 55 検 出 さ れ た 変 異 の 意 味 づ け • 得られた遺伝子について、DAVID Bioinformatics Resourcesで、生物学的 機能ごとに分類した 生物学的機能 FDR <0.05のTermを、遺伝子Count順に並べ替えた上位5個のTerm Category Term Count P-Value Benjamini FDR UP_SEQ_FEATURE sequence variant 163 1.08E-03 2.97E-01 1.69E+00 SP_PIR_KEYWORDS polymorphism 161 1.65E-04 1.65E-02 2.21E-01 SP_PIR_KEYWORDS alternative splicing 128 3.35E-08 5.06E-06 4.49E-05 SP_PIR_KEYWORDS phosphoprotein 127 8.90E-09 2.69E-06 1.19E-05 UP_SEQ_FEATURE splice variant 127 8.24E-08 4.01E-05 1.30E-04
56.
Copyright © Amelieff
Corporation All Rights Reserved. 56 検 出 さ れ た 変 異 の 意 味 づ け • 得られた遺伝子について、GOEASTでGOアノテーションを行った Gene Ontology (http://omicslab.genetics.ac.cn/GOEAST/index.php)
57.
Copyright © Amelieff
Corporation All Rights Reserved. 57 検 出 さ れ た 変 異 の 意 味 づ け Gene Ontology RNAスプライシングに関するGOがアノテートされた
58.
Copyright © Amelieff
Corporation All Rights Reserved. 58 ま と め • 29人のMDS患者について腫瘍特異的変異の多い遺伝子を探索した論文のう ち、5サンプルについて追試を行った • 体細胞変異検出ソフトSomaticSniperを用いた論文で報告された変異の検 出、および、自社製のパイプラインを用いた偽陽性の除外に成功した • 下記の2つの問題点が明らかになった – シーケンスデータに十分なdepthが無いなど、SNVの信頼性が疑われる 変異については、除外してしまう – 腫瘍細胞の混入によって、正常サンプルの純度が低い場合、検出されな い • 検出された体細胞特異的変異のGO解析の結果、RNAスプライシングに関す るGO termが有意に得られ、RNAスプライシングがMDSのターゲットであ るという論文の報告を支持する結果が得られた
59.
Copyright © Amelieff
Corporation. All Rights Reserved. 59 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク