SlideShare una empresa de Scribd logo
1 de 59
フ リ ー ソ フ ト で は じ め る
が ん 体 細 胞 変 異 解 析 入 門
Copyright © Amelieff Corporation All Rights Reserved.
ゲ ノ ム 解 読 量 の 増 大
2
1997年 200 200bp
2000年 60,000 60kbp
2006年 1,000,000 1Mbp
2009年 5,000,000,000 5Gbp
2012年 150,000,000,000 150Gbp
◆1日当たりのゲノム解析量 ◆ヒトゲノム配列決定のコスト
1990-2003年
時間:13年間 費用:3000億円
2012年
時間:27時間 費用:65万円
※イルミナHiSeq2500
Copyright © Amelieff Corporation All Rights Reserved.
ゲ ノ ム 解 析 プ ロ ジ ェ ク ト
3
・2008年1月開始の国際研究プロジェクト
・異なる民族からなる1000人分の匿名ゲノムの配列決定
・一般的な遺伝子多型を探索し、データベース化を目指す
1000 Genomes project
http://www.1000genomes.org/
・英国サンガー研究所が主催
・1万人のゲノムを超高速シーケンサーでシーケンシング
・まだ見つかっていない希少疾患に関連する遺伝子多型を
網羅的に探し出す計画
・健常者4000サンプル(Whole genomes)
神経発達疾患3000サンプル(Whole exomes)
肥満関連病2000サンプル(Whole exomes)
希少疾患1000サンプル(Whole exomes)
http://www.uk10k.org
50種の異なる癌ゲノムデータ公開を目指す
(現時点で7358人分を公開)
http://cancergenome.nih.gov/
http://icgc.org/
現時点で26種、7664人分の癌ゲノムデータを公開
http://cancer.sanger.ac.uk/cancergenome/projects/cosmic/
24517個の遺伝子に関する somatic
mutation のデータを公開
Copyright © Amelieff Corporation All Rights Reserved.
シ ー ケ ン ス 技 術 の 発 展 と 活 用
4
手法の確立
(シーケンス・解析)
基礎研究への応用 臨床研究への応用
トランスレーショナル・リサーチ
新しい原理の
新世代シーケンサが登場
大規模プロジェクト発足
国際がんゲノムコンソーシアム(ICGC)
UK10Kプロジェクト
オーダーメイド医療実現化プロジェクト
ナショナルセンター バイオバンク ネットワークプロジェクト
東北メディカルメガバンクプロジェクト
SNV・Small Indel・融合遺伝子検出
新しい技術を活用
家族性疾患などの
多くの関連遺伝子を特定
迅速で正確な
解析方法の確立
データの蓄積
リシーケンス解析
一般的な流れ
用途に合った
技術や製品の開発
クリニカル・シーケンス
クリニカル・インフォマティクス
Copyright © Amelieff Corporation All Rights Reserved.
一 般 的 な N G S に よ る 多 型 検 出 の 流 れ
5
◆マッピングからSNV/Indel検出
ショートリード
リファレンスゲノム
日々、多くのソフトが公開されている
Copyright © Amelieff Corporation All Rights Reserved.
6
体 細 胞 変 異 解 析 ソ フ ト
論文化されたばかりの最新ツールは
LinuxというOSで動作するものが多い
• VarScan2
• SomaticSniper
• Strelka
• Mutect
• EBCall
• Seurat
• Cake
• JointSNVMix
:
同一症例におけるペア検体のマッピング結果を比較し、腫瘍特異的な変異を
検出するソフトウェア
体細胞変異を検出する際に問題となる、
– Germline polymorphism
– 腫瘍内多様性による低アリル頻度の変異
– 腫瘍サンプルの純度が低いことによる低アリル頻度の変異
… …などの障害を考慮して体細胞変異を検出する、専用のソフトウェアの
使用が望ましいとされています
Copyright © Amelieff Corporation All Rights Reserved.
7
よ く あ る 質 問 ①
正常/腫瘍組織のペアで変異を検出した場合と
個々に検出して比較した場合に、どんな違いがありますか?
シーケンスDepthが少ないデー
タにも適したソフト
• SomaticSniper
腫瘍組織の純度が低いサンプル
にも適したソフト
• Seurat
• Strelka
コピー数多型検出には、コントロールが必要です。
Copyright © Amelieff Corporation All Rights Reserved.
8
よ く あ る 質 問 ②
SNV検出以外に、正常/腫瘍組織のペアのデータが
必要な解析はありますか?
• GC含量によるPCRバイアスの補正に、基本的にコントロールが必須
• 複数のコントロールを用いることでより精度を上げるソフトウェアもある
• FISHなどと違い、copy number neutralなCNVを検出することはできない
Copyright © Amelieff Corporation All Rights Reserved.
9
よ く あ る 質 問 ②
ソフトウェア 備考
CNV-seq 論文引用数が多い
RDXplorer 論文引用数が多い
CnD
Control-FREEC WGSだとコントロールが不要
CMDS 複数のコントロールによる解析可
CNVnator 論文引用数が多い
BIC-seq
cn.MOPS
VarScan2 論文引用数が多い
CoNVEX UK10K Projectで使用されている
まだゴールデンスタン
ダードと呼べるソフトは
ない
CNV検出ソフトの例
Copyright © Amelieff Corporation All Rights Reserved.
10
よ く あ る 質 問 ②
Control-FREEC(http://bioinfo-out.curie.fr/projects/freec/)
Boeva et al., Control-free calling of copy number alterations in deep-sequencing data using GC-
content normalization. Bioinformatics 27 (2):268-9 (2011)
• 特徴
– 正常・腫瘍サンプルをペアで入力する
– WGSだけでなく、ターゲットシーケンスデータも解析できる
– WGSデータなら、腫瘍サンプルのみによる解析も可能
(精度は低い)
– 計算が速い
loss gain neutral
Control-FREECの検出結果を付属スクリプト
で描画した例
(Control-FREECマニュアルページ
http://bioinfo-
out.curie.fr/projects/freec/tutorial.html
より)
Copyright © Amelieff Corporation All Rights Reserved.
11
ご 紹 介 す る 論 文
Frequent mutations of chromatin remodeling genes in transitional
cell carcinoma of the bladder
Yoshida et al. Nat Genet. 2011 Aug 7;43(9):875-8, PMID: 21822268
• 29人の骨髄異形性症候群(myelodysplastic syndrome; MDS)患者の
tumor-normalペアのターゲットreseqで腫瘍特異的な変異の多い遺伝子を
探索した
• 複数のサンプルでRNAスプライシングにかかわる新規の遺伝子(SRSF2、
U2AF35、ZRSR2)に変異が認められた
• 単一のサンプルでのみRNAスプライシングにかかわる新規の遺伝子(SF3A1、
SF3B1、PRPF40B)に変異が認められた
• 29サンプルのうち16サンプルでRNAスプライシングにかかわる遺伝子(6
個)に変異が認められた
Copyright © Amelieff Corporation All Rights Reserved.
12
解 析 準 備 : シ ー ケ ン ス デ ー タ の 取 得
• 論文で用いられたサンプルのうち、5サンプルを抽出し、体細胞変異検出を
行った
RNAスプライシングに関わっている遺伝子に
変異が多発していることを再現する
https://trace.ddbj.nig.ac.jp/DRASearch/study?acc=PRJDB1903
Copyright © Amelieff Corporation All Rights Reserved.
13
解 析 準 備 : シ ー ケ ン ス デ ー タ の 取 得
• Study:DRP000442
• Submission:DRA000433
– Agilent SureSelect Human All Exon 50Mb Kitでキャプチャした
exomeシーケンスデータ 5 サンプルのペア
Sample ID Pair Sample Acc. Nu. (DRA)
MDS-09
tumor DRX000849
normal DRX000850
MDS-12
tumor DRX000855
normal DRX000856
MDS-15
tumor DRX000861
normal DRX000862
MDS-16
tumor DRX000863
normal DRX000864
MDS-21
tumor DRX000873
normal DRX000874
Copyright © Amelieff Corporation All Rights Reserved.
14
よ く あ る 質 問 ③
• アリル頻度や腫瘍サンプルの純度などにも依存しますが、一般的に100x前
後といわれます
データ量のdepthはどれくらい必要ですか?
たとえば、今回使用する体細胞変異検出ソフトSomaticSniperでは、腫
瘍サンプルと正常サンプル両者のカバレージが、90xで変異アリル25%
以上、30xでがん変異アリル35%以上の変異を、それぞれ90%以上検出
できると報告されています※。
※Larson DE, Harris CC, Chen K, Koboldt DC, Abbott TE, Dooling DJ, Ley TJ, Mardis ER, Wilson RK, Ding L.
"SomaticSniper: identification of somatic point mutations in whole genome sequencing data." Bioinformatics.
2012 Feb 1;28(3):311-7.
Copyright © Amelieff Corporation All Rights Reserved.
15
解 析 準 備 : 公 共 デ ー タ の 取 得
• シーケンスデータ(fastqファイル)
• Reference genome配列(fastaファイル)
– ここでは genome.fa
• (WGS以外の場合)ターゲット領域の情報(bedファイル)
– ここでは target.bed
• 既知のSNPの情報
– ここでは dbsnp135.vcf
• 公共データベースのアノテーション情報
1. dbSNP… http://www.ncbi.nlm.nih.gov/SNP/
2. 1000 Genomes… http://www.1000genomes.org/
3. HGVB… http://www.genome.med.kyoto-u.ac.jp/SnpDB
(Japanese genetic variation consortium, A reference database of genetic
variations in Japanese population. in preparation)
4. ESP6500… Exome Variant Server, NHLBI GO Exome Sequencing Project (ESP),
Seattle, WA
(http://evs.gs.washington.edu/EVS/) [6 (December, 2013) accessed].
Copyright © Amelieff Corporation All Rights Reserved.
16
解 析 準 備 : ソ フ ト ウ ェ ア
• BEDTools(v2.13.3)
• FastQC(v0.10.0)
• BWA(v0.7.8)
• Samtools(v0.1.18)
• SomaticSniper(v1.0.3)
• GenomeAnalysisTK(v1.6-13)
• Picard tools(v1.75)
• snpEff(v3.2)
– FastX Toolkit
– その他のオリジナルスクリプト
Copyright © Amelieff Corporation All Rights Reserved.
17
解 析 環 境 : L i n u x と は
Linuxにはさまざまなディストリビューション(配布形式)がある
Debian系・・・Ubuntuなど
Red Hat系・・・Red Hat Enterprise Linux(商用)、CentOS(無償)など
見た目やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ
解析サーバにCentOSをお奨めする理由
• 更新方針が保守的で、アップデートが頻発しない
• 枯れた技術を使っていて、安定している
弊社販売の
解析サーバで使用
Copyright © Amelieff Corporation All Rights Reserved.
18
解 析 環 境 : L i n u x と は
UNIX互換のサーバー向けOS(オペレーティングシステム)
つまり、多人数で同時に利用し、常時稼働していることを想定したコンピューター
UNIXは権利問題などで、一般人の手の届かない存在となったため、Linus氏がUNIXを
参考にして、PCで動く独自OSを開発
Linux
大多数の解析ツールを使用することができる
新しいツールが出た時、すぐ自分で試せる
次世代シーケンシンスデータのように、大きなデータは、
Excel等で見る事が難しい
自分の思い通りにデータの可視化や加工ができる
バイオインフォマティクスで使用する解析
ツールの多くは、Linux用に作成されている
「Primerを数百個作りたい」「数万個の配列がどの遺伝子に当
たるのか確認したい」という時、同じ作業を何度も繰り返す事は、
難しい
繰り返し作業を自動化する事ができる
大量データの扱い
繰り返し操作の簡易化
解析ツールの問題
Copyright © Amelieff Corporation All Rights Reserved.
19
解 析 環 境 : 今 回 の 解 析 で 用 い た サ ー バ
OS CentOS6.4 64bit
CPU Intel Corei7-3930K[3.2GHz/6Core]
メモリ 64GB
SSD 64GB(OS用)
HDD 2TB × 4台
時間がかかる処理については
実行時間を示します
Copyright © Amelieff Corporation All Rights Reserved.
20
解 析 手 順 : ワ ー ク フ ロ ー ( 1 )
QCleaner
BWA
Picard
GATK
FASTQ
リードのQC
(クオリティコントロール)
リファレンスゲノムにマッピング
重複するリードの除去
リアライメント・
リキャリブレーション・
Indel予測
intersectBed
BAM
ターゲット領域以外を除去
FASTQ
BWA
QCleaner
ファイルフォーマット
公開ソフトウェア
アメリエフ開発ソフトウェア
VCF
Indel Indel検出
GATK
Copyright © Amelieff Corporation All Rights Reserved.
21
解 析 手 順 : ワ ー ク フ ロ ー ( 2 )
Tumor BAM
SomaticSniper
Filtering Script
snpEff・
snpSift
VCF
Original Script
アミノ酸置換アノテーション・
公共データベースアノテーション
集計結果
• スコアとDepthによるフィルタ
• 10bp以内に他のSNVが2つ以上存在
するSNV
• 腫瘍・正常サンプルで検出された
Indel周辺のSNV
複数サンプルの結果を集計
Normal BAM
腫瘍データと正常データの
比較・変異検出
VCF
Indel
Copyright © Amelieff Corporation All Rights Reserved.
22
解 析 手 順 : S o m a t i c S n i p e r に よ る 変 異 検 出
Normal
サンプル:MDS-15_n
Tumor
サンプル:MDS-15_t
Bayesian
comparison
統計的に有意な
体細胞変異検出
1サンプルで、
変異として検出するに
は信頼性が疑わしい。
Copyright © Amelieff Corporation All Rights Reserved.
23
解 析 手 法 の ご 紹 介
• FASTQフォーマット
@DRR001288.1 HWUSI-EAS1765_0013_FC:7:1:1219:1259 length=107
AAGCTAAGGGAGCACGGATTCCNCAGNNCTNNNTCNNNNNNNGCNGANGTGGNNCANNGCTT
NNNNGACTGTGCCTNNNNNNCCCGTACTTCCNNNNNNNNNNNNNC
+DRR001288.1 HWUSI-EAS1765_0013_FC:7:1:1219:1259 length=107
DGEE?GGGDDGDDGGGGBGG##########################################
#############################################
@DRR001288.2 HWUSI-EAS1765_0013_FC:7:1:3767:1259 length=107
CCTGTCATTTGCCACAACATGGNTGGNNCTNNNGANNNNNNNGTNTANTGAANNAANNCAGG
NNNNGAAAGACAAANNNNNNATGTACTCGTTNNNNNNNNNNNNNC
+DRR001288.2 HWUSI-EAS1765_0013_FC:7:1:3767:1259 length=107
GGGGEGHHHHHHHHHHHHHGEC#CC#####################################
############################################# :
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
4行で1リード
Copyright © Amelieff Corporation All Rights Reserved.
24
• データのクオリティを集計して可視化する
$ fastqc -o 1_qc -f fastq DRR001288_1.fastq
fastqc_report.htmlを、ウェブブラウザで開く
注意 (warning)
問題あり (failure)
問題なし
他のFASTQファイルに対しても実施する
解 析 手 法 の ご 紹 介
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
Copyright © Amelieff Corporation All Rights Reserved.
25
解 析 手 法 の ご 紹 介
• データのクオリティを集計して可視化する
横軸はリード長、縦軸はquality valueを表す
Probability that the
base is called wrong
Probability that the
base is called wrong
Accuracy of
the base call
10 1 in 10 90%
20 1 in 100 99%
30 1 in 1,000 99.9%
40 1 in 10,000 99.99%
50 1 in 100,000 99.999%
※ Quality Scores
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
Copyright © Amelieff Corporation All Rights Reserved.
26
解 析 手 法 の ご 紹 介
• データのクオリティを集計して可視化する
リードにおける位置での各塩基の割合を示す リード単位でのクオリティを示す
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
Clean FASTQ
Copyright © Amelieff Corporation All Rights Reserved.
27
解 析 手 法 の ご 紹 介
• Qcleaner(弊社開発ソフト)でクオリティの低い塩基・リードを除去する
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
クオリティ20未満が80%以上のリードを除去
クオリティ20未満の末端をトリム
片側のみのリードを除外
配列長が短いリード除去
未知の塩基(N)が多いリード除去
Raw FASTQ
Illumina CASAVA filter [Y] を除去
5.5時間
$ fastq_quality_trimmer -t 20 -Q 33 -i 1_qc/
DRR001288_1.fastq -o 1_qc/DRR001288_1.step1.fastq
Copyright © Amelieff Corporation All Rights Reserved.
28
解 析 手 法 の ご 紹 介
• クオリティの低い塩基・リードを除去する
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
① クオリティ20未満が80%以上のリードを除去
② クオリティ20未満の末端をトリム
この後さらにペアエンドをそろえる処理が必要です。
$ fastq_quality_filter -q 20 -p 80 -Q 33 -i
1_qc/DRR001288_1.step2.fastq -o
1_qc/DRR001288_1.filtered.fastq
※オープンソースの FASTX toolkitで同様の処理を行う場合のコマンド
(完全には一致しません)
Copyright © Amelieff Corporation All Rights Reserved.
解 析 手 法 の ご 紹 介
29
$ bwa mem -t 4 -M -R "@RG¥tID:MDS-09_t¥tSM:MDS-
09_t¥tPL:Illumina" genome.fa
1_qc/DRR001288_1.filtered.fastq
1_qc/DRR001288_2.filtered.fastq | samtools view -Sb - -o
2_mapping/MDS-09_n_tmp.bam
bwa-0.6より前のバージョンでは、bwa alnとbwa sampeの2ステップが必要だっ
たコマンドが、bwa memという1ステップのコマンドで行えるようになった
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
• マッピングする
4.5時間
Copyright © Amelieff Corporation All Rights Reserved.
解 析 手 法 の ご 紹 介
30
$ samtools sort 2_mapping/MDS-09_n_tmp.bam ¥
2_mapping/MDS-09_n_sorted
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
$ java -jar MarkDuplicates.jar I=2_mapping/MDS-
09_n_sorted.bam O=2_mapping/MDS-09_n_sorted_redup.bam ¥
METRICS_FILE=jeter.metrics REMOVE_DUPLICATES=true ¥
ASSUME_SORTED=true VALIDATION_STRINGENCY=SILENT
③ 重複リードの除去
$ samtools index 2_mapping/MDS-09_n_sorted.bam
$ samtools index 2_mapping/MDS-09_n_sorted_redup.bam
• ファイルを加工する
① BAMファイルのソート
② インデックス作成
Copyright © Amelieff Corporation All Rights Reserved.
解 析 結 果
31
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
Average
MDS-09
(normal)
Average_depth(x1) 90.64 81.1
Average_depth(x10) 107.89 95.6
Average_depth(x30) 130.62 116.2
Average_depth(x50) 152.19 135.8
Coverage(x1) 94% 95.10%
Coverage(x10) 78% 80.10%
Coverage(x30) 60% 63.20%
Coverage(x50) 48% 50.40%
腫瘍サンプルのdepth
を正常サンプルの2倍
ほど厚くシーケンスす
ることもある
(このデータでは特に
差はない)
Copyright © Amelieff Corporation All Rights Reserved.
解 析 手 法 の ご 紹 介
32
$ java -jar GenomeAnalysisTK.jar -T ¥
RealignerTargetCreator -R genome.fa -I ¥
3_realignment/MDS-09_n_kary.bam -o 3_realignment/MDS-
09_n.intervals
$ java -jar GenomeAnalysisTK.jar -T IndelRealigner -R ¥
genome.fa -I 3_realignment/MDS-09_n_kary.bam ¥
-targetIntervals 3_realignment/MDS-09_n.intervals ¥
-o 3_realignment/MDS-09_n_realigned.bam
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
• Indel周辺のリードのリアライメント
① リアライメントを行う領域の算出
② リアライメント
1時間
30分
Copyright © Amelieff Corporation All Rights Reserved.
解 析 の ポ イ ン ト
33
BWAでは、 1本のリードに複数の変異が含まれる場合に、アライメントスコアの計
算上、SNVやIndelの正確な位置を決めることができない。
このような領域を対象領域として抜き出して、改めて丁寧にアライメントを行う。
これらを考慮したマッピングを行ってくれるNovoalignなどのソフトも開発されて
いる。
【補足】 リアライメントとは
Copyright © Amelieff Corporation All Rights Reserved.
解 析 手 法 の ご 紹 介
34
$ java -jar FixMateInformation.jar ¥
I=3_realignment/MDS-09_n_realigned.bam ¥
O=3_realignment/MDS-09_n_realigned_fix.bam ¥
SO=coordinate VALIDATION_STRINGENCY=SILENT
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
$ samtools index 3_realignment/MDS-09_n_realigned_fix.bam
• ペアエンド情報の修正
30分~1時間
Copyright © Amelieff Corporation All Rights Reserved.
解 析 手 法 の ご 紹 介
35
$ java -jar GenomeAnalysisTK.jar -T CountCovariates -R ¥
genome.fa -I 3_realignment/MDS-09_n_realigned_fix.bam ¥
-cov ReadGroupCovariate -cov QualityScoreCovariate ¥
-cov CycleCovariate -cov DinucCovariate ¥
-knownSites:name,VCF dbsnp135.vcf -recalFile ¥
3_realignment/MDS-09_n_realigned_fix_recal.csv
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
リカリブレーション:スコアを補正し精度を上げる
$ java -jar GenomeAnalysisTK.jar -T TableRecalibration ¥
-R genome.fa -I 3_realignment/MDS-09_n_realigned_fix.bam ¥
--out 3_realignment/MDS-09_n_realigned_fix_recal.bam ¥
-recalFile 3_realignment/MDS-09_n_realigned_fix_recal.csv
• リカリブレーション
30分~1時間
Copyright © Amelieff Corporation All Rights Reserved.
36
解 析 結 果
• ターゲット領域上のマッピング情報の抽出
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
$ intersectBed –abam 3_realignment/MDS-
09_n_realigned_fix_recal.bam –b target.bed ¥
> 4_target/MDS-09_n_realigned_fix_recal_target.bam
MDS-09 (normal)
Targeted bam / Raw bam (%)
Read counts File size (GB)
47,629,399/73,505,042 (64.8%) 6.0 / 9.6 (62.5%)
他のサンプルでも同様に、リード数やファイル容量が 約50~60%となった
Copyright © Amelieff Corporation All Rights Reserved.
37
解 析 の ポ イ ン ト
– 二つの領域間で重複している領域を抽出する
$ intersectBed –a A.bed –b B.bed > intersect.bed
A.bed
B.bed
intersect.bed
【補足】 intersectBedの機能
Copyright © Amelieff Corporation All Rights Reserved.
38
解 析 の ポ イ ン ト
– 二つの領域間で重複している領域を抽出する
target.bed
MDS-09_n_realigned_fix_recal.bam MDS-09_n_realigned_fix_recal_target.bam
target.bed
$ intersectBed –abam MDS-09_n_realigned_fix_recal.bam ¥
–b target.bed > MDS-09_n_realigned_fix_recal_target.bam
リードのペアのどちらかが、ターゲット領域上に
ある場合はどちらも除外されない
【補足】 intersectBedの機能
Copyright © Amelieff Corporation All Rights Reserved.
39
解 析 手 法 の ご 紹 介
• SomaticSniperの実行
– 実行コマンドの構文
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
$ bam-somaticsniper -J -F vcf -f genome.fa ¥
4_target/MDS-09_t_tar.bam 4_target/MDS-09_n_tar.bam ¥
5_somaticsnv/MDS-09.vcf
• オプションの説明
-J joint prior mode(同一個体由来の腫瘍・正常組織の解析)に付けるオプション
-F 出力ファイルフォーマットの指定
-f マッピングでリファレンスに使ったゲノムファイルの指定
$ bam-somaticsniper [options] -f <genome.fa> <tumor bam>
<normal bam> <output file>
30分~1時間
Copyright © Amelieff Corporation All Rights Reserved.
40
解 析 手 法 の ご 紹 介
• SomaticSniperの出力
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
Copyright © Amelieff Corporation All Rights Reserved.
41
解 析 手 法 の ご 紹 介
• SomaticSniperの出力
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
情報の種類 項目 詳細
各サンプルの情報
GT ジェノタイプ
IGT 単独でcallした場合のジェノタイプ(joint prior modeのとき算出)
DP depth
DP4 forward readおよびreverse read上のrefおよびaltの塩基のdepth
BCOUNT 各塩基の出現カウント
GQ ジェノタイプクオリティ
JGQ joint prior modeで計算したときのジェノタイプクオリティ
VAQ 変異のcallクオリティ
BQ 塩基の平均クオリティ
MQ 全リードの平均マッピングクオリティ
AMQ アリルごとの平均マッピングクオリティ
変異についての情報
SS 変異の分類(0=wildtype, 1=germline, 2=somatic, 3=LOH, 4=unknown)
SSC 変異のsomaticらしさ
Copyright © Amelieff Corporation All Rights Reserved.
42
解 析 手 法 の ご 紹 介
• 変異のクオリティによるフィルタリング
– SomaticSniper付属のフィルタでは正常サンプルのクオリティを考慮しない
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
付属 アメリエフ
tumor
minimum mapping quality 40 40
minimum consensus quality 20 20
minimum read depth 10 10
minimum indel score
40
(samtools mpileup)
40
(GATK)
normal
minimum mapping quality 40
minimum consensus quality 20
minimum read depth 10
minimum indel score
40
(samtools mpileup)
40
(GATK)
変異
somatic score 35 35
minimum SNV quality 20 20
maximum SNVs in 10bp window 2 2
Copyright © Amelieff Corporation All Rights Reserved.
43
解 析 結 果
• 変異のクオリティによるフィルタリング
– フィルタ結果の違い
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
sample raw Default Amelieff
MDS-09 1,433 391 122
MDS-12 2,007 605 195
MDS-15 3,233 1,503 1,026
MDS-16 1,818 591 294
MDS-21 1,534 577 54
偽陽性を減らすために、
信頼性の高い変異を抽出
どちらの結果も、論文で報告された変異を、同数検出することができた
Copyright © Amelieff Corporation All Rights Reserved.
44
解 析 手 法 の ご 紹 介
• 公共データベースのアノテーション付与(SnpSiftとオリジナルスクリプ
ト)とフィルタリング
以下の変異を除外した
1. dbSNP:dbSNP build 131以前に登録されている
2. 1000 Genome:アリル頻度(CAF)5%以上
• CAF:comma delimited list of allele frequencies ; refアリルと
altアリルの頻度をコンマ区切りで記載
3. Human Genetic Variation Browser:アリル頻度(ref,/altアリル数
より算出)5%以上
4. ESP6500:アリル頻度(TACから算出) 5%以上
• TAC:Total allele count;各アリルのカウント数
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
Copyright © Amelieff Corporation All Rights Reserved.
45
解 析 手 法 の ご 紹 介
• 変異のインパクトのアノテーション付与とフィルタ
– snpEff
• 変異の影響を受ける遺伝子のGene symbolやRefSeq ID、変異に
より生じるアミノ酸置換やその影響・インパクトなどをアノテー
ションする
① hg19のアノテーションデータのダウンロード
② snpEffアノテーション実行
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
# java -jar snpEff.jar download hg19
$ java -jar snpEff.jar eff -i vcf hg19 -o vcf ¥
MDS-09_fil.vcf 1> MDS-09_fil_eff.vcf
Copyright © Amelieff Corporation All Rights Reserved.
46
解 析 手 法 の ご 紹 介
• 変異のインパクトのアノテーション付与とフィルタ
– snpEff
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
変異がタンパク質に与える影響がHIGHまたはMODERATEの変異を抽出した
#CHROM POS …… INFO ……
chr2 198266834 ……
EFF=NON_SYNONYMOUS_CODING(MODERATE|MISSENSE|Aaa/Gaa|K
700E|1304|SF3B1||CODING|NM_012433.2|15|1)
……
#CHROM POS …… INFO ……
chr2 198266834 …… . ……
付与前のVCF
付与後のVCF
Copyright © Amelieff Corporation All Rights Reserved.
47
Impacts Effect Type Region Note
High
SPLICE_SITE_ACCEPTOR SPLICE_SITE_ACCEPTOR
The variant hits a splice acceptor site (defined as two
bases before exon start, except for the first exon).
SPLICE_SITE_DONOR SPLICE_SITE_DONOR
The variant hits a Splice donor site (defined as two bases
after coding exon end, except for the last exon).
START_LOST EXON or NONE
Variant causes start codon to be mutated into a non-
start codon. example: aTg/aGg, M/R
EXON_DELETED EXON A deletion removes the whole exon.
FRAME_SHIFT EXON
Insertion or deletion causes a frame shift (An indel size is
not multple of 3).
STOP_GAINED EXON Variant causes a STOP codon. example: Cag/Tag, Q/*
STOP_LOST EXON
Variant causes stop codon to be mutated into a non-stop
codon. example: Tga/Cga, */R
RARE_AMINO_ACID EXON
The variant hits a rare amino acid thus is likely to
produce protein loss of function.
Moderate
NON_SYNONYMOUS_CODING EXON
Variant causes a codon that produces a different amino
acid. example: Tgg/Cgg, W/R
CODON_CHANGE EXON One or many codons are changed.
CODON_INSERTION EXON One or many codons are inserted.
CODON_CHANGE_PLUS_CODON_INSERTION EXON
One codon is changed and one or many codons are
inserted.
CODON_DELETION EXON One or many codons are deleted.
CODON_CHANGE_PLUS_CODON_DELETION EXON
One codon is changed and one or more codons are
deleted.
UTR_5_DELETED UTR_5_PRIME
The variant deletes an exon which is in the 5'UTR of the
transcript.
UTR_3_DELETED UTR_3_PRIME
The variant deletes an exon which is in the 3'UTR of the
transcript.
【補足】 変異のインパクト(snpEffのアノテーション)
Copyright © Amelieff Corporation All Rights Reserved.
48
解 析 結 果
• アノテーションによる絞り込み(オリジナルスクリプト)
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
sample
Quality
Filteration
dbSNP
build
>131
or
absence
AF< 5%
snpEff
HIGH/
MODERATE
1000
Genomes
HGVB
ESP6500
MDS-09 122 60 58 55 55 7
MDS-12 195 115 114 100 100 29
MDS-15 1,026 808 804 791 791 229
MDS-16 294 249 246 227 227 64
MDS-21 54 41 40 32 32 8
Copyright © Amelieff Corporation All Rights Reserved.
49
解 析 結 果
• 考察
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
論文で報告されている変異のうち、検出されなかった変異が存在した
Sample Gene Position Allele Amino Acid
MDS-09
SRSF2 chr17:74732959 C>T P95L
TP53 chr17:7577539 C>T R116W
MDS-12 U2AF35 chr21:44524480 C>T A26V
MDS-15 U2AF35 chr21:44514777 A>C Q157P
MDS-15 TET2 chr4:106180785 C>G C1271W
MDS-16
ZRSR2 chrX:15841000 G>T E362X
TET2 chr4:106156066 C>T Q323X
MDS-21 SF3B1 chr2:198266834 A>G K700E
Copyright © Amelieff Corporation All Rights Reserved.
50
解 析 結 果 : 考 察 ①
• 考察
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
Sample Gene Position Allele Amino Acid
MDS-09
SRSF2 chr17:74732959 C>T P95L
TP53 chr17:7577539 C>T R116W
MDS-12 U2AF35 chr21:44524480 C>T A26V
MDS-15 U2AF35 chr21:44514777 A>C Q157P
MDS-15 TET2 chr4:106180785 C>G C1271W
MDS-16
ZRSR2 chrX:15841000 G>T E362X
TET2 chr4:106156066 C>T Q323X
MDS-21 SF3B1 chr2:198266834 A>G K700E
Tumor、normalともにdepthやクオリティが十分ではなかった
(depth10未満、低クオリティ)
Copyright © Amelieff Corporation All Rights Reserved.
51
解 析 結 果 : 考 察 ②
• 考察
クオリティコントロール → マッピング→体細胞変異検出→フィルタ
Sample Gene Position Allele Amino Acid
MDS-09
SRSF2 chr17:74732959 C>T P95L
TP53 chr17:7577539 C>T R116W
MDS-12 U2AF35 chr21:44524480 C>T A26V
MDS-15 U2AF35 chr21:44514777 A>C Q157P
MDS-15 TET2 chr4:106180785 C>G C1271W
MDS-16
ZRSR2 chrX:15841000 G>T E362X
TET2 chr4:106156066 C>T Q323X
MDS-21 SF3B1 chr2:198266834 A>G K700E
Normal
A 10%、G 90%
(depth 31)
Tumor
A 62%、G35%
(depth 37)
検出できなかった理由の可能性として、SomaticSniperは純度がほぼ100%の正常
サンプルが必要だが、腫瘍由来のアリル混入が影響したということが考えられる
Copyright © Amelieff Corporation All Rights Reserved.
52
解 析 結 果
• 検出した変異を遺伝子ごとに集計し、236個の遺伝子を得た
各遺伝子上の変異数
0
2
4
6
8
10
12
変
異
数
遺伝子
全サンプルにおいて2個以上変異があった遺伝子
遺伝子ごとの集計
Copyright © Amelieff Corporation All Rights Reserved.
53
解 析 結 果
• 検出した変異を遺伝子ごとに集計し、236個の遺伝子を得た
変異が検出されたサンプル数の順に並べ替えた時の上位5遺伝子
Genes MDS-09 MDS-12 MDS-15 MDS-16 MDS-21
Sample
Counts
Variation
Counts
FAM8A1 0 6 3 2 0 3 11
CHD4 0 0 1 0 1 2 2
PABPC3 0 1 0 0 1 2 2
TET2 0 0 1 1 0 2 2
U2AF1 0 1 1 0 0 2 2
MDSで既知の関連遺伝子
遺伝子ごとの集計
Copyright © Amelieff Corporation All Rights Reserved.
54
検 出 さ れ た 変 異 の 意 味 づ け
• 得られた遺伝子について、DAVID Bioinformatics Resourcesで、生物学的
機能ごとに分類した
NIAID によって提供される無償のデータベース。
ここでは、遺伝子リストから、それらの遺伝子に多く含まれる生物学的機能を
調べた。
生物学的機能
Huang Dwet al., Systematic and integrative analysis of large gene lists using DAVID
Bioinformatics Resources. Nature Protoc. 2009;4(1):44-57.
Huang DW et al., Bioinformatics enrichment tools: paths toward the comprehensive
functional analysis of large gene lists. Nucleic Acids Res. 2009;37(1):1-13.
http://david.abcc.ncifcrf.gov/home.jsp
Copyright © Amelieff Corporation All Rights Reserved.
55
検 出 さ れ た 変 異 の 意 味 づ け
• 得られた遺伝子について、DAVID Bioinformatics Resourcesで、生物学的
機能ごとに分類した
生物学的機能
FDR <0.05のTermを、遺伝子Count順に並べ替えた上位5個のTerm
Category Term Count P-Value Benjamini FDR
UP_SEQ_FEATURE sequence variant 163 1.08E-03 2.97E-01 1.69E+00
SP_PIR_KEYWORDS polymorphism 161 1.65E-04 1.65E-02 2.21E-01
SP_PIR_KEYWORDS alternative splicing 128 3.35E-08 5.06E-06 4.49E-05
SP_PIR_KEYWORDS phosphoprotein 127 8.90E-09 2.69E-06 1.19E-05
UP_SEQ_FEATURE splice variant 127 8.24E-08 4.01E-05 1.30E-04
Copyright © Amelieff Corporation All Rights Reserved.
56
検 出 さ れ た 変 異 の 意 味 づ け
• 得られた遺伝子について、GOEASTでGOアノテーションを行った
Gene Ontology
(http://omicslab.genetics.ac.cn/GOEAST/index.php)
Copyright © Amelieff Corporation All Rights Reserved.
57
検 出 さ れ た 変 異 の 意 味 づ け
Gene Ontology
RNAスプライシングに関するGOがアノテートされた
Copyright © Amelieff Corporation All Rights Reserved.
58
ま と め
• 29人のMDS患者について腫瘍特異的変異の多い遺伝子を探索した論文のう
ち、5サンプルについて追試を行った
• 体細胞変異検出ソフトSomaticSniperを用いた論文で報告された変異の検
出、および、自社製のパイプラインを用いた偽陽性の除外に成功した
• 下記の2つの問題点が明らかになった
– シーケンスデータに十分なdepthが無いなど、SNVの信頼性が疑われる
変異については、除外してしまう
– 腫瘍細胞の混入によって、正常サンプルの純度が低い場合、検出されな
い
• 検出された体細胞特異的変異のGO解析の結果、RNAスプライシングに関す
るGO termが有意に得られ、RNAスプライシングがMDSのターゲットであ
るという論文の報告を支持する結果が得られた
Copyright © Amelieff Corporation. All Rights Reserved.
59
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク

Más contenido relacionado

La actualidad más candente

整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチKentaro Kanamori
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門Yohei Sato
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門Yu Tamura
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争Yosuke Shinya
 
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...Deep Learning JP
 
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い 記号創発ロボティクスの狙い
記号創発ロボティクスの狙い Tadahiro Taniguchi
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"Yuta Koreeda
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
 
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural NetworksMasahiro Suzuki
 
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~RyuichiKanoh
 
Anova君を使った分散分析
Anova君を使った分散分析Anova君を使った分散分析
Anova君を使った分散分析Takashi Yamane
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )Hironobu Isoda
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...Deep Learning JP
 
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析実践で学ぶネットワーク分析
実践で学ぶネットワーク分析Mitsunori Sato
 
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challengesDeep Learning JP
 
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )Kenji Urai
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 

La actualidad más candente (20)

整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
 
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
 
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い 記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"論文紹介 "DARTS: Differentiable Architecture Search"
論文紹介 "DARTS: Differentiable Architecture Search"
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
 
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
 
Anova君を使った分散分析
Anova君を使った分散分析Anova君を使った分散分析
Anova君を使った分散分析
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
 
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析実践で学ぶネットワーク分析
実践で学ぶネットワーク分析
 
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
 
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 

Similar a フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料

フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料Amelieff
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料Genaris Omics, Inc.
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)pinmarch_t Tada
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門Amelieff
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料Amelieff
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料Genaris Omics, Inc.
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析Amelieff
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Haruka Ozaki
 
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状Takeru Nakazato
 
2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習Jun Nakabayashi
 
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報DNA Data Bank of Japan center
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベースDNA Data Bank of Japan center
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
36th mtg in NIBIO
 36th mtg in NIBIO 36th mtg in NIBIO
36th mtg in NIBIOMaori Ito
 
Metabolic network and cheminformatics
Metabolic network and cheminformaticsMetabolic network and cheminformatics
Metabolic network and cheminformaticsMas Kot
 
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-SeqItoshi Nikaido
 
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムイメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムDell TechCenter Japan
 

Similar a フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料 (20)

フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
 
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料フリーソフトではじめるChIP-seq解析_第40回勉強会資料
フリーソフトではじめるChIP-seq解析_第40回勉強会資料
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
 
StatGenSummerSchool2023_GenomeDataAnalysis1.pdf
StatGenSummerSchool2023_GenomeDataAnalysis1.pdfStatGenSummerSchool2023_GenomeDataAnalysis1.pdf
StatGenSummerSchool2023_GenomeDataAnalysis1.pdf
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
 
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状
 
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdfStatGenSummerSchool2023_GenomeDataAnalysis3.pdf
StatGenSummerSchool2023_GenomeDataAnalysis3.pdf
 
2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習2018年度 第4回バイオインフォマティクス実習
2018年度 第4回バイオインフォマティクス実習
 
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報
[DDBJing30] DDBJ と NIG SuperComputer の紹介、大量配列情報
 
[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース[DDBJing30] メタゲノム解析と微生物統合データベース
[DDBJing30] メタゲノム解析と微生物統合データベース
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
36th mtg in NIBIO
 36th mtg in NIBIO 36th mtg in NIBIO
36th mtg in NIBIO
 
Metabolic network and cheminformatics
Metabolic network and cheminformaticsMetabolic network and cheminformatics
Metabolic network and cheminformatics
 
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
0.1 pg の mRNA をシーケンスする高精度なRNA-Seq法: Quartz-Seq
 
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システムイメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
イメージングバイオマーカによる国際的産学連携イメージング ARO 支援システム
 
Hormon 127.07
Hormon 127.07Hormon 127.07
Hormon 127.07
 

Más de Amelieff

フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料Amelieff
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料Amelieff
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinuxAmelieff
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアルAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析Amelieff
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerAmelieff
 

Más de Amelieff (7)

フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
 
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
 

フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料

  • 1. フ リ ー ソ フ ト で は じ め る が ん 体 細 胞 変 異 解 析 入 門
  • 2. Copyright © Amelieff Corporation All Rights Reserved. ゲ ノ ム 解 読 量 の 増 大 2 1997年 200 200bp 2000年 60,000 60kbp 2006年 1,000,000 1Mbp 2009年 5,000,000,000 5Gbp 2012年 150,000,000,000 150Gbp ◆1日当たりのゲノム解析量 ◆ヒトゲノム配列決定のコスト 1990-2003年 時間:13年間 費用:3000億円 2012年 時間:27時間 費用:65万円 ※イルミナHiSeq2500
  • 3. Copyright © Amelieff Corporation All Rights Reserved. ゲ ノ ム 解 析 プ ロ ジ ェ ク ト 3 ・2008年1月開始の国際研究プロジェクト ・異なる民族からなる1000人分の匿名ゲノムの配列決定 ・一般的な遺伝子多型を探索し、データベース化を目指す 1000 Genomes project http://www.1000genomes.org/ ・英国サンガー研究所が主催 ・1万人のゲノムを超高速シーケンサーでシーケンシング ・まだ見つかっていない希少疾患に関連する遺伝子多型を 網羅的に探し出す計画 ・健常者4000サンプル(Whole genomes) 神経発達疾患3000サンプル(Whole exomes) 肥満関連病2000サンプル(Whole exomes) 希少疾患1000サンプル(Whole exomes) http://www.uk10k.org 50種の異なる癌ゲノムデータ公開を目指す (現時点で7358人分を公開) http://cancergenome.nih.gov/ http://icgc.org/ 現時点で26種、7664人分の癌ゲノムデータを公開 http://cancer.sanger.ac.uk/cancergenome/projects/cosmic/ 24517個の遺伝子に関する somatic mutation のデータを公開
  • 4. Copyright © Amelieff Corporation All Rights Reserved. シ ー ケ ン ス 技 術 の 発 展 と 活 用 4 手法の確立 (シーケンス・解析) 基礎研究への応用 臨床研究への応用 トランスレーショナル・リサーチ 新しい原理の 新世代シーケンサが登場 大規模プロジェクト発足 国際がんゲノムコンソーシアム(ICGC) UK10Kプロジェクト オーダーメイド医療実現化プロジェクト ナショナルセンター バイオバンク ネットワークプロジェクト 東北メディカルメガバンクプロジェクト SNV・Small Indel・融合遺伝子検出 新しい技術を活用 家族性疾患などの 多くの関連遺伝子を特定 迅速で正確な 解析方法の確立 データの蓄積 リシーケンス解析 一般的な流れ 用途に合った 技術や製品の開発 クリニカル・シーケンス クリニカル・インフォマティクス
  • 5. Copyright © Amelieff Corporation All Rights Reserved. 一 般 的 な N G S に よ る 多 型 検 出 の 流 れ 5 ◆マッピングからSNV/Indel検出 ショートリード リファレンスゲノム
  • 6. 日々、多くのソフトが公開されている Copyright © Amelieff Corporation All Rights Reserved. 6 体 細 胞 変 異 解 析 ソ フ ト 論文化されたばかりの最新ツールは LinuxというOSで動作するものが多い • VarScan2 • SomaticSniper • Strelka • Mutect • EBCall • Seurat • Cake • JointSNVMix : 同一症例におけるペア検体のマッピング結果を比較し、腫瘍特異的な変異を 検出するソフトウェア
  • 7. 体細胞変異を検出する際に問題となる、 – Germline polymorphism – 腫瘍内多様性による低アリル頻度の変異 – 腫瘍サンプルの純度が低いことによる低アリル頻度の変異 … …などの障害を考慮して体細胞変異を検出する、専用のソフトウェアの 使用が望ましいとされています Copyright © Amelieff Corporation All Rights Reserved. 7 よ く あ る 質 問 ① 正常/腫瘍組織のペアで変異を検出した場合と 個々に検出して比較した場合に、どんな違いがありますか? シーケンスDepthが少ないデー タにも適したソフト • SomaticSniper 腫瘍組織の純度が低いサンプル にも適したソフト • Seurat • Strelka
  • 8. コピー数多型検出には、コントロールが必要です。 Copyright © Amelieff Corporation All Rights Reserved. 8 よ く あ る 質 問 ② SNV検出以外に、正常/腫瘍組織のペアのデータが 必要な解析はありますか? • GC含量によるPCRバイアスの補正に、基本的にコントロールが必須 • 複数のコントロールを用いることでより精度を上げるソフトウェアもある • FISHなどと違い、copy number neutralなCNVを検出することはできない
  • 9. Copyright © Amelieff Corporation All Rights Reserved. 9 よ く あ る 質 問 ② ソフトウェア 備考 CNV-seq 論文引用数が多い RDXplorer 論文引用数が多い CnD Control-FREEC WGSだとコントロールが不要 CMDS 複数のコントロールによる解析可 CNVnator 論文引用数が多い BIC-seq cn.MOPS VarScan2 論文引用数が多い CoNVEX UK10K Projectで使用されている まだゴールデンスタン ダードと呼べるソフトは ない CNV検出ソフトの例
  • 10. Copyright © Amelieff Corporation All Rights Reserved. 10 よ く あ る 質 問 ② Control-FREEC(http://bioinfo-out.curie.fr/projects/freec/) Boeva et al., Control-free calling of copy number alterations in deep-sequencing data using GC- content normalization. Bioinformatics 27 (2):268-9 (2011) • 特徴 – 正常・腫瘍サンプルをペアで入力する – WGSだけでなく、ターゲットシーケンスデータも解析できる – WGSデータなら、腫瘍サンプルのみによる解析も可能 (精度は低い) – 計算が速い loss gain neutral Control-FREECの検出結果を付属スクリプト で描画した例 (Control-FREECマニュアルページ http://bioinfo- out.curie.fr/projects/freec/tutorial.html より)
  • 11. Copyright © Amelieff Corporation All Rights Reserved. 11 ご 紹 介 す る 論 文 Frequent mutations of chromatin remodeling genes in transitional cell carcinoma of the bladder Yoshida et al. Nat Genet. 2011 Aug 7;43(9):875-8, PMID: 21822268 • 29人の骨髄異形性症候群(myelodysplastic syndrome; MDS)患者の tumor-normalペアのターゲットreseqで腫瘍特異的な変異の多い遺伝子を 探索した • 複数のサンプルでRNAスプライシングにかかわる新規の遺伝子(SRSF2、 U2AF35、ZRSR2)に変異が認められた • 単一のサンプルでのみRNAスプライシングにかかわる新規の遺伝子(SF3A1、 SF3B1、PRPF40B)に変異が認められた • 29サンプルのうち16サンプルでRNAスプライシングにかかわる遺伝子(6 個)に変異が認められた
  • 12. Copyright © Amelieff Corporation All Rights Reserved. 12 解 析 準 備 : シ ー ケ ン ス デ ー タ の 取 得 • 論文で用いられたサンプルのうち、5サンプルを抽出し、体細胞変異検出を 行った RNAスプライシングに関わっている遺伝子に 変異が多発していることを再現する https://trace.ddbj.nig.ac.jp/DRASearch/study?acc=PRJDB1903
  • 13. Copyright © Amelieff Corporation All Rights Reserved. 13 解 析 準 備 : シ ー ケ ン ス デ ー タ の 取 得 • Study:DRP000442 • Submission:DRA000433 – Agilent SureSelect Human All Exon 50Mb Kitでキャプチャした exomeシーケンスデータ 5 サンプルのペア Sample ID Pair Sample Acc. Nu. (DRA) MDS-09 tumor DRX000849 normal DRX000850 MDS-12 tumor DRX000855 normal DRX000856 MDS-15 tumor DRX000861 normal DRX000862 MDS-16 tumor DRX000863 normal DRX000864 MDS-21 tumor DRX000873 normal DRX000874
  • 14. Copyright © Amelieff Corporation All Rights Reserved. 14 よ く あ る 質 問 ③ • アリル頻度や腫瘍サンプルの純度などにも依存しますが、一般的に100x前 後といわれます データ量のdepthはどれくらい必要ですか? たとえば、今回使用する体細胞変異検出ソフトSomaticSniperでは、腫 瘍サンプルと正常サンプル両者のカバレージが、90xで変異アリル25% 以上、30xでがん変異アリル35%以上の変異を、それぞれ90%以上検出 できると報告されています※。 ※Larson DE, Harris CC, Chen K, Koboldt DC, Abbott TE, Dooling DJ, Ley TJ, Mardis ER, Wilson RK, Ding L. "SomaticSniper: identification of somatic point mutations in whole genome sequencing data." Bioinformatics. 2012 Feb 1;28(3):311-7.
  • 15. Copyright © Amelieff Corporation All Rights Reserved. 15 解 析 準 備 : 公 共 デ ー タ の 取 得 • シーケンスデータ(fastqファイル) • Reference genome配列(fastaファイル) – ここでは genome.fa • (WGS以外の場合)ターゲット領域の情報(bedファイル) – ここでは target.bed • 既知のSNPの情報 – ここでは dbsnp135.vcf • 公共データベースのアノテーション情報 1. dbSNP… http://www.ncbi.nlm.nih.gov/SNP/ 2. 1000 Genomes… http://www.1000genomes.org/ 3. HGVB… http://www.genome.med.kyoto-u.ac.jp/SnpDB (Japanese genetic variation consortium, A reference database of genetic variations in Japanese population. in preparation) 4. ESP6500… Exome Variant Server, NHLBI GO Exome Sequencing Project (ESP), Seattle, WA (http://evs.gs.washington.edu/EVS/) [6 (December, 2013) accessed].
  • 16. Copyright © Amelieff Corporation All Rights Reserved. 16 解 析 準 備 : ソ フ ト ウ ェ ア • BEDTools(v2.13.3) • FastQC(v0.10.0) • BWA(v0.7.8) • Samtools(v0.1.18) • SomaticSniper(v1.0.3) • GenomeAnalysisTK(v1.6-13) • Picard tools(v1.75) • snpEff(v3.2) – FastX Toolkit – その他のオリジナルスクリプト
  • 17. Copyright © Amelieff Corporation All Rights Reserved. 17 解 析 環 境 : L i n u x と は Linuxにはさまざまなディストリビューション(配布形式)がある Debian系・・・Ubuntuなど Red Hat系・・・Red Hat Enterprise Linux(商用)、CentOS(無償)など 見た目やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ 解析サーバにCentOSをお奨めする理由 • 更新方針が保守的で、アップデートが頻発しない • 枯れた技術を使っていて、安定している 弊社販売の 解析サーバで使用
  • 18. Copyright © Amelieff Corporation All Rights Reserved. 18 解 析 環 境 : L i n u x と は UNIX互換のサーバー向けOS(オペレーティングシステム) つまり、多人数で同時に利用し、常時稼働していることを想定したコンピューター UNIXは権利問題などで、一般人の手の届かない存在となったため、Linus氏がUNIXを 参考にして、PCで動く独自OSを開発 Linux 大多数の解析ツールを使用することができる 新しいツールが出た時、すぐ自分で試せる 次世代シーケンシンスデータのように、大きなデータは、 Excel等で見る事が難しい 自分の思い通りにデータの可視化や加工ができる バイオインフォマティクスで使用する解析 ツールの多くは、Linux用に作成されている 「Primerを数百個作りたい」「数万個の配列がどの遺伝子に当 たるのか確認したい」という時、同じ作業を何度も繰り返す事は、 難しい 繰り返し作業を自動化する事ができる 大量データの扱い 繰り返し操作の簡易化 解析ツールの問題
  • 19. Copyright © Amelieff Corporation All Rights Reserved. 19 解 析 環 境 : 今 回 の 解 析 で 用 い た サ ー バ OS CentOS6.4 64bit CPU Intel Corei7-3930K[3.2GHz/6Core] メモリ 64GB SSD 64GB(OS用) HDD 2TB × 4台 時間がかかる処理については 実行時間を示します
  • 20. Copyright © Amelieff Corporation All Rights Reserved. 20 解 析 手 順 : ワ ー ク フ ロ ー ( 1 ) QCleaner BWA Picard GATK FASTQ リードのQC (クオリティコントロール) リファレンスゲノムにマッピング 重複するリードの除去 リアライメント・ リキャリブレーション・ Indel予測 intersectBed BAM ターゲット領域以外を除去 FASTQ BWA QCleaner ファイルフォーマット 公開ソフトウェア アメリエフ開発ソフトウェア VCF Indel Indel検出 GATK
  • 21. Copyright © Amelieff Corporation All Rights Reserved. 21 解 析 手 順 : ワ ー ク フ ロ ー ( 2 ) Tumor BAM SomaticSniper Filtering Script snpEff・ snpSift VCF Original Script アミノ酸置換アノテーション・ 公共データベースアノテーション 集計結果 • スコアとDepthによるフィルタ • 10bp以内に他のSNVが2つ以上存在 するSNV • 腫瘍・正常サンプルで検出された Indel周辺のSNV 複数サンプルの結果を集計 Normal BAM 腫瘍データと正常データの 比較・変異検出 VCF Indel
  • 22. Copyright © Amelieff Corporation All Rights Reserved. 22 解 析 手 順 : S o m a t i c S n i p e r に よ る 変 異 検 出 Normal サンプル:MDS-15_n Tumor サンプル:MDS-15_t Bayesian comparison 統計的に有意な 体細胞変異検出 1サンプルで、 変異として検出するに は信頼性が疑わしい。
  • 23. Copyright © Amelieff Corporation All Rights Reserved. 23 解 析 手 法 の ご 紹 介 • FASTQフォーマット @DRR001288.1 HWUSI-EAS1765_0013_FC:7:1:1219:1259 length=107 AAGCTAAGGGAGCACGGATTCCNCAGNNCTNNNTCNNNNNNNGCNGANGTGGNNCANNGCTT NNNNGACTGTGCCTNNNNNNCCCGTACTTCCNNNNNNNNNNNNNC +DRR001288.1 HWUSI-EAS1765_0013_FC:7:1:1219:1259 length=107 DGEE?GGGDDGDDGGGGBGG########################################## ############################################# @DRR001288.2 HWUSI-EAS1765_0013_FC:7:1:3767:1259 length=107 CCTGTCATTTGCCACAACATGGNTGGNNCTNNNGANNNNNNNGTNTANTGAANNAANNCAGG NNNNGAAAGACAAANNNNNNATGTACTCGTTNNNNNNNNNNNNNC +DRR001288.2 HWUSI-EAS1765_0013_FC:7:1:3767:1259 length=107 GGGGEGHHHHHHHHHHHHHGEC#CC##################################### ############################################# : クオリティコントロール → マッピング→体細胞変異検出→フィルタ 4行で1リード
  • 24. Copyright © Amelieff Corporation All Rights Reserved. 24 • データのクオリティを集計して可視化する $ fastqc -o 1_qc -f fastq DRR001288_1.fastq fastqc_report.htmlを、ウェブブラウザで開く 注意 (warning) 問題あり (failure) 問題なし 他のFASTQファイルに対しても実施する 解 析 手 法 の ご 紹 介 クオリティコントロール → マッピング→体細胞変異検出→フィルタ
  • 25. Copyright © Amelieff Corporation All Rights Reserved. 25 解 析 手 法 の ご 紹 介 • データのクオリティを集計して可視化する 横軸はリード長、縦軸はquality valueを表す Probability that the base is called wrong Probability that the base is called wrong Accuracy of the base call 10 1 in 10 90% 20 1 in 100 99% 30 1 in 1,000 99.9% 40 1 in 10,000 99.99% 50 1 in 100,000 99.999% ※ Quality Scores クオリティコントロール → マッピング→体細胞変異検出→フィルタ
  • 26. Copyright © Amelieff Corporation All Rights Reserved. 26 解 析 手 法 の ご 紹 介 • データのクオリティを集計して可視化する リードにおける位置での各塩基の割合を示す リード単位でのクオリティを示す クオリティコントロール → マッピング→体細胞変異検出→フィルタ
  • 27. Clean FASTQ Copyright © Amelieff Corporation All Rights Reserved. 27 解 析 手 法 の ご 紹 介 • Qcleaner(弊社開発ソフト)でクオリティの低い塩基・リードを除去する クオリティコントロール → マッピング→体細胞変異検出→フィルタ クオリティ20未満が80%以上のリードを除去 クオリティ20未満の末端をトリム 片側のみのリードを除外 配列長が短いリード除去 未知の塩基(N)が多いリード除去 Raw FASTQ Illumina CASAVA filter [Y] を除去 5.5時間
  • 28. $ fastq_quality_trimmer -t 20 -Q 33 -i 1_qc/ DRR001288_1.fastq -o 1_qc/DRR001288_1.step1.fastq Copyright © Amelieff Corporation All Rights Reserved. 28 解 析 手 法 の ご 紹 介 • クオリティの低い塩基・リードを除去する クオリティコントロール → マッピング→体細胞変異検出→フィルタ ① クオリティ20未満が80%以上のリードを除去 ② クオリティ20未満の末端をトリム この後さらにペアエンドをそろえる処理が必要です。 $ fastq_quality_filter -q 20 -p 80 -Q 33 -i 1_qc/DRR001288_1.step2.fastq -o 1_qc/DRR001288_1.filtered.fastq ※オープンソースの FASTX toolkitで同様の処理を行う場合のコマンド (完全には一致しません)
  • 29. Copyright © Amelieff Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 29 $ bwa mem -t 4 -M -R "@RG¥tID:MDS-09_t¥tSM:MDS- 09_t¥tPL:Illumina" genome.fa 1_qc/DRR001288_1.filtered.fastq 1_qc/DRR001288_2.filtered.fastq | samtools view -Sb - -o 2_mapping/MDS-09_n_tmp.bam bwa-0.6より前のバージョンでは、bwa alnとbwa sampeの2ステップが必要だっ たコマンドが、bwa memという1ステップのコマンドで行えるようになった クオリティコントロール → マッピング→体細胞変異検出→フィルタ • マッピングする 4.5時間
  • 30. Copyright © Amelieff Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 30 $ samtools sort 2_mapping/MDS-09_n_tmp.bam ¥ 2_mapping/MDS-09_n_sorted クオリティコントロール → マッピング→体細胞変異検出→フィルタ $ java -jar MarkDuplicates.jar I=2_mapping/MDS- 09_n_sorted.bam O=2_mapping/MDS-09_n_sorted_redup.bam ¥ METRICS_FILE=jeter.metrics REMOVE_DUPLICATES=true ¥ ASSUME_SORTED=true VALIDATION_STRINGENCY=SILENT ③ 重複リードの除去 $ samtools index 2_mapping/MDS-09_n_sorted.bam $ samtools index 2_mapping/MDS-09_n_sorted_redup.bam • ファイルを加工する ① BAMファイルのソート ② インデックス作成
  • 31. Copyright © Amelieff Corporation All Rights Reserved. 解 析 結 果 31 クオリティコントロール → マッピング→体細胞変異検出→フィルタ Average MDS-09 (normal) Average_depth(x1) 90.64 81.1 Average_depth(x10) 107.89 95.6 Average_depth(x30) 130.62 116.2 Average_depth(x50) 152.19 135.8 Coverage(x1) 94% 95.10% Coverage(x10) 78% 80.10% Coverage(x30) 60% 63.20% Coverage(x50) 48% 50.40% 腫瘍サンプルのdepth を正常サンプルの2倍 ほど厚くシーケンスす ることもある (このデータでは特に 差はない)
  • 32. Copyright © Amelieff Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 32 $ java -jar GenomeAnalysisTK.jar -T ¥ RealignerTargetCreator -R genome.fa -I ¥ 3_realignment/MDS-09_n_kary.bam -o 3_realignment/MDS- 09_n.intervals $ java -jar GenomeAnalysisTK.jar -T IndelRealigner -R ¥ genome.fa -I 3_realignment/MDS-09_n_kary.bam ¥ -targetIntervals 3_realignment/MDS-09_n.intervals ¥ -o 3_realignment/MDS-09_n_realigned.bam クオリティコントロール → マッピング→体細胞変異検出→フィルタ • Indel周辺のリードのリアライメント ① リアライメントを行う領域の算出 ② リアライメント 1時間 30分
  • 33. Copyright © Amelieff Corporation All Rights Reserved. 解 析 の ポ イ ン ト 33 BWAでは、 1本のリードに複数の変異が含まれる場合に、アライメントスコアの計 算上、SNVやIndelの正確な位置を決めることができない。 このような領域を対象領域として抜き出して、改めて丁寧にアライメントを行う。 これらを考慮したマッピングを行ってくれるNovoalignなどのソフトも開発されて いる。 【補足】 リアライメントとは
  • 34. Copyright © Amelieff Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 34 $ java -jar FixMateInformation.jar ¥ I=3_realignment/MDS-09_n_realigned.bam ¥ O=3_realignment/MDS-09_n_realigned_fix.bam ¥ SO=coordinate VALIDATION_STRINGENCY=SILENT クオリティコントロール → マッピング→体細胞変異検出→フィルタ $ samtools index 3_realignment/MDS-09_n_realigned_fix.bam • ペアエンド情報の修正 30分~1時間
  • 35. Copyright © Amelieff Corporation All Rights Reserved. 解 析 手 法 の ご 紹 介 35 $ java -jar GenomeAnalysisTK.jar -T CountCovariates -R ¥ genome.fa -I 3_realignment/MDS-09_n_realigned_fix.bam ¥ -cov ReadGroupCovariate -cov QualityScoreCovariate ¥ -cov CycleCovariate -cov DinucCovariate ¥ -knownSites:name,VCF dbsnp135.vcf -recalFile ¥ 3_realignment/MDS-09_n_realigned_fix_recal.csv クオリティコントロール → マッピング→体細胞変異検出→フィルタ リカリブレーション:スコアを補正し精度を上げる $ java -jar GenomeAnalysisTK.jar -T TableRecalibration ¥ -R genome.fa -I 3_realignment/MDS-09_n_realigned_fix.bam ¥ --out 3_realignment/MDS-09_n_realigned_fix_recal.bam ¥ -recalFile 3_realignment/MDS-09_n_realigned_fix_recal.csv • リカリブレーション 30分~1時間
  • 36. Copyright © Amelieff Corporation All Rights Reserved. 36 解 析 結 果 • ターゲット領域上のマッピング情報の抽出 クオリティコントロール → マッピング→体細胞変異検出→フィルタ $ intersectBed –abam 3_realignment/MDS- 09_n_realigned_fix_recal.bam –b target.bed ¥ > 4_target/MDS-09_n_realigned_fix_recal_target.bam MDS-09 (normal) Targeted bam / Raw bam (%) Read counts File size (GB) 47,629,399/73,505,042 (64.8%) 6.0 / 9.6 (62.5%) 他のサンプルでも同様に、リード数やファイル容量が 約50~60%となった
  • 37. Copyright © Amelieff Corporation All Rights Reserved. 37 解 析 の ポ イ ン ト – 二つの領域間で重複している領域を抽出する $ intersectBed –a A.bed –b B.bed > intersect.bed A.bed B.bed intersect.bed 【補足】 intersectBedの機能
  • 38. Copyright © Amelieff Corporation All Rights Reserved. 38 解 析 の ポ イ ン ト – 二つの領域間で重複している領域を抽出する target.bed MDS-09_n_realigned_fix_recal.bam MDS-09_n_realigned_fix_recal_target.bam target.bed $ intersectBed –abam MDS-09_n_realigned_fix_recal.bam ¥ –b target.bed > MDS-09_n_realigned_fix_recal_target.bam リードのペアのどちらかが、ターゲット領域上に ある場合はどちらも除外されない 【補足】 intersectBedの機能
  • 39. Copyright © Amelieff Corporation All Rights Reserved. 39 解 析 手 法 の ご 紹 介 • SomaticSniperの実行 – 実行コマンドの構文 クオリティコントロール → マッピング→体細胞変異検出→フィルタ $ bam-somaticsniper -J -F vcf -f genome.fa ¥ 4_target/MDS-09_t_tar.bam 4_target/MDS-09_n_tar.bam ¥ 5_somaticsnv/MDS-09.vcf • オプションの説明 -J joint prior mode(同一個体由来の腫瘍・正常組織の解析)に付けるオプション -F 出力ファイルフォーマットの指定 -f マッピングでリファレンスに使ったゲノムファイルの指定 $ bam-somaticsniper [options] -f <genome.fa> <tumor bam> <normal bam> <output file> 30分~1時間
  • 40. Copyright © Amelieff Corporation All Rights Reserved. 40 解 析 手 法 の ご 紹 介 • SomaticSniperの出力 クオリティコントロール → マッピング→体細胞変異検出→フィルタ
  • 41. Copyright © Amelieff Corporation All Rights Reserved. 41 解 析 手 法 の ご 紹 介 • SomaticSniperの出力 クオリティコントロール → マッピング→体細胞変異検出→フィルタ 情報の種類 項目 詳細 各サンプルの情報 GT ジェノタイプ IGT 単独でcallした場合のジェノタイプ(joint prior modeのとき算出) DP depth DP4 forward readおよびreverse read上のrefおよびaltの塩基のdepth BCOUNT 各塩基の出現カウント GQ ジェノタイプクオリティ JGQ joint prior modeで計算したときのジェノタイプクオリティ VAQ 変異のcallクオリティ BQ 塩基の平均クオリティ MQ 全リードの平均マッピングクオリティ AMQ アリルごとの平均マッピングクオリティ 変異についての情報 SS 変異の分類(0=wildtype, 1=germline, 2=somatic, 3=LOH, 4=unknown) SSC 変異のsomaticらしさ
  • 42. Copyright © Amelieff Corporation All Rights Reserved. 42 解 析 手 法 の ご 紹 介 • 変異のクオリティによるフィルタリング – SomaticSniper付属のフィルタでは正常サンプルのクオリティを考慮しない クオリティコントロール → マッピング→体細胞変異検出→フィルタ 付属 アメリエフ tumor minimum mapping quality 40 40 minimum consensus quality 20 20 minimum read depth 10 10 minimum indel score 40 (samtools mpileup) 40 (GATK) normal minimum mapping quality 40 minimum consensus quality 20 minimum read depth 10 minimum indel score 40 (samtools mpileup) 40 (GATK) 変異 somatic score 35 35 minimum SNV quality 20 20 maximum SNVs in 10bp window 2 2
  • 43. Copyright © Amelieff Corporation All Rights Reserved. 43 解 析 結 果 • 変異のクオリティによるフィルタリング – フィルタ結果の違い クオリティコントロール → マッピング→体細胞変異検出→フィルタ sample raw Default Amelieff MDS-09 1,433 391 122 MDS-12 2,007 605 195 MDS-15 3,233 1,503 1,026 MDS-16 1,818 591 294 MDS-21 1,534 577 54 偽陽性を減らすために、 信頼性の高い変異を抽出 どちらの結果も、論文で報告された変異を、同数検出することができた
  • 44. Copyright © Amelieff Corporation All Rights Reserved. 44 解 析 手 法 の ご 紹 介 • 公共データベースのアノテーション付与(SnpSiftとオリジナルスクリプ ト)とフィルタリング 以下の変異を除外した 1. dbSNP:dbSNP build 131以前に登録されている 2. 1000 Genome:アリル頻度(CAF)5%以上 • CAF:comma delimited list of allele frequencies ; refアリルと altアリルの頻度をコンマ区切りで記載 3. Human Genetic Variation Browser:アリル頻度(ref,/altアリル数 より算出)5%以上 4. ESP6500:アリル頻度(TACから算出) 5%以上 • TAC:Total allele count;各アリルのカウント数 クオリティコントロール → マッピング→体細胞変異検出→フィルタ
  • 45. Copyright © Amelieff Corporation All Rights Reserved. 45 解 析 手 法 の ご 紹 介 • 変異のインパクトのアノテーション付与とフィルタ – snpEff • 変異の影響を受ける遺伝子のGene symbolやRefSeq ID、変異に より生じるアミノ酸置換やその影響・インパクトなどをアノテー ションする ① hg19のアノテーションデータのダウンロード ② snpEffアノテーション実行 クオリティコントロール → マッピング→体細胞変異検出→フィルタ # java -jar snpEff.jar download hg19 $ java -jar snpEff.jar eff -i vcf hg19 -o vcf ¥ MDS-09_fil.vcf 1> MDS-09_fil_eff.vcf
  • 46. Copyright © Amelieff Corporation All Rights Reserved. 46 解 析 手 法 の ご 紹 介 • 変異のインパクトのアノテーション付与とフィルタ – snpEff クオリティコントロール → マッピング→体細胞変異検出→フィルタ 変異がタンパク質に与える影響がHIGHまたはMODERATEの変異を抽出した #CHROM POS …… INFO …… chr2 198266834 …… EFF=NON_SYNONYMOUS_CODING(MODERATE|MISSENSE|Aaa/Gaa|K 700E|1304|SF3B1||CODING|NM_012433.2|15|1) …… #CHROM POS …… INFO …… chr2 198266834 …… . …… 付与前のVCF 付与後のVCF
  • 47. Copyright © Amelieff Corporation All Rights Reserved. 47 Impacts Effect Type Region Note High SPLICE_SITE_ACCEPTOR SPLICE_SITE_ACCEPTOR The variant hits a splice acceptor site (defined as two bases before exon start, except for the first exon). SPLICE_SITE_DONOR SPLICE_SITE_DONOR The variant hits a Splice donor site (defined as two bases after coding exon end, except for the last exon). START_LOST EXON or NONE Variant causes start codon to be mutated into a non- start codon. example: aTg/aGg, M/R EXON_DELETED EXON A deletion removes the whole exon. FRAME_SHIFT EXON Insertion or deletion causes a frame shift (An indel size is not multple of 3). STOP_GAINED EXON Variant causes a STOP codon. example: Cag/Tag, Q/* STOP_LOST EXON Variant causes stop codon to be mutated into a non-stop codon. example: Tga/Cga, */R RARE_AMINO_ACID EXON The variant hits a rare amino acid thus is likely to produce protein loss of function. Moderate NON_SYNONYMOUS_CODING EXON Variant causes a codon that produces a different amino acid. example: Tgg/Cgg, W/R CODON_CHANGE EXON One or many codons are changed. CODON_INSERTION EXON One or many codons are inserted. CODON_CHANGE_PLUS_CODON_INSERTION EXON One codon is changed and one or many codons are inserted. CODON_DELETION EXON One or many codons are deleted. CODON_CHANGE_PLUS_CODON_DELETION EXON One codon is changed and one or more codons are deleted. UTR_5_DELETED UTR_5_PRIME The variant deletes an exon which is in the 5'UTR of the transcript. UTR_3_DELETED UTR_3_PRIME The variant deletes an exon which is in the 3'UTR of the transcript. 【補足】 変異のインパクト(snpEffのアノテーション)
  • 48. Copyright © Amelieff Corporation All Rights Reserved. 48 解 析 結 果 • アノテーションによる絞り込み(オリジナルスクリプト) クオリティコントロール → マッピング→体細胞変異検出→フィルタ sample Quality Filteration dbSNP build >131 or absence AF< 5% snpEff HIGH/ MODERATE 1000 Genomes HGVB ESP6500 MDS-09 122 60 58 55 55 7 MDS-12 195 115 114 100 100 29 MDS-15 1,026 808 804 791 791 229 MDS-16 294 249 246 227 227 64 MDS-21 54 41 40 32 32 8
  • 49. Copyright © Amelieff Corporation All Rights Reserved. 49 解 析 結 果 • 考察 クオリティコントロール → マッピング→体細胞変異検出→フィルタ 論文で報告されている変異のうち、検出されなかった変異が存在した Sample Gene Position Allele Amino Acid MDS-09 SRSF2 chr17:74732959 C>T P95L TP53 chr17:7577539 C>T R116W MDS-12 U2AF35 chr21:44524480 C>T A26V MDS-15 U2AF35 chr21:44514777 A>C Q157P MDS-15 TET2 chr4:106180785 C>G C1271W MDS-16 ZRSR2 chrX:15841000 G>T E362X TET2 chr4:106156066 C>T Q323X MDS-21 SF3B1 chr2:198266834 A>G K700E
  • 50. Copyright © Amelieff Corporation All Rights Reserved. 50 解 析 結 果 : 考 察 ① • 考察 クオリティコントロール → マッピング→体細胞変異検出→フィルタ Sample Gene Position Allele Amino Acid MDS-09 SRSF2 chr17:74732959 C>T P95L TP53 chr17:7577539 C>T R116W MDS-12 U2AF35 chr21:44524480 C>T A26V MDS-15 U2AF35 chr21:44514777 A>C Q157P MDS-15 TET2 chr4:106180785 C>G C1271W MDS-16 ZRSR2 chrX:15841000 G>T E362X TET2 chr4:106156066 C>T Q323X MDS-21 SF3B1 chr2:198266834 A>G K700E Tumor、normalともにdepthやクオリティが十分ではなかった (depth10未満、低クオリティ)
  • 51. Copyright © Amelieff Corporation All Rights Reserved. 51 解 析 結 果 : 考 察 ② • 考察 クオリティコントロール → マッピング→体細胞変異検出→フィルタ Sample Gene Position Allele Amino Acid MDS-09 SRSF2 chr17:74732959 C>T P95L TP53 chr17:7577539 C>T R116W MDS-12 U2AF35 chr21:44524480 C>T A26V MDS-15 U2AF35 chr21:44514777 A>C Q157P MDS-15 TET2 chr4:106180785 C>G C1271W MDS-16 ZRSR2 chrX:15841000 G>T E362X TET2 chr4:106156066 C>T Q323X MDS-21 SF3B1 chr2:198266834 A>G K700E Normal A 10%、G 90% (depth 31) Tumor A 62%、G35% (depth 37) 検出できなかった理由の可能性として、SomaticSniperは純度がほぼ100%の正常 サンプルが必要だが、腫瘍由来のアリル混入が影響したということが考えられる
  • 52. Copyright © Amelieff Corporation All Rights Reserved. 52 解 析 結 果 • 検出した変異を遺伝子ごとに集計し、236個の遺伝子を得た 各遺伝子上の変異数 0 2 4 6 8 10 12 変 異 数 遺伝子 全サンプルにおいて2個以上変異があった遺伝子 遺伝子ごとの集計
  • 53. Copyright © Amelieff Corporation All Rights Reserved. 53 解 析 結 果 • 検出した変異を遺伝子ごとに集計し、236個の遺伝子を得た 変異が検出されたサンプル数の順に並べ替えた時の上位5遺伝子 Genes MDS-09 MDS-12 MDS-15 MDS-16 MDS-21 Sample Counts Variation Counts FAM8A1 0 6 3 2 0 3 11 CHD4 0 0 1 0 1 2 2 PABPC3 0 1 0 0 1 2 2 TET2 0 0 1 1 0 2 2 U2AF1 0 1 1 0 0 2 2 MDSで既知の関連遺伝子 遺伝子ごとの集計
  • 54. Copyright © Amelieff Corporation All Rights Reserved. 54 検 出 さ れ た 変 異 の 意 味 づ け • 得られた遺伝子について、DAVID Bioinformatics Resourcesで、生物学的 機能ごとに分類した NIAID によって提供される無償のデータベース。 ここでは、遺伝子リストから、それらの遺伝子に多く含まれる生物学的機能を 調べた。 生物学的機能 Huang Dwet al., Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources. Nature Protoc. 2009;4(1):44-57. Huang DW et al., Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 2009;37(1):1-13. http://david.abcc.ncifcrf.gov/home.jsp
  • 55. Copyright © Amelieff Corporation All Rights Reserved. 55 検 出 さ れ た 変 異 の 意 味 づ け • 得られた遺伝子について、DAVID Bioinformatics Resourcesで、生物学的 機能ごとに分類した 生物学的機能 FDR <0.05のTermを、遺伝子Count順に並べ替えた上位5個のTerm Category Term Count P-Value Benjamini FDR UP_SEQ_FEATURE sequence variant 163 1.08E-03 2.97E-01 1.69E+00 SP_PIR_KEYWORDS polymorphism 161 1.65E-04 1.65E-02 2.21E-01 SP_PIR_KEYWORDS alternative splicing 128 3.35E-08 5.06E-06 4.49E-05 SP_PIR_KEYWORDS phosphoprotein 127 8.90E-09 2.69E-06 1.19E-05 UP_SEQ_FEATURE splice variant 127 8.24E-08 4.01E-05 1.30E-04
  • 56. Copyright © Amelieff Corporation All Rights Reserved. 56 検 出 さ れ た 変 異 の 意 味 づ け • 得られた遺伝子について、GOEASTでGOアノテーションを行った Gene Ontology (http://omicslab.genetics.ac.cn/GOEAST/index.php)
  • 57. Copyright © Amelieff Corporation All Rights Reserved. 57 検 出 さ れ た 変 異 の 意 味 づ け Gene Ontology RNAスプライシングに関するGOがアノテートされた
  • 58. Copyright © Amelieff Corporation All Rights Reserved. 58 ま と め • 29人のMDS患者について腫瘍特異的変異の多い遺伝子を探索した論文のう ち、5サンプルについて追試を行った • 体細胞変異検出ソフトSomaticSniperを用いた論文で報告された変異の検 出、および、自社製のパイプラインを用いた偽陽性の除外に成功した • 下記の2つの問題点が明らかになった – シーケンスデータに十分なdepthが無いなど、SNVの信頼性が疑われる 変異については、除外してしまう – 腫瘍細胞の混入によって、正常サンプルの純度が低い場合、検出されな い • 検出された体細胞特異的変異のGO解析の結果、RNAスプライシングに関す るGO termが有意に得られ、RNAスプライシングがMDSのターゲットであ るという論文の報告を支持する結果が得られた
  • 59. Copyright © Amelieff Corporation. All Rights Reserved. 59 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク