SlideShare una empresa de Scribd logo
1 de 36
フ リ ー ソ フ ト で は じ め る
C h I P - s e q 解 析
第 4 0 回 勉 強 会 資 料
2014年12月18日
上記はほんの一部
日々、多くのソフトが公開されている
Copyright © Amelieff Corporation. All Rights Reserved.
2
N G S デ ー タ 解 析 の フ リ ー ソ フ ト
QC
• cutadapt
• FastQC
• FastX-toolkit
• Trimmomaic
:
多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する
アライメント
• bowtie
• bwa
• BSMAP
• Tophat
:
ピーク検出
・アノテーション
• MACS
• QuEST
• ChIPpeakAnno
:
※Rなど、WindowsやMacでも動くものもある
メチル化解析・比較
・アノテーション
• BSMAP
• methylKit
• BisSNP
:
Copyright © Amelieff Corporation. All Rights Reserved.
3
L i n u x と は
UNIX互換のサーバー向けOS(オペレーティングシステム)
つまり、多人数で同時に利用し、常時稼働していることを想定したコンピューター
UNIXは権利問題などで、一般人の手の届かない存在となったため、Linus氏がUNIXを
参考にして、PCで動く独自OSを開発
Linux
大多数の解析ツールを使用することができる
新しいツールが出た時、すぐ自分で試せる
次世代シーケンシングデータのように、大
きなデータは、Excel等で見る事が難しい
自分の思い通りにデータの可視化や加工ができる
バイオインフォマティクスで使用する解析ツールの
多くは、Linux用に作成されている
「Primerを数百個作りたい」「数万個の配列がどの遺伝子に当たるの
か確認したい」という時、同じ作業を何度も繰り返す事は、難しい
繰り返し作業を自動化する事ができる
大量データの扱い
繰り返し操作の簡易化
解析ツールの問題
Copyright © Amelieff Corporation. All Rights Reserved.
4
L i n u x と は
Linuxにはさまざまなディストリビューション(配布形式)がある
Debian系・・・Ubuntuなど
Red Hat系・・・Red Hat Enterprise Linux(商用)、CentOS(無償)など
見た目やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ
解析サーバにCentOSをお奨めする理由
• 更新方針が保守的で、アップデートが頻発しない
• 枯れた技術を使っていて、安定している
弊社販売の
解析サーバで
使用
Copyright © Amelieff Corporation. All Rights Reserved.
5
解 析 手 法 の ご 紹 介
• 今回の解析で用いたサーバ
OS CentOS6 64bit
CPU Intel Corei7-3930K[3.2GHz/6Core]
メモリ 64GB
SSD 64GB(OS用)
HDD 2TB × 4台
時間がかかる処理については実行時間を示します
Copyright © Amelieff Corporation. All Rights Reserved.
C h I P - s e q 解 析 で で き る こ と
• タンパク質結合部位の検出
• 結合モチーフの探索
6
ChIP-seqとChIP-chIPの比較
• ヒストン修飾や特定のタンパク質に結合するDNA断片を免疫
沈降・回収する点は同じ
• ChIP-seqは回収したDNAを断片化してからシーケンシング
するため、ChIP-chipよりピークの解像度が高い
Copyright © Amelieff Corporation. All Rights Reserved.
7
用 い た テ ス ト デ ー タ
• NCBI GEOに登録されているヒトのChIP-seqデータ
– GSM1295084: BF細胞(ヒト成人繊維芽細胞)のH3K27me3 ChIP-seq
• SRA ID:SRR1055695
– GSM1295086: BF細胞のH3 input(コントロール) ChipSeq
• SRA ID:SRR1055697
– すべてIllumina GAIIx、36bp Single-End
– URL:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE40740
H3K27me3
• ヒストンH3の27番目のリジンのトリメチル化→転写抑制に関与
Copyright © Amelieff Corporation. All Rights Reserved.
8
解 析 手 法 の ご 紹 介
• GEOからダウンロードしたファイルはSRAフォーマットという独自形式に
なっており、そのままでは解析に使えない
• NCBI SRA Toolkitを使ってSRAフォーマットをFASTQフォーマットに変換
クオリティコントロール → マッピング→ピーク検出→アノテーション
$ fastq-dump SRR1055695.sra
$ fastq-dump SRR1055697.sra
拡張子が「.fastq」のFASTQファイルができる
• データのクオリティを集計して可視化する
$ fastqc -o 1_qc -f fastq SRR1055695.fastq
$ fastqc -o 1_qc -f fastq SRR1055697.fastq
Copyright © Amelieff Corporation. All Rights Reserved.
9
解 析 手 法 の ご 紹 介
• クオリティの低い塩基・リードを除去する
$ fastq_quality_trimmer -t 20 -l 30 -Q 33
-i SRR1055695.fastq | fastq_quality_filter -q 20 -p 80
-Q 33 -o 1_qc/SRR1055695.clean.fastq
3’末端からクオリティ20未満の塩基をトリミングし、長さが30塩基未満になった
リードを破棄する
80%以上の塩基がクオリティー20以上のリードのみを抽出する
約3分
他のFASTQファイルに対しても実施する
クオリティコントロール → マッピング→ピーク検出→アノテーション
Copyright © Amelieff Corporation. All Rights Reserved.
10
解 析 手 法 の ご 紹 介
• SRR1055695
クオリティコントロール → マッピング→ピーク検出→アノテーション
QCによりクオリティが改善された
Copyright © Amelieff Corporation. All Rights Reserved.
11
解 析 手 法 の ご 紹 介
• SRR1055697
クオリティコントロール → マッピング→ピーク検出→アノテーション
QCによりクオリティが改善された
$ samtools view 2_mapping/SRR1055695.sorted.bam |
awk '$3!="*"{print $1}' | sort | uniq | wc -l
Copyright © Amelieff Corporation. All Rights Reserved.
12
解 析 手 法 の ご 紹 介
• クリーニング後のデータをゲノムにマッピングする
$ bowtie2 -p 3 genomeファイルのBowtie2インデックス
-U 1_qc/SRR1055695.clean.fastq | samtools view -Sb -
| samtools sort - 2_mapping/SRR1055695.sorted
$ samtools index 2_mapping/SRR1055695.sorted.bam
約15分
もう一つのサンプルに対しても実施する
クオリティコントロール → マッピング→ピーク検出→アノテーション
• マッピング率を計算する
他のサンプルに対しても実施する26699307
マッピング率は
26283268 / 26699307 = 98.4 %
$ awk 'NR%4==1' 1_qc/SRR1055695.clean.fastq | wc -l
26283268
マッピング結果をソートしたBAMに直接出力
Copyright © Amelieff Corporation. All Rights Reserved.
13
解 析 手 法 の ご 紹 介
• マッピング結果をIGVで確認する
クオリティコントロール → マッピング→ピーク検出→アノテーション
(1)ゲノムを選択 (2)ChiP-seqの
マッピング結果
ゲノムポジション↓
(3)コントロールの
マッピング結果
Copyright © Amelieff Corporation. All Rights Reserved.
14
解 析 手 法 の ご 紹 介
• ピークを検出する
$ macs14 -t ../2_mapping/SRR1055695.sorted.bam
-c ../2_mapping/SRR1055697.sorted.bam -f bam
-g hs -n 出力名
コントロール(SRR1055697)と比較し、SRR1055695に特異的なピークを検出する
約30分
クオリティコントロール → マッピング→ピーク検出→アノテーション
-t ChIP-seqのマッピング結果
-c コントロールのマッピング結果
-f 入力ファイルのフォーマット(bamなど)
-g ゲノムサイズ(ヒトの場合は'hs')
-n 出力ファイルの頭につく文字列
Copyright © Amelieff Corporation. All Rights Reserved.
15
解 析 手 法 の ご 紹 介
• ピーク検出ソフト・MACSのアルゴリズム
クオリティコントロール → マッピング→ピーク検出→アノテーション
1. マッピング結果からポアソン分布に基づきピークを検出する。1つの結合部位につき、Forward
側とReverse側の2つのピークが検出される。
2. クオリティの高い1000ピークをランダムに取り出し、Forward側ピークとReverse側ピークの
距離(d)をモデル化する。
3. d/2をシフトし、2dをウィンドウサイズとして、その中の最大値を結合部位とする。
4. トリートメントのピークの数とインプットのピークの数からFDRを推定する。
d
Copyright © Amelieff Corporation. All Rights Reserved.
16
解 析 手 法 の ご 紹 介
• ピーク検出結果(xx_peaks.bed)
クオリティコントロール → マッピング→ピーク検出→アノテーション
1. 染色体名
2. ピーク開始ポジション(0スタート)
3. ピーク終了ポジション
4. ピーク名
5. スコア:ピークの -10*log10(pvalue)
Copyright © Amelieff Corporation. All Rights Reserved.
17
解 析 手 法 の ご 紹 介
• ピーク検出結果(xx_peaks.xls)
クオリティコントロール → マッピング→ピーク検出→アノテーション
1. 染色体名
2. ピーク開始ポジション
3. ピーク終了ポジション
4. ピーク領域長
5. ピーク開始ポジションから数えた
summitの位置
6. ピーク領域にマップされたリード数
7. ピークの -10*log10(pvalue) for
the peak region(pvalue=1e-10な
ら100)
8. fold enrichment for this region
against random Poisson
distribution with local lambda
9. トリートメントのピークの数とイン
プットのピークの数から推定した
FDR(%)
-10*LOG10(p)
↓
Copyright © Amelieff Corporation. All Rights Reserved.
18
解 析 手 法 の ご 紹 介
• ピーク検出結果(xx_MACS_wiggle)
クオリティコントロール → マッピング→ピーク検出→アノテーション
pileup結果をwiggleフォーマットで記載したファイル
wiggleフォーマット:http://genome.ucsc.edu/goldenPath/help/wiggle.html
ChIP-SeqのWiggle
検出されたピーク
ChIP-SeqのBAM
ControlのWiggle
ControlのBAM
18,520 429 76 0
Copyright © Amelieff Corporation. All Rights Reserved.
19
解 析 手 法 の ご 紹 介
• FDRの小さいものに絞り込む
クオリティコントロール → マッピング→ピーク検出→アノテーション
全結果 FDR<10% FDR<9% FDR<8%
[1] Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C, Myers RM, Brown M, Li W, Liu XS.
Model-based analysis of ChIP-Seq (MACS). Genome Biol. 2008;9(9):R137. doi: 10.1186/gb-2008-9-9-r137. Epub 2008 Sep 17.
PubMed PMID: 18798982; PubMed Central PMCID: PMC2592715.
MACSの論文[1]ではFDR<1%に絞っていたが
今回のデータはFDRが大きかったため
FDR<9%に絞った
Copyright © Amelieff Corporation. All Rights Reserved.
20
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
– QuESTの特徴:実行時に結合タンパクの種類を選べる
– 入力フォーマットはMAQ、ELAND、bowtieなど(BAMには未対応)
$ bowtie -p 3 genomeファイルのBowtieインデックス
1_qc/SRR1055695.clean.fastq 2_mapping/SRR1055695.bowtie
bowtieによるマッピング(bowtieフォーマットで出力)
$ bowtie -p 3 genomeファイルのBowtieインデックス
1_qc/SRR1055697.clean.fastq 2_mapping/SRR1055697.bowtie
各約5分
Copyright © Amelieff Corporation. All Rights Reserved.
21
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
SRR1055695.3 YILLUMINA-B8EC94_105:4:1:1555:1140 length=36 - chr22 32873017
ACACATAGTTCATTTGAGGTGTTTTTGCTTTTTCTG FGDGEDGEFFGGGEGEGGDD>@HHHHHHHFHGEHHH 0
SRR1055695.4 YILLUMINA-B8EC94_105:4:1:1583:1139 length=36 - chr12 34846311
TGAAACACTCTGTTTGTAAAGTCTGCACGTGGATAT DGHGHHHHHHHHHHHHHHHHHGBGBEHHHHHHFHGH 0
SRR1055695.2 YILLUMINA-B8EC94_105:4:1:1226:1131 length=36 + chr12 5193061
TTTTCTCTTATCTTTTCTAAAANTCNTAAACTAGGT GGGG8EDGGDEDGGGDDDDD=:#;;#;:9<BEEE@D 0
22:T>N,25:C>N
:
bowtieフォーマット
Copyright © Amelieff Corporation. All Rights Reserved.
22
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
QuESTを実行
$ generate_QuEST_parameters.pl
-rp 染色体Fastaのディレクトリ/
-gt genome.fa.faiのパス
-bowtie_align_ChIP SRR1055695.bowtie
-bowtie_align_RX_noIP SRR1055697.bowtie
-ap 出力ディレクトリ
• -rp リファレンスゲノムの染色体ごとのFastaを置いたディレクトリ
• -gt リファレンスゲノムの染色体名とサイズの組のリスト
• -bowtie_align_ChIP ChIP-seqのマッピング結果(bowtieフォーマット)
• -bowtie_align_RX_noIP Controlのマッピング結果(bowtieフォーマット)
• -ap 結果出力ディレクトリ
Copyright © Amelieff Corporation. All Rights Reserved.
23
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
QuESTを実行
結合タンパクの種類
・転写因子→1
・ PolII-like factor→2
・ヒストン→3
・自分でパラメータを設定→4
「3」を選択
Copyright © Amelieff Corporation. All Rights Reserved.
24
ピ ー ク 検 出 ソ フ ト Q u E S T
• 他の検出ソフト(QuEST)でも実行
QuESTを実行
結合タンパクに応じた
パラメータ値の候補
(厳しめにするか緩めにするか)
「2(推奨値)」を選択
約20分
Copyright © Amelieff Corporation. All Rights Reserved.
25
ピ ー ク 検 出 ソ フ ト Q u E S T
• QuESTの結果:概要(module_outputs/QuEST.out)
bowtieフォーマット
## please cite:
## Valouev A, Johnson DS, Sundquist A, Medina C, Anton E, Batzoglou S,
## Myers RM, Sidow A
## Genome-wide analysis of transcription factor binding sites based
## on ChIP-Seq data.
## Nat Methods. 2008 Sep; 5:(9):829-35
ChIP peaks: 13
ChIP peaks accepted: 13
ChIP peaks rejected: 0
ChIP regions: 11
ChIP regions accepted: 11
ChIP regions rejected: 0
Copyright © Amelieff Corporation. All Rights Reserved.
26
ピ ー ク 検 出 ソ フ ト Q u E S T
• QuESTの結果:ピーク(calls/peak_caller.ChIP.out.accepted)
bowtieフォーマット
R-1 chr11 3674740-3676339 ChIP: 170.5 control: 22.6886 max_pos: 3675711 ef: 7.51476 ChIP_tags:
1572 background_tags: 118 tag_ef: 7.92329 ps: 17 cor: 0.485103 -log10_qv: 29914.9 -log10_pv:
29922.1 qv_rank: 1
P-1-1 chr11 3675169 ChIP: 123.088 control: 12.954 region: 3674740-3676340 ef: 9.50194 ps: 17 cor:
0.980156 -log10_qv: 231.8 -log10_pv: 238.99 qv_rank: 5
P-1-2 chr11 3675711 ChIP: 170.5 control: 22.6886 region: 3674740-3676340 ef: 7.51476 ps: 15 cor:
0.94687 -log10_qv: 238.543 -log10_pv: 245.732 qv_rank: 4
R-2 chr22 51081718-51084682 ChIP: 48.6881 control: 3.90919 max_pos: 51082255 ef: 12.4548
ChIP_tags: 430 background_tags: 22 tag_ef: 11.6247 ps: 13 cor: 0.171511 -log10_qv: 1053.29 -
log10_pv: 1059.78 qv_rank: 5
P-2-1 chr22 51082255 ChIP: 48.6881 control: 3.90919 region: 51081718-51084683 ef: 12.4548 ps: 13
cor: 0.875156 -log10_qv: 571.506 -log10_pv: 577.997 qv_rank: 1
:
ピークの位置、スコア、q-valueなどが記載されている
Copyright © Amelieff Corporation. All Rights Reserved.
27
ピ ー ク 検 出 ソ フ ト Q u E S T
• QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed)
track name=ChIP_filtered description=ChIP_filtered_regions itemRgb="On" priority=67 visibility=1
chr11 3674741 3676340 R-1 170.5 + 3674741 3676340 0,191,255
chr22 51081719 51084683 R-2 48.6881 + 51081719 51084683 0,191,255
chr17 153120 155470 R-3 43.6734 + 153120 155470 0,191,255
chr7 100547703 100553968 R-4 42.4881 + 100547703 100553968 0,191,255
chr20 46522428 46525209 R-5 35.9235 + 46522428 46525209 0,191,255
chr18 111978 112686 R-6 35.4676 + 111978 112686 0,191,255
chr20 62719779 62720414 R-7 34.2823 + 62719779 62720414 0,191,255
chr2 133021646 133031873 R-8 33.4617 + 133021646 133031873 0,191,255
chr7 944472 946396 R-9 32.6411 + 944472 946396 0,191,255
chr2 90448094 90454767 R-10 32.5499 + 90448094 90454767 0,191,255
chr1 17193078 17204129 R-11 30.6352 + 17193078 17204129 0,191,255
:
IGVで表示するために以下の処理が必要
・ピークとSummitの情報が混在しているので、分ける
・track行を除去しておく
Copyright © Amelieff Corporation. All Rights Reserved.
28
ピ ー ク 検 出 ソ フ ト Q u E S T
• QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed)
ChIP-SeqのBAM
ControlのBAM
QuESTで検出されたピーク
Copyright © Amelieff Corporation. All Rights Reserved.
29
ピ ー ク 検 出 ソ フ ト Q u E S T
• MACSとQuESTで共通するピークを探す
$ intersectBed -wa -a macsの.bed -b QuESTのbed
MACSのピークのうち、QuESTのピークとオーバーラップするものを探す
$ intersectBed -v -a macsの.bed -b QuESTのbed
MACSのピークのうち、QuESTのピークとオーバーラップしないものを探す
Copyright © Amelieff Corporation. All Rights Reserved.
30
解 析 手 法 の ご 紹 介
• ピークをアノテーション
クオリティコントロール → マッピング→ピーク検出→アノテーション
MACSで検出されたピークの読み込みと変換
> macs_bed = read.table("MACSのbed")
> macs = BED2RangedData(macs_bed)
Rを起動し、ChIPpeakAnnoパッケージを読み込む
$ R
> library(ChIPpeakAnno)
EBI Biomartからヒト遺伝子情報をダウンロードし、アノテーション
> mart = useMart(biomart="ensembl",
dataset="hsapiens_gene_ensembl")
> myAnno = getAnnotation(mart)
> annotatedPeak = annotatePeakInBatch(macs, AnnotationData=myAnno)
Copyright © Amelieff Corporation. All Rights Reserved.
31
解 析 手 法 の ご 紹 介
• ピークをアノテーション
クオリティコントロール → マッピング→ピーク検出→アノテーション
アノテーション結果をファイル出力
> write.table(as.data.frame(annotatedPeak),
file="annotatedPeakList.tsv", sep="¥t",
row.names=FALSE)
近傍遺伝子からの距離
Copyright © Amelieff Corporation. All Rights Reserved.
32
R N A - s e q の 結 果 と 併 せ た 考 察
• ChIP-seqで検出されたBF細胞のH3K27me3部位のピークと
RNA-seqのHs68-BF間で発現が異なる遺伝子の位置関係を比較
→SIM1遺伝子の上流2kbpのヒストンメチル化が検出されていた
→SIM1は、Hs68と比較して、BFで発現が有意に減少していた遺伝子
BFのChIP-seqで
検出されたピーク
RNA-seqで
BFで発現が
低い遺伝子
Copyright © Amelieff Corporation. All Rights Reserved.
33
R N A - s e q の 結 果 と 併 せ た 考 察
• SIM1は胎児の腎臓で特異的に発現することが報告されている
• メチル化と遺伝子発現の関係を検証するには、さらに以下のような解析が必要
(※本日は紹介しない)
→ Hs68のChIP-seq結果との比較
→ パスウェイ解析、Gene Ontology解析 など
成人由来BFで発現が低下している
のと関連している可能性がある
Copyright © Amelieff Corporation. All Rights Reserved.
34
共 通 モ チ ー フ 検 索
• MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに
共通するモチーフ配列を検索
ピーク領域の塩基配列を取得
$ samtools faidx genomeファイルのFasta
chr1:17193078-17204129
$ samtools faidx genomeファイルのFasta
chr2:90446939-90454767
:
(各ピークに対して実行)
上記の結果からFastaファイルを作成
Copyright © Amelieff Corporation. All Rights Reserved.
35
共 通 モ チ ー フ 検 索
• MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに
共通するモチーフ配列を検索
Copyright © Amelieff Corporation All Rights Reserved.
36
アメリエフ
バイオインフォマティクス
調査リクエストサービス
バイオ研究の解析に使用するソフトや解析手法について、
無償で調査するサービスです。調査結果はアメリエフの
ブログでご紹介いたします。
申込みフォーム http://goo.gl/g3SOtU
ア メ リ ク

Más contenido relacionado

La actualidad más candente

Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
最適化計算の概要まとめ
最適化計算の概要まとめ最適化計算の概要まとめ
最適化計算の概要まとめYuichiro MInato
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺についてKeisuke Hosaka
 
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索西岡 賢一郎
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法Shuhei Sowa
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健Preferred Networks
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Naoaki Okazaki
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
ベイズ最適化
ベイズ最適化ベイズ最適化
ベイズ最適化MatsuiRyo
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料Amelieff
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介Preferred Networks
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
遺伝子のアノテーション付加
遺伝子のアノテーション付加遺伝子のアノテーション付加
遺伝子のアノテーション付加弘毅 露崎
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 

La actualidad más candente (20)

Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
最適化計算の概要まとめ
最適化計算の概要まとめ最適化計算の概要まとめ
最適化計算の概要まとめ
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
ベイズ最適化
ベイズ最適化ベイズ最適化
ベイズ最適化
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
フリーソフトではじめるメチル化データ解析入門 SeqCap Epiデータ対応_第40回勉強会資料
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
遺伝子のアノテーション付加
遺伝子のアノテーション付加遺伝子のアノテーション付加
遺伝子のアノテーション付加
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 

Similar a フリーソフトではじめるChIP-seq解析_第40回勉強会資料

NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析Amelieff
 
Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門Amelieff
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料Amelieff
 
2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習Jun Nakabayashi
 
MPSoCのPLの性能について
MPSoCのPLの性能についてMPSoCのPLの性能について
MPSoCのPLの性能についてmarsee101
 
プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610HIDEOMI SUZUKI
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerAmelieff
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
中小規模サービスのApacheチューニング
中小規模サービスのApacheチューニング中小規模サービスのApacheチューニング
中小規模サービスのApacheチューニング勲 國府田
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition InferenceToru Tamaki
 
システムパフォーマンス勉強会#8
システムパフォーマンス勉強会#8システムパフォーマンス勉強会#8
システムパフォーマンス勉強会#8shingo suzuki
 
フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門Amelieff
 
Atc15_reading_networking_session
Atc15_reading_networking_sessionAtc15_reading_networking_session
Atc15_reading_networking_session紘也 金子
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料Genaris Omics, Inc.
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料Genaris Omics, Inc.
 
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Hokkaido.cap#1 Wiresharkの使い方(基礎編)Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Hokkaido.cap#1 Wiresharkの使い方(基礎編)Panda Yamaki
 
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてCAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてKaneko Izumi
 
卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)Baasanchuluun Batnasan
 
shuji-oh master thesis
shuji-oh master thesisshuji-oh master thesis
shuji-oh master thesisinet-lab
 

Similar a フリーソフトではじめるChIP-seq解析_第40回勉強会資料 (20)

NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析NGS現場の会第2回_アメリエフ株式会社_がんExome解析
NGS現場の会第2回_アメリエフ株式会社_がんExome解析
 
Exome解析入門
Exome解析入門Exome解析入門
Exome解析入門
 
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
フリーソフトではじめるがん体細胞変異解析入門 第33回勉強会資料
 
2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習2019年度 第2回バイオインフォマティクス実習
2019年度 第2回バイオインフォマティクス実習
 
MPSoCのPLの性能について
MPSoCのPLの性能についてMPSoCのPLの性能について
MPSoCのPLの性能について
 
プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610
 
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_QcleanerNGS現場の会第2回_アメリエフ株式会社_Qcleaner
NGS現場の会第2回_アメリエフ株式会社_Qcleaner
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
中小規模サービスのApacheチューニング
中小規模サービスのApacheチューニング中小規模サービスのApacheチューニング
中小規模サービスのApacheチューニング
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
システムパフォーマンス勉強会#8
システムパフォーマンス勉強会#8システムパフォーマンス勉強会#8
システムパフォーマンス勉強会#8
 
フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門フリーソフトではじめるNGS融合遺伝子解析入門
フリーソフトではじめるNGS融合遺伝子解析入門
 
Atc15_reading_networking_session
Atc15_reading_networking_sessionAtc15_reading_networking_session
Atc15_reading_networking_session
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
 
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Hokkaido.cap#1 Wiresharkの使い方(基礎編)Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
 
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてCAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品について
 
卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)卒研発表 バースカ(確認済み)
卒研発表 バースカ(確認済み)
 
shuji-oh master thesis
shuji-oh master thesisshuji-oh master thesis
shuji-oh master thesis
 
Reconf_201409
Reconf_201409Reconf_201409
Reconf_201409
 

Más de Amelieff

フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料Amelieff
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料Amelieff
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門Amelieff
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinuxAmelieff
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアルAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングAmelieff
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析Amelieff
 

Más de Amelieff (7)

フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料フリーソフトで始めるNGS解析_第41・42回勉強会資料
フリーソフトで始めるNGS解析_第41・42回勉強会資料
 
miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料miRNAデータ解析入門_第23回勉強会資料
miRNAデータ解析入門_第23回勉強会資料
 
SNPデータ解析入門
SNPデータ解析入門SNPデータ解析入門
SNPデータ解析入門
 
はじめてのLinux
はじめてのLinuxはじめてのLinux
はじめてのLinux
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリングNGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
NGS現場の会第2回_アメリエフ株式会社_SNVフィルタリング
 
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
 

フリーソフトではじめるChIP-seq解析_第40回勉強会資料

  • 1. フ リ ー ソ フ ト で は じ め る C h I P - s e q 解 析 第 4 0 回 勉 強 会 資 料 2014年12月18日
  • 2. 上記はほんの一部 日々、多くのソフトが公開されている Copyright © Amelieff Corporation. All Rights Reserved. 2 N G S デ ー タ 解 析 の フ リ ー ソ フ ト QC • cutadapt • FastQC • FastX-toolkit • Trimmomaic : 多くのツールは公開されているフリーソフトであり、LinuxというOSで動作する アライメント • bowtie • bwa • BSMAP • Tophat : ピーク検出 ・アノテーション • MACS • QuEST • ChIPpeakAnno : ※Rなど、WindowsやMacでも動くものもある メチル化解析・比較 ・アノテーション • BSMAP • methylKit • BisSNP :
  • 3. Copyright © Amelieff Corporation. All Rights Reserved. 3 L i n u x と は UNIX互換のサーバー向けOS(オペレーティングシステム) つまり、多人数で同時に利用し、常時稼働していることを想定したコンピューター UNIXは権利問題などで、一般人の手の届かない存在となったため、Linus氏がUNIXを 参考にして、PCで動く独自OSを開発 Linux 大多数の解析ツールを使用することができる 新しいツールが出た時、すぐ自分で試せる 次世代シーケンシングデータのように、大 きなデータは、Excel等で見る事が難しい 自分の思い通りにデータの可視化や加工ができる バイオインフォマティクスで使用する解析ツールの 多くは、Linux用に作成されている 「Primerを数百個作りたい」「数万個の配列がどの遺伝子に当たるの か確認したい」という時、同じ作業を何度も繰り返す事は、難しい 繰り返し作業を自動化する事ができる 大量データの扱い 繰り返し操作の簡易化 解析ツールの問題
  • 4. Copyright © Amelieff Corporation. All Rights Reserved. 4 L i n u x と は Linuxにはさまざまなディストリビューション(配布形式)がある Debian系・・・Ubuntuなど Red Hat系・・・Red Hat Enterprise Linux(商用)、CentOS(無償)など 見た目やパッケージ管理形式が異なるが、基本的な操作コマンドは同じ 解析サーバにCentOSをお奨めする理由 • 更新方針が保守的で、アップデートが頻発しない • 枯れた技術を使っていて、安定している 弊社販売の 解析サーバで 使用
  • 5. Copyright © Amelieff Corporation. All Rights Reserved. 5 解 析 手 法 の ご 紹 介 • 今回の解析で用いたサーバ OS CentOS6 64bit CPU Intel Corei7-3930K[3.2GHz/6Core] メモリ 64GB SSD 64GB(OS用) HDD 2TB × 4台 時間がかかる処理については実行時間を示します
  • 6. Copyright © Amelieff Corporation. All Rights Reserved. C h I P - s e q 解 析 で で き る こ と • タンパク質結合部位の検出 • 結合モチーフの探索 6 ChIP-seqとChIP-chIPの比較 • ヒストン修飾や特定のタンパク質に結合するDNA断片を免疫 沈降・回収する点は同じ • ChIP-seqは回収したDNAを断片化してからシーケンシング するため、ChIP-chipよりピークの解像度が高い
  • 7. Copyright © Amelieff Corporation. All Rights Reserved. 7 用 い た テ ス ト デ ー タ • NCBI GEOに登録されているヒトのChIP-seqデータ – GSM1295084: BF細胞(ヒト成人繊維芽細胞)のH3K27me3 ChIP-seq • SRA ID:SRR1055695 – GSM1295086: BF細胞のH3 input(コントロール) ChipSeq • SRA ID:SRR1055697 – すべてIllumina GAIIx、36bp Single-End – URL:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE40740 H3K27me3 • ヒストンH3の27番目のリジンのトリメチル化→転写抑制に関与
  • 8. Copyright © Amelieff Corporation. All Rights Reserved. 8 解 析 手 法 の ご 紹 介 • GEOからダウンロードしたファイルはSRAフォーマットという独自形式に なっており、そのままでは解析に使えない • NCBI SRA Toolkitを使ってSRAフォーマットをFASTQフォーマットに変換 クオリティコントロール → マッピング→ピーク検出→アノテーション $ fastq-dump SRR1055695.sra $ fastq-dump SRR1055697.sra 拡張子が「.fastq」のFASTQファイルができる • データのクオリティを集計して可視化する $ fastqc -o 1_qc -f fastq SRR1055695.fastq $ fastqc -o 1_qc -f fastq SRR1055697.fastq
  • 9. Copyright © Amelieff Corporation. All Rights Reserved. 9 解 析 手 法 の ご 紹 介 • クオリティの低い塩基・リードを除去する $ fastq_quality_trimmer -t 20 -l 30 -Q 33 -i SRR1055695.fastq | fastq_quality_filter -q 20 -p 80 -Q 33 -o 1_qc/SRR1055695.clean.fastq 3’末端からクオリティ20未満の塩基をトリミングし、長さが30塩基未満になった リードを破棄する 80%以上の塩基がクオリティー20以上のリードのみを抽出する 約3分 他のFASTQファイルに対しても実施する クオリティコントロール → マッピング→ピーク検出→アノテーション
  • 10. Copyright © Amelieff Corporation. All Rights Reserved. 10 解 析 手 法 の ご 紹 介 • SRR1055695 クオリティコントロール → マッピング→ピーク検出→アノテーション QCによりクオリティが改善された
  • 11. Copyright © Amelieff Corporation. All Rights Reserved. 11 解 析 手 法 の ご 紹 介 • SRR1055697 クオリティコントロール → マッピング→ピーク検出→アノテーション QCによりクオリティが改善された
  • 12. $ samtools view 2_mapping/SRR1055695.sorted.bam | awk '$3!="*"{print $1}' | sort | uniq | wc -l Copyright © Amelieff Corporation. All Rights Reserved. 12 解 析 手 法 の ご 紹 介 • クリーニング後のデータをゲノムにマッピングする $ bowtie2 -p 3 genomeファイルのBowtie2インデックス -U 1_qc/SRR1055695.clean.fastq | samtools view -Sb - | samtools sort - 2_mapping/SRR1055695.sorted $ samtools index 2_mapping/SRR1055695.sorted.bam 約15分 もう一つのサンプルに対しても実施する クオリティコントロール → マッピング→ピーク検出→アノテーション • マッピング率を計算する 他のサンプルに対しても実施する26699307 マッピング率は 26283268 / 26699307 = 98.4 % $ awk 'NR%4==1' 1_qc/SRR1055695.clean.fastq | wc -l 26283268 マッピング結果をソートしたBAMに直接出力
  • 13. Copyright © Amelieff Corporation. All Rights Reserved. 13 解 析 手 法 の ご 紹 介 • マッピング結果をIGVで確認する クオリティコントロール → マッピング→ピーク検出→アノテーション (1)ゲノムを選択 (2)ChiP-seqの マッピング結果 ゲノムポジション↓ (3)コントロールの マッピング結果
  • 14. Copyright © Amelieff Corporation. All Rights Reserved. 14 解 析 手 法 の ご 紹 介 • ピークを検出する $ macs14 -t ../2_mapping/SRR1055695.sorted.bam -c ../2_mapping/SRR1055697.sorted.bam -f bam -g hs -n 出力名 コントロール(SRR1055697)と比較し、SRR1055695に特異的なピークを検出する 約30分 クオリティコントロール → マッピング→ピーク検出→アノテーション -t ChIP-seqのマッピング結果 -c コントロールのマッピング結果 -f 入力ファイルのフォーマット(bamなど) -g ゲノムサイズ(ヒトの場合は'hs') -n 出力ファイルの頭につく文字列
  • 15. Copyright © Amelieff Corporation. All Rights Reserved. 15 解 析 手 法 の ご 紹 介 • ピーク検出ソフト・MACSのアルゴリズム クオリティコントロール → マッピング→ピーク検出→アノテーション 1. マッピング結果からポアソン分布に基づきピークを検出する。1つの結合部位につき、Forward 側とReverse側の2つのピークが検出される。 2. クオリティの高い1000ピークをランダムに取り出し、Forward側ピークとReverse側ピークの 距離(d)をモデル化する。 3. d/2をシフトし、2dをウィンドウサイズとして、その中の最大値を結合部位とする。 4. トリートメントのピークの数とインプットのピークの数からFDRを推定する。 d
  • 16. Copyright © Amelieff Corporation. All Rights Reserved. 16 解 析 手 法 の ご 紹 介 • ピーク検出結果(xx_peaks.bed) クオリティコントロール → マッピング→ピーク検出→アノテーション 1. 染色体名 2. ピーク開始ポジション(0スタート) 3. ピーク終了ポジション 4. ピーク名 5. スコア:ピークの -10*log10(pvalue)
  • 17. Copyright © Amelieff Corporation. All Rights Reserved. 17 解 析 手 法 の ご 紹 介 • ピーク検出結果(xx_peaks.xls) クオリティコントロール → マッピング→ピーク検出→アノテーション 1. 染色体名 2. ピーク開始ポジション 3. ピーク終了ポジション 4. ピーク領域長 5. ピーク開始ポジションから数えた summitの位置 6. ピーク領域にマップされたリード数 7. ピークの -10*log10(pvalue) for the peak region(pvalue=1e-10な ら100) 8. fold enrichment for this region against random Poisson distribution with local lambda 9. トリートメントのピークの数とイン プットのピークの数から推定した FDR(%) -10*LOG10(p) ↓
  • 18. Copyright © Amelieff Corporation. All Rights Reserved. 18 解 析 手 法 の ご 紹 介 • ピーク検出結果(xx_MACS_wiggle) クオリティコントロール → マッピング→ピーク検出→アノテーション pileup結果をwiggleフォーマットで記載したファイル wiggleフォーマット:http://genome.ucsc.edu/goldenPath/help/wiggle.html ChIP-SeqのWiggle 検出されたピーク ChIP-SeqのBAM ControlのWiggle ControlのBAM
  • 19. 18,520 429 76 0 Copyright © Amelieff Corporation. All Rights Reserved. 19 解 析 手 法 の ご 紹 介 • FDRの小さいものに絞り込む クオリティコントロール → マッピング→ピーク検出→アノテーション 全結果 FDR<10% FDR<9% FDR<8% [1] Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C, Myers RM, Brown M, Li W, Liu XS. Model-based analysis of ChIP-Seq (MACS). Genome Biol. 2008;9(9):R137. doi: 10.1186/gb-2008-9-9-r137. Epub 2008 Sep 17. PubMed PMID: 18798982; PubMed Central PMCID: PMC2592715. MACSの論文[1]ではFDR<1%に絞っていたが 今回のデータはFDRが大きかったため FDR<9%に絞った
  • 20. Copyright © Amelieff Corporation. All Rights Reserved. 20 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 – QuESTの特徴:実行時に結合タンパクの種類を選べる – 入力フォーマットはMAQ、ELAND、bowtieなど(BAMには未対応) $ bowtie -p 3 genomeファイルのBowtieインデックス 1_qc/SRR1055695.clean.fastq 2_mapping/SRR1055695.bowtie bowtieによるマッピング(bowtieフォーマットで出力) $ bowtie -p 3 genomeファイルのBowtieインデックス 1_qc/SRR1055697.clean.fastq 2_mapping/SRR1055697.bowtie 各約5分
  • 21. Copyright © Amelieff Corporation. All Rights Reserved. 21 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 SRR1055695.3 YILLUMINA-B8EC94_105:4:1:1555:1140 length=36 - chr22 32873017 ACACATAGTTCATTTGAGGTGTTTTTGCTTTTTCTG FGDGEDGEFFGGGEGEGGDD>@HHHHHHHFHGEHHH 0 SRR1055695.4 YILLUMINA-B8EC94_105:4:1:1583:1139 length=36 - chr12 34846311 TGAAACACTCTGTTTGTAAAGTCTGCACGTGGATAT DGHGHHHHHHHHHHHHHHHHHGBGBEHHHHHHFHGH 0 SRR1055695.2 YILLUMINA-B8EC94_105:4:1:1226:1131 length=36 + chr12 5193061 TTTTCTCTTATCTTTTCTAAAANTCNTAAACTAGGT GGGG8EDGGDEDGGGDDDDD=:#;;#;:9<BEEE@D 0 22:T>N,25:C>N : bowtieフォーマット
  • 22. Copyright © Amelieff Corporation. All Rights Reserved. 22 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 QuESTを実行 $ generate_QuEST_parameters.pl -rp 染色体Fastaのディレクトリ/ -gt genome.fa.faiのパス -bowtie_align_ChIP SRR1055695.bowtie -bowtie_align_RX_noIP SRR1055697.bowtie -ap 出力ディレクトリ • -rp リファレンスゲノムの染色体ごとのFastaを置いたディレクトリ • -gt リファレンスゲノムの染色体名とサイズの組のリスト • -bowtie_align_ChIP ChIP-seqのマッピング結果(bowtieフォーマット) • -bowtie_align_RX_noIP Controlのマッピング結果(bowtieフォーマット) • -ap 結果出力ディレクトリ
  • 23. Copyright © Amelieff Corporation. All Rights Reserved. 23 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 QuESTを実行 結合タンパクの種類 ・転写因子→1 ・ PolII-like factor→2 ・ヒストン→3 ・自分でパラメータを設定→4 「3」を選択
  • 24. Copyright © Amelieff Corporation. All Rights Reserved. 24 ピ ー ク 検 出 ソ フ ト Q u E S T • 他の検出ソフト(QuEST)でも実行 QuESTを実行 結合タンパクに応じた パラメータ値の候補 (厳しめにするか緩めにするか) 「2(推奨値)」を選択 約20分
  • 25. Copyright © Amelieff Corporation. All Rights Reserved. 25 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:概要(module_outputs/QuEST.out) bowtieフォーマット ## please cite: ## Valouev A, Johnson DS, Sundquist A, Medina C, Anton E, Batzoglou S, ## Myers RM, Sidow A ## Genome-wide analysis of transcription factor binding sites based ## on ChIP-Seq data. ## Nat Methods. 2008 Sep; 5:(9):829-35 ChIP peaks: 13 ChIP peaks accepted: 13 ChIP peaks rejected: 0 ChIP regions: 11 ChIP regions accepted: 11 ChIP regions rejected: 0
  • 26. Copyright © Amelieff Corporation. All Rights Reserved. 26 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:ピーク(calls/peak_caller.ChIP.out.accepted) bowtieフォーマット R-1 chr11 3674740-3676339 ChIP: 170.5 control: 22.6886 max_pos: 3675711 ef: 7.51476 ChIP_tags: 1572 background_tags: 118 tag_ef: 7.92329 ps: 17 cor: 0.485103 -log10_qv: 29914.9 -log10_pv: 29922.1 qv_rank: 1 P-1-1 chr11 3675169 ChIP: 123.088 control: 12.954 region: 3674740-3676340 ef: 9.50194 ps: 17 cor: 0.980156 -log10_qv: 231.8 -log10_pv: 238.99 qv_rank: 5 P-1-2 chr11 3675711 ChIP: 170.5 control: 22.6886 region: 3674740-3676340 ef: 7.51476 ps: 15 cor: 0.94687 -log10_qv: 238.543 -log10_pv: 245.732 qv_rank: 4 R-2 chr22 51081718-51084682 ChIP: 48.6881 control: 3.90919 max_pos: 51082255 ef: 12.4548 ChIP_tags: 430 background_tags: 22 tag_ef: 11.6247 ps: 13 cor: 0.171511 -log10_qv: 1053.29 - log10_pv: 1059.78 qv_rank: 5 P-2-1 chr22 51082255 ChIP: 48.6881 control: 3.90919 region: 51081718-51084683 ef: 12.4548 ps: 13 cor: 0.875156 -log10_qv: 571.506 -log10_pv: 577.997 qv_rank: 1 : ピークの位置、スコア、q-valueなどが記載されている
  • 27. Copyright © Amelieff Corporation. All Rights Reserved. 27 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed) track name=ChIP_filtered description=ChIP_filtered_regions itemRgb="On" priority=67 visibility=1 chr11 3674741 3676340 R-1 170.5 + 3674741 3676340 0,191,255 chr22 51081719 51084683 R-2 48.6881 + 51081719 51084683 0,191,255 chr17 153120 155470 R-3 43.6734 + 153120 155470 0,191,255 chr7 100547703 100553968 R-4 42.4881 + 100547703 100553968 0,191,255 chr20 46522428 46525209 R-5 35.9235 + 46522428 46525209 0,191,255 chr18 111978 112686 R-6 35.4676 + 111978 112686 0,191,255 chr20 62719779 62720414 R-7 34.2823 + 62719779 62720414 0,191,255 chr2 133021646 133031873 R-8 33.4617 + 133021646 133031873 0,191,255 chr7 944472 946396 R-9 32.6411 + 944472 946396 0,191,255 chr2 90448094 90454767 R-10 32.5499 + 90448094 90454767 0,191,255 chr1 17193078 17204129 R-11 30.6352 + 17193078 17204129 0,191,255 : IGVで表示するために以下の処理が必要 ・ピークとSummitの情報が混在しているので、分ける ・track行を除去しておく
  • 28. Copyright © Amelieff Corporation. All Rights Reserved. 28 ピ ー ク 検 出 ソ フ ト Q u E S T • QuESTの結果:ピーク(tracks/ChIP_calls.filtered.bed) ChIP-SeqのBAM ControlのBAM QuESTで検出されたピーク
  • 29. Copyright © Amelieff Corporation. All Rights Reserved. 29 ピ ー ク 検 出 ソ フ ト Q u E S T • MACSとQuESTで共通するピークを探す $ intersectBed -wa -a macsの.bed -b QuESTのbed MACSのピークのうち、QuESTのピークとオーバーラップするものを探す $ intersectBed -v -a macsの.bed -b QuESTのbed MACSのピークのうち、QuESTのピークとオーバーラップしないものを探す
  • 30. Copyright © Amelieff Corporation. All Rights Reserved. 30 解 析 手 法 の ご 紹 介 • ピークをアノテーション クオリティコントロール → マッピング→ピーク検出→アノテーション MACSで検出されたピークの読み込みと変換 > macs_bed = read.table("MACSのbed") > macs = BED2RangedData(macs_bed) Rを起動し、ChIPpeakAnnoパッケージを読み込む $ R > library(ChIPpeakAnno) EBI Biomartからヒト遺伝子情報をダウンロードし、アノテーション > mart = useMart(biomart="ensembl", dataset="hsapiens_gene_ensembl") > myAnno = getAnnotation(mart) > annotatedPeak = annotatePeakInBatch(macs, AnnotationData=myAnno)
  • 31. Copyright © Amelieff Corporation. All Rights Reserved. 31 解 析 手 法 の ご 紹 介 • ピークをアノテーション クオリティコントロール → マッピング→ピーク検出→アノテーション アノテーション結果をファイル出力 > write.table(as.data.frame(annotatedPeak), file="annotatedPeakList.tsv", sep="¥t", row.names=FALSE) 近傍遺伝子からの距離
  • 32. Copyright © Amelieff Corporation. All Rights Reserved. 32 R N A - s e q の 結 果 と 併 せ た 考 察 • ChIP-seqで検出されたBF細胞のH3K27me3部位のピークと RNA-seqのHs68-BF間で発現が異なる遺伝子の位置関係を比較 →SIM1遺伝子の上流2kbpのヒストンメチル化が検出されていた →SIM1は、Hs68と比較して、BFで発現が有意に減少していた遺伝子 BFのChIP-seqで 検出されたピーク RNA-seqで BFで発現が 低い遺伝子
  • 33. Copyright © Amelieff Corporation. All Rights Reserved. 33 R N A - s e q の 結 果 と 併 せ た 考 察 • SIM1は胎児の腎臓で特異的に発現することが報告されている • メチル化と遺伝子発現の関係を検証するには、さらに以下のような解析が必要 (※本日は紹介しない) → Hs68のChIP-seq結果との比較 → パスウェイ解析、Gene Ontology解析 など 成人由来BFで発現が低下している のと関連している可能性がある
  • 34. Copyright © Amelieff Corporation. All Rights Reserved. 34 共 通 モ チ ー フ 検 索 • MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに 共通するモチーフ配列を検索 ピーク領域の塩基配列を取得 $ samtools faidx genomeファイルのFasta chr1:17193078-17204129 $ samtools faidx genomeファイルのFasta chr2:90446939-90454767 : (各ピークに対して実行) 上記の結果からFastaファイルを作成
  • 35. Copyright © Amelieff Corporation. All Rights Reserved. 35 共 通 モ チ ー フ 検 索 • MEME(http://meme.nbcr.net/meme/intro.html)などで、ピークに 共通するモチーフ配列を検索
  • 36. Copyright © Amelieff Corporation All Rights Reserved. 36 アメリエフ バイオインフォマティクス 調査リクエストサービス バイオ研究の解析に使用するソフトや解析手法について、 無償で調査するサービスです。調査結果はアメリエフの ブログでご紹介いたします。 申込みフォーム http://goo.gl/g3SOtU ア メ リ ク