Más contenido relacionado
La actualidad más candente (20)
Similar a [DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介 (12)
Más de DNA Data Bank of Japan center (20)
[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介
- 1. DRA (DDBJ Sequence Read
Archive) の紹介
福田 亜沙美
Fukuda Asami
DDBJ センター、アノテータ
DDBJ center, annotator
- 5. 2016年12月15日
データファイルを準備する
第34回 DDBJing 講習会 (三島)
HDF5 (PacBio RS, RSII)
RS II から出力されるデータ:
*.bas.h5 1ファイルと *.bax.h5 3ファイル, 計4ファイルを1つの Run に含める
BAM
アライメントされなかったリードを含めることを推奨
Fastq
ペアリードはペアごとに分かれているファイルの登録を推奨
Technical read (アダプター,リンカー,バーコード配列) を除去することを推奨
http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイル
※ fasta は受け付けていません!
- 6. 2016年12月15日
データファイルを準備する(BAM file)
第34回 DDBJing 講習会 (三島)
http://trace.ddbj.nig.ac.jp/dra/submission.html#BAM_ファイル
BAM file
File type=bam
SN-reference 対応表
File type=tab
multi-fasta file
File type=reference_fasta
リファレンス配列がないBAM
例)PacBio や IonTorrent などの
出力データ
✓ - -
リファレンス配列があるBAM
リファレンスがリストにある
✓ ✓ -
リファレンス配列があるBAM
リファレンスがリストにない
✓ ✓ ✓
リスト:
http://trace.ddbj.nig.ac.jp/files/ref/ref-file.txt
SN-reference 対応表
「BAM ファイルヘッダーの SQ 行中の SN」と
「リファレンス配列のアクセッション番号 (バー
ジョン番号を含む)」との対応関係をタブ区切りで
記載
※リファレンス配列があるBAM
= ヘッダーに”SQ 行”がある
リファレンス配列の有無やリファレンスの INSDC/RefSeq アクセッション番号が
リストにあるか否かで必要なファイルが異なる
- 8. 2016年12月15日
D-way アカウントを取得する
D-way アカウントをウェブサイト (https://trace.ddbj.nig.ac.jp/D-way/) で取得
公開鍵と center name をアカウントに登録し、DRA 登録権限を取得
DRA
BioProject BioSample
公開鍵 と center name を
D-way アカウントに登録
http://trace.ddbj.nig.ac.jp/book/account.html登録アカウント Handbook:
center name : SRA が組織に運用上割り振っている略号
公開鍵 : 秘密鍵とペアでユーザの認証に使用される
第34回 DDBJing 講習会 (三島)
- 13. 2016年12月15日
データファイルの転送
鍵認証で DRA ファイル受付サーバにアクセスし、データファイルを
submission ID に対応するディレクトリ(例: test07-0001) にアップロード
DRA ファイル受付サーバ
秘密鍵 公開鍵
DRA 新規登録
シークエンスデータファイル
(fastq, bam etc)
http://trace.ddbj.nig.ac.jp/dra/submission.html#シークエンスデータのアップロード
ファイル名に空白を含めない
サブディレクトリをつくらない
ディスク郵送には対応していますが、登録処理に時間がかかります
第34回 DDBJing 講習会 (三島)
- 21. 2016年12月15日
DRA Experiment の作成
サンプルから構築したライブラリー、シークエンサーやリード長について記入
デフォルトで選択した BioSample を参照している Experiment が作成される
※ こまめに Save することをお勧めします!
第34回 DDBJing 講習会 (三島)
タブ区切りテキストファイルで
まとめて内容を作成することができます
※ Download 前に Save をクリック!
ペアードの場合の Spot length, Nominal length
上図の例(ペアードライブラリ)の場合
リード長 (Spot Length): 200
合計長を記入 (Forward 100 + Reverse 100 = 200)
Nominal Length (insert size): 500
- 22. 2016年12月15日
DRA Run の作成
第34回 DDBJing 講習会 (三島)
デフォルトで作成した Experiment と同数の Run が作成される
Run に含まれるデータファイルを記述
※ペアのファイルは 1 つの Run オブジェクトに含めます
タブ区切りテキストファイルで
まとめて内容を作成することができます
- 26. 2016年12月15日
よくある検証処理エラー
合計長を記入 (例 Forward 100 + Reverse 100 = 200)
ファイルが破損している場合は再度ファイルをアップロード
空白を除去
サブディレクトリを含めず、ファイルそのものをアップロード
配列長が一定のペアリードで Experiment.Spot Length にペアの合計
配列長が記入されていない
メタデータ中の md5 値と転送されたファイルの md5 値が異なる
アップロードされたデータファイル名に空白が含まれている
サブディレクトリを含んでいる
第34回 DDBJing 講習会 (三島)
- 31. 2016年12月15日
データの公開
第34回 DDBJing 講習会 (三島)
即日公開を指定:登録データのデータベースへの取り込みが完了次第、公開
公開予定日を指定:非公開で保持
DRA BioProject, BioSample
A 登録者から公開依頼の連絡を受けた場合
(D-way アカウントにログインし、公開を
指定します)
登録者から公開依頼の連絡を受けた場合
B 当該アクセッション番号の公表を確認した
場合
当該アクセッション番号の公表を確認し
た場合
C 公開予定日が到来した場合 BioProject, BioSample アクセッション
番号を引用している DDBJ/EMBL-
Bank/GenBank レコード、DRA データ
が公開された場合(連動公開)
D DRA Run (DRR) アクセッション番号を引
用している DDBJ/EMBL-Bank/GenBank
レコードが公開された場合
D の場合,引用されている DRR 番号を含む DRA 登録全体が公開されます。
A 以外の場合は登録者の了解がなくても例外なく公開します。
以下の場合にデータを公開しています
- 32. 2016年12月15日
BioProject と BioSample の連動公開
第34回 DDBJing 講習会 (三島)
公開
連動
公開
連動
公開
非公開
公開
DRA データが公開されると 参照している
BioProject/BioSample が公開される
BioProject/BioSample が公開されても参照
元のDRA データは公開されない
公開
http://trace.ddbj.nig.ac.jp/bioproject/submission.html#データ公開
http://trace.ddbj.nig.ac.jp/faq/bp_bs_seq_release.html
※論文に BioProject アクセッション番号を引用すると、登録者からの指示がない限り
関連した DRA データが公開されません
- 34. 2016年12月15日
データの更新
登録後に D-way で更新可能な内容
公開予定日
メタデータ (Experiment,Run の
一部を除く)
データファイルの追加(右図)
新規登録を作成し、既存の
BioProject, BioSample を参照する
第34回 DDBJing 講習会 (三島)
データファイルの差し替え等、
D-way で更新できない内容は
ご連絡ください
http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイルの追加
- 37. 2016年12月15日
Submission の単位と公開
第34回 DDBJing 講習会 (三島)
DRA: Submission に
含まれる全てのオブ
ジェクトが同時に公開
連動
公開
※ 公開時期が異なるデータファイルは別の submission で登録する
BioSample submission は
サンプルごとに公開を指定
できる
※ 複数のサンプルを同時に
登録する場合 submission
を分ける必要はありません
BioSample SAMD
BioSample SAMD
BioSample SAMD
BioSample submission 6 samples
一部非公開
- 38. 2016年12月15日
Submission の数
登録者、公開時期が同一である
• BioProject
1 submission に 1 project
論文の単位で作成すると分かりやすい
• BioSample
1 submission に 複数サンプル登録可能
Sample type が同一
Submission に含まれるサンプルは同時に公開されない
DRA submission と同じにすると分かりやすい
• DRA
1 submission に 1 BioProject と複数オブジェクト
(BioSample, Experiment, Run)
全てのオブジェクトが同時に公開されるので、公開時期の単位で
作成する
第34回 DDBJing 講習会 (三島)
- 41. 2016年12月15日
ファイルの破損を md5 値でチェック
md5 値が一致 : ファイルの破損なし
md5 値が不一致 : ファイルの破損あり
DRA ファイル受付サーバ
md5 値
md5 値
md5 値
md5 値=
≠
md5 値 : ファイルに固有の32桁の英数字からなるハッシュ値
http://trace.ddbj.nig.ac.jp/dra/submission.html#補足__MD5_値
第34回 DDBJing 講習会 (三島)