NBDC Research ID: hum0184.v2

 

研究内容の概要

目的: 東北メディカル・メガバンク計画は、大規模ゲノムコホート研究を行うことにより、地域医療の復興に貢献し、創薬研究や個別化医療等の次世代医療体制の構築を目指す事業である。これまで、4000人を超える検体の全ゲノムシークエンス解析を行い、日本人の遺伝的多様性をカタログ化したデータセット「日本人全ゲノム参照パネル」を作成した。これを用いて、インピュテーション精度の向上、疾患リスク予測の精度を向上、さらに日本人のゲノム研究の基盤を提供することを目的とする。

方法: 全ゲノムシークエンス

対象: 日本人一般住民 4,566名

URL: https://jmorp.megabank.tohoku.ac.jp/

 

データID内容制限公開日
JGAS000239 NGS(WGS) 制限公開(Type II) 2020/09/01
JGAS000239にデータ追加 NGS(WGS)のbam/gvcfデータ 制限公開(Type II) 2022/02/18

※リリース情報はこちら

※制限公開データの利用にあたっては、利用申請が必要です。申請方法はこちら

 

分子データ

JGAS000239

対象 日本人一般住民:4,566名
規模 WGS
対象領域(Target Captureの場合) -
Platform Illumina [HiSeq 2500、NovaSeq 6000]
ライブラリソース 末梢血から抽出したDNA
検体情報(購入の場合) -
ライブラリ作製方法(キット名) TruSeq DNA PCR-Free Library Prep Kit
断片化の方法 超⾳波断⽚化(Covaris LE220)
ライブラリ構築方法 Paired-end
リード長(除:バーコード、アダプタ、プライマー、リンカー)

HiSeq 2500:162 bp / 259 bp

NovaSeq 6000:150 bp

Japanese Genotype-phenotype Archive Dataset ID

JGAD000338

JGAD000339

総データ量

JGAD000338:260 TB(fastq)

JGAD000339:230 TB(bam、gvcf、vcf [ref:GRCh37/hg19(hs37d5)])

コメント(利用にあたっての制限事項)

NBDC policy および hum0184 policy

東北メディカル・メガバンク機構のスパコンに関するお問い合わせ先:

 

JGAS000239への追加

対象 日本人一般住民:4,566名
規模 WGS
ソース JGAD000338のfastqファイル
クオリティコントロール方法

リードのbase qualityが全体的に悪い検体、リード毎の%GCの結果にて異常を示した検体を除去。

Alignment後、Low mapping rate検体、Insert sizeがおかしい検体、メタデータの性別情報とalingment結果より推定される性別情報が不一致な検体、性染色体異常疑いの検体を除去。

Genotyping時に、VQSR、DP/GP filter (DP < 5, GQ < 20, DP > 60 && GQ < 95を除去)、heterozygosity filter (F>=0.05 を除去)、HWE filter (p < 10-6を除去)、Repeat & Low Complexity filterを実施。

1000 genomes projectと合わせたPCAを実施し、日本人クラスタから大きく外れる検体を除外。

その後、Genome-In-A-Bottleプロジェクトから公開されているHighConfidenceRegionリストに記載のある領域のバリアントにフラグを付与。

重複するリードの除去 Picard 2.10.6
リアライメントおよびベースクオリティのキャリブレーション GATK 3.7
マッピング方法 BWA mem 0.7.12
マッピングクオリティ GATK 3.7 HaplotypeCallerで変異コール時にMAPQ<20のリードを除外
マッピングの際のリファレンス配列 GRCh37/hg19(hs37d5)
平均カバー率(Depth) HiSeq 2500:31.8x、NovaSeq 6000:28.0x
変異検出方法 GATK 3.7 HaplotypeCaller
SNV数(QC後)

76,768,387(常染色体)

2,898,518(X 染色体)

INDEL数(QC後)

10,202,908(常染色体)

410,435(X 染色体)

Japanese Genotype-phenotype Archive Dataset ID JGAD000625:GEnome Medical alliance Japan(GEM Japan, GEM-J)の取り組みとして、GATK Best Practicesに準拠した方法により、GRCh37の参照ゲノム配列へのマッピングおよびバリアント検知を実施した際のデータです。詳しくはこちらをご覧ください。
総データ量 230 TB(bam、vcf)
コメント(利用にあたっての制限事項)

NBDC policy および hum0184 policy

東北メディカル・メガバンク機構のスパコンに関するお問い合わせ先:

 

提供者情報

研究代表者: 山本 雅之

所 属 機 関: 東北大学 東北メディカル・メガバンク機構

プロジェクト/研究グループ名: 東北メディカル・メガバンク計画

URL: https://www.megabank.tohoku.ac.jp/

科研費/助成金(Research Project Number):

科研費・助成金名タイトル研究課題番号
日本医療研究開発機構(AMED) 医療研究開発推進事業費補助金 東北メディカル・メガバンク計画(東北大学)東日本大震災復興特別会計分 JP20km0105001
日本医療研究開発機構(AMED) 医療研究開発推進事業費補助金 東北メディカル・メガバンク計画(東北大学)一般会計分 JP20km0105002
日本医療研究開発機構(AMED) 医療研究開発推進事業費補助金 東北メディカル・メガバンク計画(岩手医科大学)東日本大震災復興特別会計分 JP20km0105003
日本医療研究開発機構(AMED) 医療研究開発推進事業費補助金 東北メディカル・メガバンク計画(岩手医科大学)一般会計分 JP20km0105004

 

関連論文

タイトルDOIデータID
1 3.5KJPNv2: an allele frequency panel of 3552 Japanese individuals including the X chromosome doi: 10.1038/s41439-019-0059-5 hum0015.v3.3.5kjpnv2.v1
2

 

制限公開データの利用者一覧

研究代表者所属機関国・州名研究題目利用データID利用期間