Chip-seq解析(検出データを前処理・データ解析)
0. 初めに
時間にある程度余裕がある方は、下記のサイトやyoutubeなどに掲載されている、講義動画(無料)から、解析の原理・手法・考察の仕方などを学びながらデータ解析を行うことをおすすめします。
しかし、動画を閲覧して解析ができるようになるためには、最低8時間、最長数十時間の講義動画を元に解析することになります。また、講義動画の作成当時とはアプリケーションのバージョンが異なり、自身である程度のトラブルシューティングが必要です。
webサイトを参考に頑張って解析してみたいという方は、以下に記載した方法を試してみてはいかがでしょうか。
私が解析を行った時のことを、備忘録として記載してあります。
ご参考になれば幸いです。
1. 背景・概要
前回のブログ記事にてRNA-seqの前処理・データ解析について記載しましたが、今回はChip-seqのデータ解析について記載します。
Chip-seqのデータ解析については、徐々にコマンド操作に抵抗がなくなってきた時期に実施したため、下記のリンク先の書籍を参考に解析した。
コマンド操作の初心者やmacのパソコンを使ったことがない人たちでも次世代シーケンス解析ができるようになると書かれている初心者向けの手順書です。
上記のような解析に不慣れな人が実際に解析をやってみた時の体験談・とラブルシューティングを読むこともできます。初歩的な用語解説から記載してくださっているため、初心者にとって、とても頼りになる本だと思います。
https://www.amazon.co.jp/次世代シークエンサーDRY解析教本-清水厚志/dp/478090983X
このブログ記事では、上記の書籍の内容のソースコードの転載はできないため、ソースコードについては書籍もしくは下記のサイトを参照してください。
上記のリンクの書籍の内容は下記のリンクを読んでも大体理解して実行できると思いますが、作成した図がどのようなものになるのか、図の解釈の仕方はどうしたら良いのかなど、本の方が説明が丁寧な部分があります。
https://github.com/yuifu/ngsdat2_epigenome_chipseq/blob/master/chipseq.md
同じ研究機関の方、関係者の方は、GitHub(非公開)をご参照ください。
2. 参考資料
日本語のフロー場合:
https://github.com/yuifu/ajacs68
NGS解析全般の説明も含まれている。
英語表記のフロー場合:
https://bi.biopapyrus.jp/hts/chipseq/
コマンド操作で解析する人には参考になるサイト。
3. 覚書き
Homerというツールを使う際に、うまく動作しなかったため、トラブルシューティングを行った覚えがあります。
作業ディレクトリ(home)に、インストールしたhomerのフォルダを置き、自分の解析用データをインプットする時に、ソースコードでそのデータの場所を指定して(「パスを出す」と表現することが多い)データの読み込みを行いました。
マウスのゲノムに対してアセンブリをしようとした時に、Homerのエラーコードが表示されてしまい、mm10, mm9のゲノムのデータがうまく読み込めないこともありましたが、そのエラーコード内に併記されていたゲノムデータの再インストール方法を実行すると、解決したため、そんなに苦労しませんでした。
Homerを動かせるようになると、Homerのピークコールのオプションを使ってROSEアルゴリズムを使ったスーパーエンハンサーの検出ができるようになります。
Homerのマニュアルの一部:
http://homer.ucsd.edu/homer/ngs/peaks.html
他にも書いておきたいことはあるのですが、また時間のあるときに別の記事で紹介するかもしれません。
4. 解析環境
当時は、下記のMacのノートパソコンしか持っていませんでした。
2020年11月時点で一番新しいOSのバージョンで実施。
MacBookPro 13-inch
メモリ:8GB
macOS Big Sur
最新版のRとIGVをインストール済み
「1. 概要」に記載した書籍もしくはwebページに記載されているツールを、手順にしたがってインストールしました。
5. 解析フロー(概略)
Chip-seq実験データ(.fastq)
↓
Fast QC(Galaxy Faxt QC)
↓
マッピング (Galaxy)
↓
ファイルの変換(Galaxy samtools, sam→bam)
↓
Bamファイルのインデックスを作成(.bai)※ ここから下はコマンド操作で実施。
↓
ピーク検出(MACS2)
↓
データ解析
・データ間で重なっている(もしくは重なっていない)ピークの数・リストアップ(bedtools intersect)
・IGVによるピークの可視化 (IGV)
・モチーフ検索(Homer)
・リードのシグナル分布の可視化(metagene plot)
・遺伝子領域集合に対するリードシグナルの可視化(aggregation plot)
・ピーク領域に対するオントロジー・パスウェイ解析(GREAT)
・ピークに対するアノテーション(R Studio)
・ROSEアルゴリズムによりスーパーエンハンサーの検出(Homer)
今回の記事では、どんな解析ができるのかを紹介するだけにとどめておきます。
詳細は、書籍を購入してチェックしてみてください。