RNA-seq解析(検出データを前処理・データ解析)
0. 初めに
時間にある程度余裕がある方は、下記のサイトやyoutubeなどに掲載されている、講義動画(無料)から、解析の原理・手法・考察の仕方などを学びながらデータ解析を行うことをおすすめします。
しかし、動画を閲覧して解析ができるようになるためには、最低8時間、最長数十時間の講義動画を元に解析することになります。また、講義動画の作成当時とはアプリケーションのバージョンが異なり、自身である程度のトラブルシューティングが必要です。
webサイトを参考に頑張って解析してみたいという方は、以下に記載した方法を試してみてはいかがでしょうか。
私が解析を行った時のことを、備忘録として記載してあります。
ご参考になれば幸いです。
1. 背景
私の所属するラボにて、RNA-seqのデータの受託解析の費用が高いため(データ測定と同じぐらいの費用がかかるらしい)、ラボ内でデータの処理と解析をできないかと相談を受けました。
一番リーズナブルな値段のMacBookPro(Macのノートパソコン)しかなく、ソースコードを見聞きしたことがない状況で、どうやって解析をしたら良いのか見当がつきませんでした。
しかし、インターネット上の情報を元に調べていくと、この手の解析は、データ解析の初心者でもRNA-seqやChip-seqの解析ができるらしいので、私がやってみることになりました。
当時の私は、情報工学に詳しくなく、地元大学で分子生物学実験をしていた大学院卒程度のスキル(Excel, PowerPointを使ってウエスタンブロッティングやqPCRのデータを整理していたレベル)しかパソコン関係のスキルを持っていませんでした。学生時代に所属していた研究室でmacを使っていたため、macのパソコンの使い方が少しわかるレベルでした。
データ解析に詳しい人が周囲にいないため、効率の良いやり方はわかりませんが、私の低スペックなPCでも解析ができたため、その当時の記録を残しておきたいと思います。
いくつかの書籍とgoogle検索したウェブページを頼りに解析を行ったため、このブログでは引用資料の紹介と使い方を簡単に記載します。
適切ではない表現があるかとは思いますが、ブログ閲覧者の方々が用語を調べるきっかけになれば幸いです。
(周囲に教えてくれる人がいない状態だと、問題解決のためにgoogle検索をかけるための用語がわからず、時間が浪費されていきます。このブログの読者が少しでも苦労を減らせることを祈っています。)
同じ研究機関の方、関係者の方は、GitHub(非公開)をご参照ください。
2. RNA-seqの原理・解析フロー
(1) 参考資料
日本語のフロー場合:
https://github.com/yuifu/ajacs68
NGS解析全般の説明も含まれている。
英語表記のフロー場合:
https://bi.biopapyrus.jp/rnaseq/
コマンド操作で解析する人には参考になるサイト。
(2)最低限の概要説明
<概略フロー>
(illuminaのHiSeq(pair-end)の場合)
RNA-seq実験を実施して得られたデータ(拡張子:.fastq など)
↓
前処理(一次解析)・・・・データ解析のための前準備(マッピング、カウントデータの作成)
↓
データ解析(二次解析)・・・・発現差異解析、プロットの作成
↓
データ解析(三次解析)・・・・GO解析、パスウェイ解析など
※ 様々な解析手法があるため、このページ内では紹介しません。
別のページで個別に解説をします。
(3) 私が実施した解析手法のフロー
RNA-seq データ(.fastq)
↓
前処理:Galaxyでデータ変換(FASTQ Groomer)
↓
前処理:Galaxyでクオリティチェック(Fast QC)
チェック時の参考資料:https://bi.biopapyrus.jp/rnaseq/qc/
↓
前処理:Galaxyでアダプターの除去、品質の低いリードの除去(Trimmomatic)
↓
前処理:Galaxyでクオリティチェック(Fast QC)
↓
前処理:Galaxyでゲノムへのマッピング(RNA STAR)
↓
前処理:IGVを使用してエクソンのアノテーション情報の確認、ゲノムへのマッピングの可視化
↓
前処理:Galaxyでシーケンスリードのカウント数を算出(FeatureCounts)
↓
二次解析:Rを使用してFPKM(RPKM), TPM(発現量の値)の算出
※ webページ上(TCC-GUI)でも解析できるが、解析途中でページが動かなくなることが多いため、Rを使って使用する方が良い。
↓
二次解析:Rを使用して発現差異解析(TCC(TMM/edgeR))
↓
二次解析:Rを使ってプロットの作成
↓
三次解析:Webサイトを使用してGO解析、Pathway解析へ進む。
※ 様々な解析手法があるため、このページ内では紹介しません。
別のページで個別に解説をします。
3. 解析環境
当時は、下記のMacのノートパソコンしか持っていませんでした。
2020年11月時点で一番新しいOSのバージョンで実施。
MacBookPro 13-inch
メモリ:8GB
macOS Big Sur
最新版のRとIGVをインストール済み
ターミナルからコマンドを入力する操作は、セットアップが面倒だったので実施しませんでした。
できるだけGalaxyとRを使って解析を進めようとしていました。
RNA-seq実験後のシーケンスデータは、illuminaのHiSeqのデータ(pair-end)を使用しました。
4. スペックの低いパソコンで実施するためにはどうしたら良いか(Galaxyの使用について)
上記の解析フローのうち、ゲノムへのマッピングはできません。
一般的なMacBookProでは、PCのメモリ容量不足により処理ができません。
そのため、インターネットのクラウド上で解析できるツール(無料)を使用します。
そのツールの一つが、Galaxyです。マシンパワーの無い研究室の見方です。
下記のページを参考に解析を進めました。
Galaxyは、メールアドレスを登録すると無料で使用することができます。
登録してログインしてから使用しましょう。
(未登録だと200MG, 登録済みだと:10BGまでのデータ容量を使用することができる。)
また、Galaxy上のプログラムへインプットデータをうまく読み込めない時があると思いますが、そのようなとラブルシューティングのために、Galaxy Supportページを参照しましょう。トラブルシューティングのマニュアルがあるだけでなく、自分と同じトラブルを抱えた人たちが質問を投稿している質問箱があります。ブラウザ検索をしてエラーコードの意味を調べるよりも、こちらのページ内のメニューを開いて検索をかける方が効率が良かったです。使用しないとブラウザ検索で答えが出てこないため、より苦労します。
Galaxy Top
Galaxy Support
https://galaxyproject.org/support/#help-guides
Galaxyの基本的な使用方法
(長い動画のうち、わからない部分だけ見れば良い。youtubeなどに、もっと短く簡単なマニュアルがあるかもしれない。)
講義動画:https://togotv.dbcls.jp/20150409.html
講義資料:https://github.com/AJACS-training/AJACS52/blob/master/ohta/README.md
GalaxyでNGSデータ解析
https://galaxy.dna.affrc.go.jp/nias/static/howtouse.html
(日本語で書かれているGalaxyの使い方が書かれたページの一つ。解析時のオプションの設定に迷った時に、とても参考になりました。)
5. Rを使った解析について
論文用の図の作成によく使用されているRですが、GUI版(アプリケーションアイコンから立ち上げて操作をする形式)の方を使うと、ほとんどの操作がコピーアンドペーストで済みます。
使い慣れているMicrosoft Excelを使った作図をしたかったのですが、Excelで作図すると、データのサイズが大きいため、パソコンのメモリ容量を圧迫しやすく、Excelが強制終了してしまいます。Rでしか作図しづらい図もありますので、泣く泣くRを使えるように練習しました。(Rのメリット、Excelのデメリットなどにいては、Rをインストールする際の参考サイト内にも記載があります。)
また、Rの方が、ソースコードをコピーペーストすると、異なるデータ群で同じ形式の図を多量に作成するのも一瞬で完了します。
<実行手順>
(1) Rをインストールする。
CRAN(The Comprehensive R Archive Network)にアクセスして最新のMac OS版のRをインストールする。
参考サイト:https://qiita.com/hujuu/items/ddd66ae8e6f3f989f2c0
(2) Rを立ち上げて、R上でパッケージをインストールする。
(最低限の場合:数分で完了。関連のパッケージ全てを入れる場合:数時間かかる。)
パッケージのインストールの仕方、エラーへの対処:
https://stats.biopapyrus.jp/r/basic/package.html
https://qiita.com/hachisukansw/items/ac1b7f608db1fe4d09e6
インストールしておくと良いパッケージの種類は、下記のサイトで紹介されている。
http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html
必要に応じて最低限のパッケージをインストールする場合は、下記で使用するソースコードに記載されているプログラムをブラウザ検索して、個別にインストールする方法を個別に調べてインストールする。
(3) Rで解析を始める前に、「作業ディレクトリの変更」の方法を知っておく。
Rというアプリを使って解析を行う上で、Rにとっての作業拠点をどこにおくかを指定する必要があります。自分が解析したいデータファイルをインプットする時に、この作業ディレクトリの変更が重要です。
下記のように指定しておくと、特に困ることは無いでしょう。
Rでの解析結果のデータの保存場所は、特に指定しなければ、作業ディレクトリとして指定した場所に保存されます。
<作業ディレクトリの変更方法>
Rを起動する → (画面上部のメニューバーの)その他 → 作業ディレクトリの変更 → 自分が解析したいデータが置かれている場所を指定する
(4) Rのソースコードを引用して解析を実施する。
Rを使った塩基配列の解析は、下記のサイトにてソースコードと使い方が丁寧に記載されています。サイト内にリンクが貼られているテストデータを使用してプログラムが動く可動化を確認してから、自分の解析用データを使用すると、うまく動かしやすいです。
http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html
1) Excelを使って自分のデータを、テストデータと同じ表形式へ揃える。
2) Excelのデータエキスポート時に.txtファイルへ変換する。(タブ区切りテキストファイル)
3) Rを起動 → 作業ディレクトリの変更 → Rの解析用コードを入力(自分のデータファイル名へ修正して使用。)
4) 出力されたファイル(.txt)をExcelファイルで開いて、テーブルを挿入すると見やすくなる。
6. その他
RNA-seqのデータ解析の内、三次解析については、個別のブログ記事にて紹介することにする。