
廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà):020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
項目名稱(chēng):miRNA結題報告
所屬分類(lèi):生物信息學(xué)分析-報告解讀
聯(lián)系電話(huà):020-85625352
QQ:386244141
Email:servers@gzscbio.com
技術(shù)服務(wù)描述
miRNA結題報告
生信部
2021年01月28日
1. 建庫測序工作流程
1.1. 建庫測序流程
??MicroRNA (miRNA) 是一類(lèi)長(cháng)度約為20-24個(gè)核苷酸長(cháng)度的具有調控功能的非編碼RNA,miRNA 是生物體內一類(lèi)重要的特殊分子,誘導基因沉默,參與細胞生長(cháng)、發(fā)育、基因轉錄和翻譯等諸多生命活動(dòng)的調控過(guò)程。
??從RNA樣品到最終分析結果數據,需要經(jīng)過(guò)樣品檢測、建庫、測序和信息分析等過(guò)程,其中測序過(guò)程我們采用高通量測序illumina HiSeq/MiSeq測序平臺;illumina測序得到的原始圖像數據文件經(jīng)堿基識別(Base Calling)分析轉化為原始測序序列(Sequenced Reads),我們稱(chēng)之為Raw Data或Raw Reads,結果以FASTQ(簡(jiǎn)稱(chēng)為fq)文件格式存儲,其中包含測序序列(reads)的序列信息以及其對應的測序質(zhì)量信息。
??樣品質(zhì)量檢測:利用NanoDrop 2000分光光度計對RNA樣品進(jìn)行初步定量,Aglient 2100對樣品濃度精確定量。RNA樣品總量、濃度、完整性(RIN值,RNA Integrity Number)、純度(OD260/OD280比值)符合收樣立項標準后,進(jìn)入下一步的文庫構建。
??文庫構建:Total RNA PEG (polyethylene glycol)沉淀,連接3’接頭,PAGE (polyacrylamide gel electrophoresis) 膠分離回收,連接5’接頭,反轉錄,PCR擴增,文庫切膠回收。
??文庫質(zhì)檢:Q-PCR方法對文庫進(jìn)行精確定量,文庫有效濃度>2nM即可上機測序。
??上機測序:將各文庫按照有效濃度及目標下機數據量的需求pooling后,進(jìn)行SE75測序。

圖1: Small RNA 文庫構建 Workflow
??Small RNA測序的接頭信息:
??RNA 5‘Adapter (RA5), part:
??5’-GTTCAGAGTTCTACAGTCCGACGATC-3’
??RNA 3’Adapter (RA3), part:
??5’-AGATCGGAAGAGCACACGTCT-3’ (1ug流程)
??5’-CTGTAGGCACCATCAATCAGATCGGAAGAGCACACGTCTG-3’ (10ug流程)
2. 信息分析流程
??Raw Data通過(guò)去接頭、去低質(zhì)量、去污染、統計序列長(cháng)度分布等過(guò)程完成初級分析;將初級分析得到的clean reads與ncRNA庫比對,分類(lèi)注釋ncRNA,并去除reads中的rNRA、tRNA、snRNA、snoRNA等;然后再將reads比對到參考基因組、miRBase上,計算miRNA表達量,注釋已知miRNA、預測新的miRNA;然后進(jìn)行差異miRNA、靶基因預測、功能注釋等后續分析。
miRNA生物信息分析流程圖

2.1. miRNA-seq 測序數據質(zhì)量評估
2.1.1. 數據質(zhì)量評估 及 數據過(guò)濾
??對于測序得到的rawdata,我們首先使用fastqc進(jìn)行數據質(zhì)量評估,通過(guò)結果,我們可以了解到測序數據reads質(zhì)量、長(cháng)度、堿基分布,序列重復頻次等基本信息。
??測序得到的raw data,里面含有帶接頭的、低質(zhì)量的reads,為了保證后續信息分析的質(zhì)量,必須對raw reads進(jìn)行處理,得到clean reads。
??raw data的過(guò)濾步驟如下: 去除低質(zhì)量 reads; 去除有5’接頭污染的reads; 去除沒(méi)有3’接頭序列; 去除沒(méi)有插入片段的reads; 去除長(cháng)度小于16nt的reads;
??數據經(jīng)過(guò)以上過(guò)濾后,我們對數據做一些基本統計。
結果:
| 結果說(shuō)明 | 結果文件 |
|---|---|
| 原始數據 RawData QC 結果 | 00.QC/qc_rawdata/ |
| 過(guò)濾數據 CleanData QC 結果 | 00.QC/qc_cleandata |
| Trimmed Reads (unique) 結果文件 | 00.QC/*.trim.collapse.fa |
2.2. 數據長(cháng)度分布
??一般來(lái)說(shuō),小RNA的長(cháng)度區間為18~30nt,數據過(guò)濾完成后,我們統計了clean reads數目及各自占總reads的百分比,并繪制reads長(cháng)度分布圖。reads長(cháng)度分布圖能幫助我們判斷小RNA的種類(lèi),如miRNA集中在21或22nt,siRNA集中在24nt,piRNA集中在30nt。
Clean Data Reads 長(cháng)度分布統計直方圖:
Figure 2.2: Small RNA Clean Reads長(cháng)度分布圖
Clean Reads長(cháng)度分布直方圖,橫坐標為Reads的長(cháng)度,縱坐標為樣品中對應該長(cháng)度的total Reads數量。
2.3. miRNA基因組比對分析
??我們將Clean Reads 與 mature miRNA, miRNA hairpin, mRNA, mature & primary tRNA, snoRNA, rRNA, other non-coding RNA, and (optional) known RNA 使用bowtie進(jìn)行比對搜索,然后統計reads的比對情況,分析樣本中各類(lèi)ncRNA的數目及比例情況,統計結果如下。過(guò)濾出待分析的miRNA以便后續分析,將clean reads中ncRNA盡可能地去除,便于后續 miRNA 檢測及預測。
Reads類(lèi)型分布圖
圖顯示的是各類(lèi)型的RNA reads和miRNA reads占總distinct reads的比例。
與參考基因組比對質(zhì)控結果:
| 結果說(shuō)明 | 結果文件 |
|---|---|
| Trimmed Reads (unique) 與參考基因組的比對結果(bam) | 01.Mapping/*.bam |
| Trimmed Reads (unique) 與參考基因組的比對結果(bw) | 01.Mapping/*.bw |
| 各類(lèi)型RNA統計情況 | 00.QC/annotation.report.csv |
| 與各個(gè)smallRNA比對的詳細結果 | 01.Mapping/mapped.csv |
2.4. 已知 miRNA 的檢測以及 novel miRNA 預測分析
??首先用去除了ncRNA后的Reads比對miRbase數據庫,比對上miRbase中 reads 用于檢測已知成熟的miRNA,并統計其表達量和RPM值。我們采用miRge軟件來(lái)進(jìn)行 miRNA reads 檢測注釋、novel miRNA的預測、miRNA表達量的統計。
miRNA分析結果匯總:
| 結果說(shuō)明 | 結果文件 |
|---|---|
| 基本注釋結果: | |
| miRNA reads 變體類(lèi)型注釋結果 | 02.miRNA/1.isomiR/sample_miRge3.gff |
| miRNA reads 變體類(lèi)型可視化統計 | 02.miRNA/1.isomiR/*svg |
| miRNA堿基編輯分析結果: | |
| A2I在各個(gè)樣本中統計匯總表 | 02.miRNA/2.a2IEditing/a2IEditing.report.csv |
| A2I在各個(gè)樣本中統計匯總表的篩選及簡(jiǎn)化信息 ( 即匯總表的 *.RPM.mismatch、*.AtoI.percentage列 ) | 02.miRNA/2.a2IEditing/a2IEditing.report.newform.csv |
| A2I分析的序列及統計詳情信息 | 02.miRNA/2.a2IEditing/a2IEditing.detail.txt |
| 二級結構預測結果: | |
| novel miRNA 二級結構預測結果 | 02.miRNA/3.novel_predict/*.R1_novel_miRNAs/ |
| novel miRNA 二級結構預測詳細信息表格匯總 | 02.miRNA/3.novel_predict/*.R1_novel_miRNAs/*_novel_miRNAs_report.csv |
以上miRNA各圖的可視化網(wǎng)頁(yè):02.miRNA/miR_visualization.html
2.4.1. miRNA異構體分析
??隨著(zhù)高通量測序技術(shù)的發(fā)展,早期認為的miRNA loci僅產(chǎn)生1條miRNA成熟體序列這一觀(guān)點(diǎn)被顛覆。對于某一miRNA來(lái)說(shuō),它并不是單一的序列,而是由一系列長(cháng)度/序列及表達不同的異構體 (isomiRs) 組成。這些isomiRs表達多樣且序列多樣,甚至引入多樣的5'端及種子區域。特定miRNA位點(diǎn)在疾病組織中可具有異常的表達模式,現已證實(shí),部分isomiRs具有重要的生物學(xué)功能。
??IsomiRs目前主要分為三類(lèi):5′isomiRs, 3′isomiRs, polymorphic isomiRs。IsomiRs的產(chǎn)生機制主要有:miRNA加工和成熟過(guò)程中Darsha和Dicer酶的不精確或選擇性剪切;3'端核苷酸添加;RNA編輯和單核苷酸多態(tài)性( single nucleotide polymorphism,SNP)。主要表現為:5'端修剪;3' 端修剪;3'端核苷酸附加和堿基替換。其中,5'端修剪和堿基替換可發(fā)生在種子區域內部,產(chǎn)生“種子轉移”(seed shifting)。
??我們通過(guò)序列與miRbase比對的情況,將各個(gè)miRNA Reads進(jìn)行isomiR識別,并同時(shí)匯總至miRNA reads 注釋結果中,分類(lèi)統計,并選取表達量較高的前20個(gè)mirna進(jìn)行各類(lèi)IsomiRs表達豐度統計。
圖2.4.1 所有樣本的變體類(lèi)型分布(isomiRs)
圖2.4.2 各個(gè)樣本的變體分布TOP20的豐度統計
2.4.2. miRNA 堿基編輯
??成熟miRNA序列的第2-8個(gè)堿基被稱(chēng)作“種子”序列,保守性很高。若在這一區域發(fā)生堿基突變,則可能改變miRNA的靶基因作用位點(diǎn)。我們通過(guò)將miRNA序列與miRBase中已知miRNA前體以及成熟miRNA序列進(jìn)行比對(只允許一個(gè)位點(diǎn)的錯配)找出發(fā)生了堿基突變的miRNA,統計匯總在該miRNA的堿基突變位點(diǎn),以及發(fā)生堿基編輯的Reads數量及百分比,并對統計概況結果進(jìn)行可視化。

圖2.4.3 鑒定為已存在mirna堿基編輯的在各個(gè)樣本中的相應readCount占比統計圖
miRNA堿基編輯分析結果詳細說(shuō)明:
A2I在各個(gè)樣本中統計匯總表
表頭說(shuō)明:
結果說(shuō)明 結果文件 基本注釋結果: miRNA reads 變體類(lèi)型注釋結果 02.miRNA/1.isomiR/sample_miRge3.gffmiRNA reads 變體類(lèi)型可視化統計 02.miRNA/1.isomiR/*svgmiRNA堿基編輯分析結果: A2I在各個(gè)樣本中統計匯總表 02.miRNA/2.a2IEditing/a2IEditing.report.csvA2I在各個(gè)樣本中統計匯總表的篩選及簡(jiǎn)化信息
( 即匯總表的*.RPM.mismatch、*.AtoI.percentage列 )02.miRNA/2.a2IEditing/a2IEditing.report.newform.csvA2I分析的序列及統計詳情信息 02.miRNA/2.a2IEditing/a2IEditing.detail.txt二級結構預測結果: novel miRNA 二級結構預測結果 02.miRNA/3.novel_predict/*.R1_novel_miRNAs/novel miRNA 二級結構預測詳細信息表格匯總 02.miRNA/3.novel_predict/*.R1_novel_miRNAs/*_novel_miRNAs_report.csvA2I在各個(gè)樣本中統計匯總表的篩選及簡(jiǎn)化信息
( 即匯總表的*.RPM.mismatch、*.AtoI.percentage列,該表對應上面的可視化結果 )表頭說(shuō)明:
A2I分析的序列及統計詳情信息
結果說(shuō)明:
①每一個(gè)miRNA塊,包含3小塊內容:原始序列、篩選后的序列統計、篩選后的序列。重復的miRNA塊代表不同樣本,順序為 A2I在各個(gè)樣本中統計匯總表 的樣本信息。
②每一行序列包含3個(gè)信息,
miRNA sequence(reads序列),*.readCount(Count計數),Filter(是否篩選到后續進(jìn)行堿基編輯分析)
| 結果說(shuō)明 | 結果文件 |
|---|---|
| 基本注釋結果: | |
| miRNA reads 變體類(lèi)型注釋結果 | 02.miRNA/1.isomiR/sample_miRge3.gff |
| miRNA reads 變體類(lèi)型可視化統計 | 02.miRNA/1.isomiR/*svg |
| miRNA堿基編輯分析結果: | |
| A2I在各個(gè)樣本中統計匯總表 | 02.miRNA/2.a2IEditing/a2IEditing.report.csv |
| A2I在各個(gè)樣本中統計匯總表的篩選及簡(jiǎn)化信息 ( 即匯總表的 *.RPM.mismatch、*.AtoI.percentage列 ) | 02.miRNA/2.a2IEditing/a2IEditing.report.newform.csv |
| A2I分析的序列及統計詳情信息 | 02.miRNA/2.a2IEditing/a2IEditing.detail.txt |
| 二級結構預測結果: | |
| novel miRNA 二級結構預測結果 | 02.miRNA/3.novel_predict/*.R1_novel_miRNAs/ |
| novel miRNA 二級結構預測詳細信息表格匯總 | 02.miRNA/3.novel_predict/*.R1_novel_miRNAs/*_novel_miRNAs_report.csv |
2.4.3. novel miRNA 預測及二級結構分析
??miRge根據序列特征,堿基配對原則,最小自由能等特征模型,進(jìn)行新穎的miRNA及二級結構預測。預測示意圖如下。結果見(jiàn):02.miRNA/3.novel_predict/

圖2.4.4 新miRNA的二級結構預測示意圖
2.5. miRNA 定量分析
2.5.1. 樣本間相關(guān)性分析
??生物學(xué)重復通常是任何生物學(xué)實(shí)驗所必須的,目前主流期刊也基本要求生物學(xué)重復。生物學(xué)重復主要有兩個(gè)用途:一個(gè)是證明所涉及的生物學(xué)實(shí)驗操作不是偶然,而是可重復的。另一個(gè)是為了確保后續的差異分析得到更可靠的結果。樣品間基因表達水平相關(guān)性是檢驗實(shí)驗可靠性和樣本選擇是否合理的重要指標。相關(guān)系數越接近1,表明樣品之間表達模式的相似度越高。Encode計劃建議皮爾遜相關(guān)系數的平方(R2)大于0.92(理想的取樣和實(shí)驗條件下)。具體的項目操作中,我們要求生物學(xué)重復樣品間R2至少要大于0.8,否則需要對樣品做出合適的解釋?zhuān)蛘咧匦逻M(jìn)行實(shí)驗。根據各樣本所有基因的表達值計算組內及組間樣本的相關(guān)性系數,繪制成熱圖,可直觀(guān)顯示組間樣本差異及組內樣本重復情況。樣本間相關(guān)性系數越高,其表達模式越為接近,樣本相關(guān)性熱圖如下圖所示。

圖 2.5.1. 樣本間相關(guān)性熱圖
圖中橫縱坐標為各樣本相關(guān)系數的平方
結果文件:
樣本間相關(guān)性熱圖結果:
04.DE/Quant/cor_pheatmap*
2.5.2. 主成分分析
??主成分分析(PCA)也常用來(lái)評估組間差異及組內樣本重復情況,PCA采用線(xiàn)性代數的計算方法,對數以萬(wàn)計的基因變量進(jìn)行降維及主成分提取。我們對所有樣本的基因表達值進(jìn)行PCA分析,如下圖所示。理想條件下,PCA圖中,組間樣本應該分散,組內樣本應該聚在一起。

圖 2.5.2. 主成分分析結果圖
圖中橫坐標為第一主成分,縱坐標為第二主成分
結果文件:
主成分分析結果:
04.DE/Quant/pca*
2.6. miRNA 差異分析
??基因表達定量完成后,需要對其表達數據進(jìn)行統計學(xué)分析,篩選樣本在不同狀態(tài)下表達水平顯著(zhù)差異的基因。差異分析主要分為三個(gè)步驟。
首先對原始的readcount進(jìn)行標準化(normalization),主要是對測序深度的校正。
然后統計學(xué)模型進(jìn)行假設檢驗概率(pvalue)的計算
最后進(jìn)行多重假設檢驗校正,得到FDR值(錯誤發(fā)現率,padj是其常見(jiàn)形式)[1-2]。
??針對不同的實(shí)驗情況,我們選用合適的軟件進(jìn)行基因表達差異顯著(zhù)性分析,具體如下表所示。
表1 表達差異分析所用軟件及差異基因篩選標準
| 類(lèi)型 | 軟件 | 標準化方法 | pvalue計算模型 | FDR計算方法 | 差異基因篩選標準 |
|---|---|---|---|---|---|
| 有生物學(xué)重復 | DESeq2(Anders et al, 2014) | DESeq | 負二項分布 | BH | |log2(FoldChange)| > 0 & padj < 0.05 |
| 無(wú)生物學(xué)重復 | edgeR(Robinson et al, 2010) | TMM | 負二項分布 | BH | |log2(FoldChange)| > 1 & padj < 0.05 |
??若按照以上標準篩選得到的差異基因過(guò)少(低于100),很有可能導致后面的功能富集分析沒(méi)有顯著(zhù)性結果,所以,我們會(huì )根據項目的具體情況,適當地降低篩選差異基因的閾值標準。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況(如基因敲除),不在意富集結果,從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。
??一般來(lái)說(shuō),如果一個(gè)基因在兩組樣品中的表達量差異達到兩倍以上,我們認為這樣的基因是具有表達差異的。為了判斷兩個(gè)樣品之間的表達量差異究竟是由于各種誤差導致的還是本質(zhì)差異,我們需要對所有基因在這兩個(gè)樣本中的表達量數據進(jìn)行假設檢驗。而轉錄組分析是針對成千上萬(wàn)個(gè)基因進(jìn)行的,這樣會(huì )導致假陽(yáng)性的累積,基因數目越多,假設檢驗的假陽(yáng)性累積程度會(huì )越高,所以引入padj對假設檢驗的P-value進(jìn)行校正,從而控制假陽(yáng)性的比例[3]。
??差異基因的篩選標準是非常重要的,我們給出的標準|log2(FoldChange)| > 1 & padj< 0.05是常用的經(jīng)驗值,在實(shí)際項目中可以根據情況靈活選擇。例如,差異倍數可以選擇1.5倍,也可以選擇3倍,padj常用的閾值包括0.01、0.05、0.1等。若按照以上標準篩選得到的差異基因過(guò)少,很有可能導致后?的功能富集分析沒(méi)有顯著(zhù)性結果。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況(如基因敲除),不在意富集結果,從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。反之,如果得到的差異基因數目過(guò)多,不利于后續目標基因的篩選,這個(gè)時(shí)候可使用更嚴格的閾值標準進(jìn)行篩選,則可以使用更嚴格的閾值標準進(jìn)行篩選。
2.6.1. 差異miRNA的篩選
??通過(guò)Deseq2進(jìn)行差異分析,我們通常采用 |log2FC|>1 & padj < 0.05 進(jìn)行差異miRNA的篩選,差異計算結果如下。
結果文件:
| 結果說(shuō)明 | 結果文件 |
|---|---|
| 定量分析表達矩陣結果 | 04.DE/miR.Counts.csv |
| 差異miRNA分析結果(ALL) | 04.DE/Allgene_anno_ALL.xls |
| 差異miRNA分析結果(篩選后) | 04.DE/Allgene_anno.xls |
04.DE/Allgene_anno.xls表頭
| 表頭 | 說(shuō)明 |
|---|---|
ENSEMBL | 差異miRNA的ENSEMBL名 |
pvalue | 差異miRNA的置信度計算結果 |
padj | 差異miRNA的多重校驗FDR |
log2FC | Treat組 vs Control組 差異倍數 的log2標準化結果 |
FC | Treat組 vs Control組 差異倍數 |
log2FC_abs | Treat組 vs Control組 差異倍數 的log2標準化結果的絕對值(此列便于篩選log2FC閾值) |
FC_HvsL | 高表達組 vs 低表達組 差異倍數 (此列便于篩選FC閾值) |
change | 使用本次分析的閾值,對差異miRNA的上下調標記 |
miRNA | 差異miRNA的miRNA名 |
ENTREZID | 差異miRNA的ENTREZID號 |
GENENAME | 差異miRNA的基本描述信息 |
baseMean | 差異miRNA的表達量標準化后的平均值 |
Samples* | 樣本的原始表達矩陣表達量結果 |
Samples*_normal | 樣本的表達矩陣標準化后的結果 |
2.6.2. 差異miRNA的熱圖聚類(lèi)
??將所有比較組的差異miRNA取并集之后作為差異miRNA集。兩組以上的實(shí)驗,可對差異miRNA集進(jìn)行聚類(lèi)分析,將表達模式相近的基因聚在一起。我們采用主流的層次聚類(lèi)對基因的表達值進(jìn)行聚類(lèi)分析,對行(row)進(jìn)行均一化處理(Z-score)。熱圖中表達模式相近的基因或樣本會(huì )被聚集在一起,每個(gè)方格中的顏色反映的不是基因表達值,而是表達數據的行進(jìn)行均一化處理后得到的數值(一般在-1到1之間),所以熱圖中的顏色只能橫向比較(同一基因在不同樣本中的表達情況),不能縱向比較(同一樣本不同基因的表達情況)。結果文件中既有組間的聚類(lèi),也有樣品間的聚類(lèi)。結題報告展示了樣品間的聚類(lèi),具體如下圖所示。

圖 2.6.2. 差異表達基因聚類(lèi)熱圖
圖中橫坐標為樣品名,縱坐標為差異miRNA歸一化后的數值,顏色越紅,表達量越高,越藍,表達量越低。
結果文件:
差異miRNA的熱圖結果:
04.DE/heatmap/
2.6.3. 差異miRNA的火山圖分布
??火山圖可直觀(guān)展示每個(gè)比較組合的差異miRNA分布情況,如下圖所示。圖中橫坐標表示基因在處理和對照兩組中的表達倍數變化(log2FoldChange),縱坐標表示基因在處理和對照兩組中表達差異的顯著(zhù)性水平(-log10padj或-log10pvalue)。為上調基因用紅色點(diǎn)表示,下調基因用藍色點(diǎn)表示。

圖 2.6.3. 差異miRNA火山圖
圖中橫坐標為log2FoldChange值,縱坐標為-log10padj或-log10pvalue,藍色的虛線(xiàn)表示差異基因篩選標準的閾值線(xiàn)
結果文件:
差異基因的火山圖結果:
04.DE/volcano/
2.7. 靶基因預測
??miRNA是一類(lèi)在生物體內起到重要調控作用的的小片段非編碼RNA。一般認為miRNA通過(guò)和mRNA的結合,可以抑制mRNA的表達,從而影響到Gene的表達。
all ![]() | down ![]() | up ![]() |
圖 2.7.1. TargetScan vs miRDB 的靶基因交集veen圖



