<div id="wf6d9"><ol id="wf6d9"></ol></div>

高效、務(wù)實(shí)、嚴謹、敬業(yè)

服務(wù)目錄

技術(shù)服務(wù)

技術(shù)專(zhuān)題

聯(lián)系我們

聯(lián)系我們

廣州賽誠生物科技有限公司
廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà)：020-85625352
手機：18102256923、18102253682
Email：servers@gzscbio.com
Fax：020-85625352
QQ：386244141

您當前所在的位置：首頁(yè)>>服務(wù)目錄(停用) >>分子機制實(shí)驗平臺 >>生物信息學(xué)分析-報告解讀

miRNA結題報告

項目名稱(chēng)：miRNA結題報告

所屬分類(lèi)：生物信息學(xué)分析-報告解讀

聯(lián)系電話(huà)：020-85625352

QQ：386244141

Email：servers@gzscbio.com

技術(shù)服務(wù)描述

miRNA結題報告

生信部

2021年01月28日

1. 建庫測序工作流程

1.1. 建庫測序流程

??MicroRNA (miRNA) 是一類(lèi)長(cháng)度約為20-24個(gè)核苷酸長(cháng)度的具有調控功能的非編碼RNA，miRNA 是生物體內一類(lèi)重要的特殊分子，誘導基因沉默，參與細胞生長(cháng)、發(fā)育、基因轉錄和翻譯等諸多生命活動(dòng)的調控過(guò)程。

??從RNA樣品到最終分析結果數據，需要經(jīng)過(guò)樣品檢測、建庫、測序和信息分析等過(guò)程，其中測序過(guò)程我們采用高通量測序illumina HiSeq/MiSeq測序平臺；illumina測序得到的原始圖像數據文件經(jīng)堿基識別（Base Calling）分析轉化為原始測序序列（Sequenced Reads），我們稱(chēng)之為Raw Data或Raw Reads，結果以FASTQ（簡(jiǎn)稱(chēng)為fq）文件格式存儲，其中包含測序序列（reads）的序列信息以及其對應的測序質(zhì)量信息。

??樣品質(zhì)量檢測：利用NanoDrop 2000分光光度計對RNA樣品進(jìn)行初步定量，Aglient 2100對樣品濃度精確定量。RNA樣品總量、濃度、完整性（RIN值，RNA Integrity Number）、純度（OD260/OD280比值）符合收樣立項標準后，進(jìn)入下一步的文庫構建。

??文庫構建：Total RNA PEG (polyethylene glycol)沉淀，連接3’接頭，PAGE (polyacrylamide gel electrophoresis) 膠分離回收，連接5’接頭，反轉錄，PCR擴增，文庫切膠回收。

??文庫質(zhì)檢：Q-PCR方法對文庫進(jìn)行精確定量，文庫有效濃度>2nM即可上機測序。

??上機測序：將各文庫按照有效濃度及目標下機數據量的需求pooling后，進(jìn)行SE75測序。

圖1: Small RNA 文庫構建 Workflow

??Small RNA測序的接頭信息：

??RNA 5‘Adapter (RA5), part:

??5’-GTTCAGAGTTCTACAGTCCGACGATC-3’

??RNA 3’Adapter (RA3), part:

??5’-AGATCGGAAGAGCACACGTCT-3’ (1ug流程)

??5’-CTGTAGGCACCATCAATCAGATCGGAAGAGCACACGTCTG-3’ (10ug流程)

2. 信息分析流程

??Raw Data通過(guò)去接頭、去低質(zhì)量、去污染、統計序列長(cháng)度分布等過(guò)程完成初級分析；將初級分析得到的clean reads與ncRNA庫比對，分類(lèi)注釋ncRNA，并去除reads中的rNRA、tRNA、snRNA、snoRNA等；然后再將reads比對到參考基因組、miRBase上，計算miRNA表達量，注釋已知miRNA、預測新的miRNA；然后進(jìn)行差異miRNA、靶基因預測、功能注釋等后續分析。

miRNA生物信息分析流程圖

2.1. miRNA-seq 測序數據質(zhì)量評估

2.1.1. 數據質(zhì)量評估及數據過(guò)濾

??對于測序得到的rawdata，我們首先使用fastqc進(jìn)行數據質(zhì)量評估，通過(guò)結果，我們可以了解到測序數據reads質(zhì)量、長(cháng)度、堿基分布，序列重復頻次等基本信息。

??測序得到的raw data，里面含有帶接頭的、低質(zhì)量的reads，為了保證后續信息分析的質(zhì)量，必須對raw reads進(jìn)行處理，得到clean reads。

??raw data的過(guò)濾步驟如下：去除低質(zhì)量 reads; 去除有5’接頭污染的reads; 去除沒(méi)有3’接頭序列; 去除沒(méi)有插入片段的reads; 去除長(cháng)度小于16nt的reads;

??數據經(jīng)過(guò)以上過(guò)濾后，我們對數據做一些基本統計。

結果：

結果說(shuō)明	結果文件
原始數據 RawData QC 結果	`00.QC/qc_rawdata/`
過(guò)濾數據 CleanData QC 結果	`00.QC/qc_cleandata`
Trimmed Reads (unique) 結果文件	`00.QC/*.trim.collapse.fa`

2.2. 數據長(cháng)度分布

??一般來(lái)說(shuō)，小RNA的長(cháng)度區間為18～30nt，數據過(guò)濾完成后，我們統計了clean reads數目及各自占總reads的百分比，并繪制reads長(cháng)度分布圖。reads長(cháng)度分布圖能幫助我們判斷小RNA的種類(lèi)，如miRNA集中在21或22nt，siRNA集中在24nt，piRNA集中在30nt。

Clean Data Reads 長(cháng)度分布統計直方圖：

Figure 2.2: Small RNA Clean Reads長(cháng)度分布圖

Clean Reads長(cháng)度分布直方圖，橫坐標為Reads的長(cháng)度，縱坐標為樣品中對應該長(cháng)度的total Reads數量。

2.3. miRNA基因組比對分析

??我們將Clean Reads 與 mature miRNA, miRNA hairpin, mRNA, mature & primary tRNA, snoRNA, rRNA, other non-coding RNA, and (optional) known RNA 使用bowtie進(jìn)行比對搜索，然后統計reads的比對情況，分析樣本中各類(lèi)ncRNA的數目及比例情況，統計結果如下。過(guò)濾出待分析的miRNA以便后續分析，將clean reads中ncRNA盡可能地去除，便于后續 miRNA 檢測及預測。

Reads類(lèi)型分布圖

圖顯示的是各類(lèi)型的RNA reads和miRNA reads占總distinct reads的比例。

與參考基因組比對質(zhì)控結果：

結果說(shuō)明	結果文件
Trimmed Reads (unique) 與參考基因組的比對結果(bam)	`01.Mapping/*.bam`
Trimmed Reads (unique) 與參考基因組的比對結果(bw)	`01.Mapping/*.bw`
各類(lèi)型RNA統計情況	`00.QC/annotation.report.csv`
與各個(gè)smallRNA比對的詳細結果	`01.Mapping/mapped.csv`

2.4. 已知 miRNA 的檢測以及 novel miRNA 預測分析

??首先用去除了ncRNA后的Reads比對miRbase數據庫，比對上miRbase中 reads 用于檢測已知成熟的miRNA，并統計其表達量和RPM值。我們采用miRge軟件來(lái)進(jìn)行 miRNA reads 檢測注釋、novel miRNA的預測、miRNA表達量的統計。

miRNA分析結果匯總：

結果說(shuō)明	結果文件
基本注釋結果：
miRNA reads 變體類(lèi)型注釋結果	`02.miRNA/1.isomiR/sample_miRge3.gff`
miRNA reads 變體類(lèi)型可視化統計	`02.miRNA/1.isomiR/*svg`
miRNA堿基編輯分析結果：
A2I在各個(gè)樣本中統計匯總表	`02.miRNA/2.a2IEditing/a2IEditing.report.csv`
A2I在各個(gè)樣本中統計匯總表的篩選及簡(jiǎn)化信息 ( 即匯總表的`.RPM.mismatch`、`.AtoI.percentage`列 )	`02.miRNA/2.a2IEditing/a2IEditing.report.newform.csv`
A2I分析的序列及統計詳情信息	`02.miRNA/2.a2IEditing/a2IEditing.detail.txt`
二級結構預測結果：
novel miRNA 二級結構預測結果	`02.miRNA/3.novel_predict/*.R1_novel_miRNAs/`
novel miRNA 二級結構預測詳細信息表格匯總	`02.miRNA/3.novel_predict/.R1_novel_miRNAs/_novel_miRNAs_report.csv`

以上miRNA各圖的可視化網(wǎng)頁(yè)：02.miRNA/miR_visualization.html

2.4.1. miRNA異構體分析

??隨著(zhù)高通量測序技術(shù)的發(fā)展，早期認為的miRNA loci僅產(chǎn)生1條miRNA成熟體序列這一觀(guān)點(diǎn)被顛覆。對于某一miRNA來(lái)說(shuō)，它并不是單一的序列，而是由一系列長(cháng)度/序列及表達不同的異構體 (isomiRs) 組成。這些isomiRs表達多樣且序列多樣，甚至引入多樣的5'端及種子區域。特定miRNA位點(diǎn)在疾病組織中可具有異常的表達模式，現已證實(shí)，部分isomiRs具有重要的生物學(xué)功能。

??IsomiRs目前主要分為三類(lèi)：5′isomiRs, 3′isomiRs, polymorphic isomiRs。IsomiRs的產(chǎn)生機制主要有：miRNA加工和成熟過(guò)程中Darsha和Dicer酶的不精確或選擇性剪切；3'端核苷酸添加；RNA編輯和單核苷酸多態(tài)性( single nucleotide polymorphism，SNP)。主要表現為：5'端修剪；3' 端修剪；3'端核苷酸附加和堿基替換。其中，5'端修剪和堿基替換可發(fā)生在種子區域內部，產(chǎn)生“種子轉移”（seed shifting）。

??我們通過(guò)序列與miRbase比對的情況，將各個(gè)miRNA Reads進(jìn)行isomiR識別，并同時(shí)匯總至miRNA reads 注釋結果中，分類(lèi)統計，并選取表達量較高的前20個(gè)mirna進(jìn)行各類(lèi)IsomiRs表達豐度統計。

圖2.4.1 所有樣本的變體類(lèi)型分布（isomiRs）

圖2.4.2 各個(gè)樣本的變體分布TOP20的豐度統計

2.4.2. miRNA 堿基編輯

??成熟miRNA序列的第2-8個(gè)堿基被稱(chēng)作“種子”序列，保守性很高。若在這一區域發(fā)生堿基突變，則可能改變miRNA的靶基因作用位點(diǎn)。我們通過(guò)將miRNA序列與miRBase中已知miRNA前體以及成熟miRNA序列進(jìn)行比對(只允許一個(gè)位點(diǎn)的錯配)找出發(fā)生了堿基突變的miRNA，統計匯總在該miRNA的堿基突變位點(diǎn)，以及發(fā)生堿基編輯的Reads數量及百分比，并對統計概況結果進(jìn)行可視化。

圖2.4.3 鑒定為已存在mirna堿基編輯的在各個(gè)樣本中的相應readCount占比統計圖

miRNA堿基編輯分析結果詳細說(shuō)明：

A2I在各個(gè)樣本中統計匯總表

結果文件：02.miRNA/2.a2IEditing/a2IEditing.report.csv

表頭說(shuō)明：

結果說(shuō)明	結果文件
基本注釋結果：
miRNA reads 變體類(lèi)型注釋結果	`02.miRNA/1.isomiR/sample_miRge3.gff`
miRNA reads 變體類(lèi)型可視化統計	`02.miRNA/1.isomiR/*svg`
miRNA堿基編輯分析結果：
A2I在各個(gè)樣本中統計匯總表	`02.miRNA/2.a2IEditing/a2IEditing.report.csv`
A2I在各個(gè)樣本中統計匯總表的篩選及簡(jiǎn)化信息 ( 即匯總表的`.RPM.mismatch`、`.AtoI.percentage`列 )	`02.miRNA/2.a2IEditing/a2IEditing.report.newform.csv`
A2I分析的序列及統計詳情信息	`02.miRNA/2.a2IEditing/a2IEditing.detail.txt`
二級結構預測結果：
novel miRNA 二級結構預測結果	`02.miRNA/3.novel_predict/*.R1_novel_miRNAs/`
novel miRNA 二級結構預測詳細信息表格匯總	`02.miRNA/3.novel_predict/.R1_novel_miRNAs/_novel_miRNAs_report.csv`

A2I在各個(gè)樣本中統計匯總表的篩選及簡(jiǎn)化信息
( 即匯總表的*.RPM.mismatch、*.AtoI.percentage列，該表對應上面的可視化結果 )

結果文件：02.miRNA/2.a2IEditing/a2IEditing.report.newform.csv
表頭說(shuō)明：

結果說(shuō)明	結果文件
基本注釋結果：
miRNA reads 變體類(lèi)型注釋結果	`02.miRNA/1.isomiR/sample_miRge3.gff`
miRNA reads 變體類(lèi)型可視化統計	`02.miRNA/1.isomiR/*svg`
miRNA堿基編輯分析結果：
A2I在各個(gè)樣本中統計匯總表	`02.miRNA/2.a2IEditing/a2IEditing.report.csv`
A2I在各個(gè)樣本中統計匯總表的篩選及簡(jiǎn)化信息 ( 即匯總表的`.RPM.mismatch`、`.AtoI.percentage`列 )	`02.miRNA/2.a2IEditing/a2IEditing.report.newform.csv`
A2I分析的序列及統計詳情信息	`02.miRNA/2.a2IEditing/a2IEditing.detail.txt`
二級結構預測結果：
novel miRNA 二級結構預測結果	`02.miRNA/3.novel_predict/*.R1_novel_miRNAs/`
novel miRNA 二級結構預測詳細信息表格匯總	`02.miRNA/3.novel_predict/.R1_novel_miRNAs/_novel_miRNAs_report.csv`

A2I分析的序列及統計詳情信息

結果文件：02.miRNA/2.a2IEditing/a2IEditing.detail.txt
結果說(shuō)明：
①每一個(gè)miRNA塊，包含3小塊內容：原始序列、篩選后的序列統計、篩選后的序列。重復的miRNA塊代表不同樣本，順序為 A2I在各個(gè)樣本中統計匯總表的樣本信息。
②每一行序列包含3個(gè)信息， miRNA sequence（reads序列），*.readCount（Count計數），Filter（是否篩選到后續進(jìn)行堿基編輯分析）

2.4.3. novel miRNA 預測及二級結構分析

??miRge根據序列特征，堿基配對原則，最小自由能等特征模型，進(jìn)行新穎的miRNA及二級結構預測。預測示意圖如下。結果見(jiàn)：02.miRNA/3.novel_predict/

圖2.4.4 新miRNA的二級結構預測示意圖

2.5. miRNA 定量分析

2.5.1. 樣本間相關(guān)性分析

??生物學(xué)重復通常是任何生物學(xué)實(shí)驗所必須的，目前主流期刊也基本要求生物學(xué)重復。生物學(xué)重復主要有兩個(gè)用途：一個(gè)是證明所涉及的生物學(xué)實(shí)驗操作不是偶然，而是可重復的。另一個(gè)是為了確保后續的差異分析得到更可靠的結果。樣品間基因表達水平相關(guān)性是檢驗實(shí)驗可靠性和樣本選擇是否合理的重要指標。相關(guān)系數越接近1，表明樣品之間表達模式的相似度越高。Encode計劃建議皮爾遜相關(guān)系數的平方(R2)大于0.92(理想的取樣和實(shí)驗條件下)。具體的項目操作中，我們要求生物學(xué)重復樣品間R2至少要大于0.8，否則需要對樣品做出合適的解釋?zhuān)蛘咧匦逻M(jìn)行實(shí)驗。根據各樣本所有基因的表達值計算組內及組間樣本的相關(guān)性系數，繪制成熱圖，可直觀(guān)顯示組間樣本差異及組內樣本重復情況。樣本間相關(guān)性系數越高，其表達模式越為接近，樣本相關(guān)性熱圖如下圖所示。

圖 2.5.1. 樣本間相關(guān)性熱圖

圖中橫縱坐標為各樣本相關(guān)系數的平方

結果文件：

樣本間相關(guān)性熱圖結果：04.DE/Quant/cor_pheatmap*

2.5.2. 主成分分析

??主成分分析（PCA）也常用來(lái)評估組間差異及組內樣本重復情況，PCA采用線(xiàn)性代數的計算方法，對數以萬(wàn)計的基因變量進(jìn)行降維及主成分提取。我們對所有樣本的基因表達值進(jìn)行PCA分析，如下圖所示。理想條件下，PCA圖中，組間樣本應該分散，組內樣本應該聚在一起。

圖 2.5.2. 主成分分析結果圖

圖中橫坐標為第一主成分，縱坐標為第二主成分

結果文件：

主成分分析結果：04.DE/Quant/pca*

2.6. miRNA 差異分析

??基因表達定量完成后，需要對其表達數據進(jìn)行統計學(xué)分析，篩選樣本在不同狀態(tài)下表達水平顯著(zhù)差異的基因。差異分析主要分為三個(gè)步驟。

首先對原始的readcount進(jìn)行標準化（normalization），主要是對測序深度的校正。
然后統計學(xué)模型進(jìn)行假設檢驗概率（pvalue）的計算
最后進(jìn)行多重假設檢驗校正，得到FDR值（錯誤發(fā)現率，padj是其常見(jiàn)形式)[1-2]。

??針對不同的實(shí)驗情況，我們選用合適的軟件進(jìn)行基因表達差異顯著(zhù)性分析，具體如下表所示。

表1 表達差異分析所用軟件及差異基因篩選標準

類(lèi)型	軟件	標準化方法	pvalue計算模型	FDR計算方法	差異基因篩選標準
有生物學(xué)重復	DESeq2(Anders et al, 2014)	DESeq	負二項分布	BH	\|log2(FoldChange)\| > 0 & padj < 0.05
無(wú)生物學(xué)重復	edgeR(Robinson et al, 2010)	TMM	負二項分布	BH	\|log2(FoldChange)\| > 1 & padj < 0.05

??若按照以上標準篩選得到的差異基因過(guò)少（低于100），很有可能導致后面的功能富集分析沒(méi)有顯著(zhù)性結果，所以，我們會(huì )根據項目的具體情況，適當地降低篩選差異基因的閾值標準。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況（如基因敲除），不在意富集結果，從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。

??一般來(lái)說(shuō)，如果一個(gè)基因在兩組樣品中的表達量差異達到兩倍以上，我們認為這樣的基因是具有表達差異的。為了判斷兩個(gè)樣品之間的表達量差異究竟是由于各種誤差導致的還是本質(zhì)差異，我們需要對所有基因在這兩個(gè)樣本中的表達量數據進(jìn)行假設檢驗。而轉錄組分析是針對成千上萬(wàn)個(gè)基因進(jìn)行的，這樣會(huì )導致假陽(yáng)性的累積，基因數目越多，假設檢驗的假陽(yáng)性累積程度會(huì )越高，所以引入padj對假設檢驗的P-value進(jìn)行校正，從而控制假陽(yáng)性的比例[3]。

??差異基因的篩選標準是非常重要的，我們給出的標準|log2(FoldChange)| > 1 & padj< 0.05是常用的經(jīng)驗值，在實(shí)際項目中可以根據情況靈活選擇。例如，差異倍數可以選擇1.5倍，也可以選擇3倍，padj常用的閾值包括0.01、0.05、0.1等。若按照以上標準篩選得到的差異基因過(guò)少，很有可能導致后?的功能富集分析沒(méi)有顯著(zhù)性結果。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況（如基因敲除），不在意富集結果，從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。反之，如果得到的差異基因數目過(guò)多，不利于后續目標基因的篩選，這個(gè)時(shí)候可使用更嚴格的閾值標準進(jìn)行篩選，則可以使用更嚴格的閾值標準進(jìn)行篩選。

2.6.1. 差異miRNA的篩選

??通過(guò)Deseq2進(jìn)行差異分析，我們通常采用 |log2FC|>1 & padj < 0.05 進(jìn)行差異miRNA的篩選，差異計算結果如下。

結果文件：

結果說(shuō)明	結果文件
定量分析表達矩陣結果	`04.DE/miR.Counts.csv`
差異miRNA分析結果（ALL）	`04.DE/Allgene_anno_ALL.xls`
差異miRNA分析結果（篩選后）	`04.DE/Allgene_anno.xls`

04.DE/Allgene_anno.xls表頭

表頭	說(shuō)明
`ENSEMBL`	差異miRNA的ENSEMBL名
`pvalue`	差異miRNA的置信度計算結果
`padj`	差異miRNA的多重校驗FDR
`log2FC`	Treat組 vs Control組差異倍數的log2標準化結果
`FC`	Treat組 vs Control組差異倍數
`log2FC_abs`	Treat組 vs Control組差異倍數的log2標準化結果的絕對值（此列便于篩選log2FC閾值）
`FC_HvsL`	高表達組 vs 低表達組差異倍數（此列便于篩選FC閾值）
`change`	使用本次分析的閾值，對差異miRNA的上下調標記
`miRNA`	差異miRNA的miRNA名
`ENTREZID`	差異miRNA的ENTREZID號
`GENENAME`	差異miRNA的基本描述信息
`baseMean`	差異miRNA的表達量標準化后的平均值
`Samples*`	樣本的原始表達矩陣表達量結果
`Samples*_normal`	樣本的表達矩陣標準化后的結果

2.6.2. 差異miRNA的熱圖聚類(lèi)

??將所有比較組的差異miRNA取并集之后作為差異miRNA集。兩組以上的實(shí)驗，可對差異miRNA集進(jìn)行聚類(lèi)分析，將表達模式相近的基因聚在一起。我們采用主流的層次聚類(lèi)對基因的表達值進(jìn)行聚類(lèi)分析，對行（row）進(jìn)行均一化處理（Z-score）。熱圖中表達模式相近的基因或樣本會(huì )被聚集在一起，每個(gè)方格中的顏色反映的不是基因表達值，而是表達數據的行進(jìn)行均一化處理后得到的數值（一般在-1到1之間），所以熱圖中的顏色只能橫向比較（同一基因在不同樣本中的表達情況），不能縱向比較（同一樣本不同基因的表達情況）。結果文件中既有組間的聚類(lèi)，也有樣品間的聚類(lèi)。結題報告展示了樣品間的聚類(lèi)，具體如下圖所示。

圖 2.6.2. 差異表達基因聚類(lèi)熱圖

圖中橫坐標為樣品名，縱坐標為差異miRNA歸一化后的數值，顏色越紅，表達量越高，越藍，表達量越低。

結果文件：

差異miRNA的熱圖結果：04.DE/heatmap/

2.6.3. 差異miRNA的火山圖分布

??火山圖可直觀(guān)展示每個(gè)比較組合的差異miRNA分布情況，如下圖所示。圖中橫坐標表示基因在處理和對照兩組中的表達倍數變化(log2FoldChange)，縱坐標表示基因在處理和對照兩組中表達差異的顯著(zhù)性水平(-log10padj或-log10pvalue)。為上調基因用紅色點(diǎn)表示，下調基因用藍色點(diǎn)表示。

圖 2.6.3. 差異miRNA火山圖

圖中橫坐標為log2FoldChange值，縱坐標為-log10padj或-log10pvalue，藍色的虛線(xiàn)表示差異基因篩選標準的閾值線(xiàn)

結果文件：

差異基因的火山圖結果：04.DE/volcano/

2.7. 靶基因預測

??miRNA是一類(lèi)在生物體內起到重要調控作用的的小片段非編碼RNA。一般認為miRNA通過(guò)和mRNA的結合，可以抑制mRNA的表達，從而影響到Gene的表達。

all

down

up

圖 2.7.1. TargetScan vs miRDB 的靶基因交集veen圖

©2013 廣州賽誠生物科技有限公司版權所有
粵ICP備13047957號
技術(shù)支持：6053355

一级做受毛片免费大片_国产精品亚洲综合一区在线观看_亚洲免费黄片基地_欧美亚洲图色另类

<strike id="vtdh1"></strike>