高效、務(wù)實(shí)、嚴謹、敬業(yè)
服務(wù)目錄
技術(shù)服務(wù)
技術(shù)專(zhuān)題
聯(lián)系我們

聯(lián)系我們

廣州賽誠生物科技有限公司
廣州市黃埔區學(xué)大道攬月路廣州企業(yè)孵化器B座402
電話(huà):020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141

項目名稱(chēng):(RNA-seq)轉錄組測序及分析報告

所屬分類(lèi):生物信息學(xué)分析-報告解讀

聯(lián)系電話(huà):020-85625352

QQ:386244141

Email:servers@gzscbio.com

技術(shù)服務(wù)描述

轉錄組測序及分析報告

生信部

2021年03月19日


項目信息

合同編號:xx-xx-202x-xx-xx

客戶(hù)姓名:xxx

客戶(hù)單位:xxxxxx


1. 分析流程

1.1. 建庫測序流程


??從RNA樣品提取到最終數據獲得,樣品檢測、建庫、測序等每一環(huán)節都會(huì )直接影響數據的數量和質(zhì)量,從而影響后續數據分析的結果。為從源頭保證測序數據準確可靠,在數據的所有生產(chǎn)環(huán)節都嚴格把關(guān),從根源上確保高質(zhì)量數據的產(chǎn)出。建庫測序的流程:


  1. Total RNA 樣本檢測

  2. RNA 富集

  3. 雙鏈cDNA合成

  4. 末端修復、加A和接頭

  5. 片段選擇和 PCR 擴增

  6. 文庫質(zhì)檢

  7. Illumina測序


1.2. 信息分析流程


??RNA-seq的核心是基因表達差異的顯著(zhù)性分析,使用統計學(xué)方法,比較兩個(gè)條件或多個(gè)條件下的基因表達差異,從中找出與條件相關(guān)的特異性基因,然后進(jìn)一步分析這些特異性基因的生物學(xué)意義,分析過(guò)程包括質(zhì)控、比對、定量、差異顯著(zhù)性分析、功能富集等環(huán)節。信息分析流程如下圖所示:



2. 信息分析

2.1. 測序數據質(zhì)量控制

對原始測序數據及去除接頭后的可用數據進(jìn)行質(zhì)量評估。測序數據一般為雙端測序,因此,每個(gè)測序樣本會(huì )有兩個(gè)測序結果。

評估的具體內容見(jiàn):

RawData-fastqc 文件鏈接: /result/qc/qc_rawdata/*.html
CleanData-fastqc 文件鏈接: /result/qc/qc_cleandata/*.html
Fastqc 格式補充說(shuō)明: /result/qc/qc_Supplement.html


2.2. 參考基因組比對

??測序片段(fragments)mRNA隨機打斷的,為了確定這些一段由哪些基因轉錄來(lái),需要將質(zhì)控后的clean reads比對到參考基因組上。使用HISAT2軟件將Clean Reads與參考基因組進(jìn)行快速精確的比對,獲取Reads在參考基因組上的定位信息[4]。HISAT2軟件官方手冊。

??如果參考基因組組裝的較為完善,而且所測物種與參考基因組一致,且相關(guān)實(shí)驗不存在污染,那么實(shí)驗所產(chǎn)生的測序reads成功比對到基因組的比例會(huì )高于70% (Total Mapped Reads or Fragments)。本項目所用參考基因組為 hg38 ,下載鏈接:Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz,基因組結構注釋文件:Homo_sapiens.GRCh38.90.gtf.gz。

結果文件:

各個(gè)樣本的比對情況統計文件:/result/map_stat/*.flagstat.txt


2.3. 定量分析

2.3.1. 基因表達定量

??我們對每個(gè)樣本分別進(jìn)行基因表達水平的定量分析,再合并得到所有樣本的表達矩陣,第一列為基因的ID,其余列為各樣本的原始read count值,seqname列之后為該基因注釋信息。

表格說(shuō)明:



表頭說(shuō)明
Geneid基因名
Samples_name*樣本的表達矩陣原始read count值
...同上
seqname基因所在的染色體名稱(chēng)
start基因所在染色體的起始位置
end基因所在染色體的終止位置
strand基因所在染色體的正負鏈信息
ENSEMBL基因名稱(chēng)ENSEMBL
SYMBOL基因名稱(chēng)SYMBOL
biotype基因注釋中對應的biotype
description基因功能描述



結果文件:

原始表達矩陣及注釋結果:result/Quant/gene_counts.xls

2.3.2. 樣本間相關(guān)性

??生物學(xué)重復通常是任何生物學(xué)實(shí)驗所必須的,目前主流期刊也基本要求生物學(xué)重復。生物學(xué)重復主要有兩個(gè)用途:一個(gè)是證明所涉及的生物學(xué)實(shí)驗操作不是偶然,而是可重復的。另一個(gè)是為了確保后續的差異基因分析得到更可靠的結果。樣品間基因表達水平相關(guān)性是檢驗實(shí)驗可靠性和樣本選擇是否合理的重要指標。相關(guān)系數越接近1,表明樣品之間表達模式的相似度越高。Encode計劃建議皮爾遜相關(guān)系數的平方(R2)大于0.92(理想的取樣和實(shí)驗條件下)。具體的項目操作中,我們要求生物學(xué)重復樣品間R2至少要大于0.8,否則需要對樣品做出合適的解釋?zhuān)蛘咧匦逻M(jìn)行實(shí)驗。根據各樣本所有基因的表達值計算組內及組間樣本的相關(guān)性系數,繪制成熱圖,可直觀(guān)顯示組間樣本差異及組內樣本重復情況。樣本間相關(guān)性系數越高,其表達模式越為接近,樣本相關(guān)性熱圖如下圖所示。




圖 1 樣本間相關(guān)性熱圖

圖中橫縱坐標為各樣本相關(guān)系數的平方

結果文件:

樣本間相關(guān)性熱圖結果:Quant/cor_pheatmap*


2.3.3. 主成分分析

??主成分分析(PCA)也常用來(lái)評估組間差異及組內樣本重復情況,PCA采用線(xiàn)性代數的計算方法,對數以萬(wàn)計的基因變量進(jìn)行降維及主成分提取。我們對所有樣本的基因表達值進(jìn)行PCA分析,如下圖所示。理想條件下,PCA圖中,組間樣本應該分散,組內樣本應該聚在一起。



圖 2 主成分分析結果圖

圖中橫坐標為第一主成分,縱坐標為第二主成分

結果文件:

主成分分析結果:Quant/pca*


2.4. 差異分析

??基因表達定量完成后,需要對其表達數據進(jìn)行統計學(xué)分析,篩選樣本在不同狀態(tài)下表達水平顯著(zhù)差異的基因。差異分析主要分為三個(gè)步驟。

  • 首先對原始的readcount進(jìn)行標準化(normalization),主要是對測序深度的校正。

  • 然后統計學(xué)模型進(jìn)行假設檢驗概率(pvalue)的計算

  • 最后進(jìn)行多重假設檢驗校正,得到FDR值(錯誤發(fā)現率,padj是其常見(jiàn)形式)[1-2]。

??針對不同的實(shí)驗情況,我們選用合適的軟件進(jìn)行基因表達差異顯著(zhù)性分析,具體如下表所示。


1 表達差異分析所用軟件及差異基因篩選標準

類(lèi)型軟件標準化方法pvalue計算模型FDR計算方法差異基因篩選標準
有生物學(xué)重復DESeq2(Anders et al, 2014)DESeq負二項分布BH|log2(FoldChange)| > 0 & padj < 0.05
無(wú)生物學(xué)重復edgeR(Robinson et al, 2010)TMM負二項分布BH|log2(FoldChange)| > 1 & padj < 0.05


??若按照以上標準篩選得到的差異基因過(guò)少(低于100),很有可能導致后面的功能富集分析沒(méi)有顯著(zhù)性結果,所以,我們會(huì )根據項目的具體情況,適當地降低篩選差異基因的閾值標準。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況(如基因敲除),不在意富集結果,從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。

??一般來(lái)說(shuō),如果一個(gè)基因在兩組樣品中的表達量差異達到兩倍以上,我們認為這樣的基因是具有表達差異的。為了判斷兩個(gè)樣品之間的表達量差異究竟是由于各種誤差導致的還是本質(zhì)差異,我們需要對所有基因在這兩個(gè)樣本中的表達量數據進(jìn)行假設檢驗。而轉錄組分析是針對成千上萬(wàn)個(gè)基因進(jìn)行的,這樣會(huì )導致假陽(yáng)性的累積,基因數目越多,假設檢驗的假陽(yáng)性累積程度會(huì )越高,所以引入padj對假設檢驗的P-value進(jìn)行校正,從而控制假陽(yáng)性的比例[3]。

??差異基因的篩選標準是非常重要的,我們給出的標準|log2(FoldChange)| > 1 & padj< 0.05是常用的經(jīng)驗值,在實(shí)際項目中可以根據情況靈活選擇。例如,差異倍數可以選擇1.5倍,也可以選擇3倍,padj常用的閾值包括0.01、0.05、0.1等。若按照以上標準篩選得到的差異基因過(guò)少,很有可能導致后?的功能富集分析沒(méi)有顯著(zhù)性結果。若項目實(shí)驗只關(guān)注某幾個(gè)基因的表達情況(如基因敲除),不在意富集結果,從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。反之,如果得到的差異基因數目過(guò)多,不利于后續目標基因的篩選,這個(gè)時(shí)候可使用更嚴格的閾值標準進(jìn)行篩選,則可以使用更嚴格的閾值標準進(jìn)行篩選。



2.4.1. 差異基因的篩選

??通過(guò)Deseq2進(jìn)行差異分析,我們通常采用 |log2FC|>1 & padj < 0.05 進(jìn)行差異基因的篩選,隨后對差異基因進(jìn)行注釋?zhuān)玫桨⑨屝畔⒌牟町惢蛄斜怼?/p>

結果文件:

差異基因列表及相關(guān)注釋信息(篩選結果):result/Enrichment/Allgene_anno.xls
差異基因列表及相關(guān)注釋信息(總的結果):result/Enrichment/Allgene_anno_ALL.xls


Differential/Allgene_anno*.xls表頭

Differential/Allgene_anno*.xls表頭


Differential/Allgene_anno*.xls表頭


Differential/Allgene_anno*.xls表頭


Differential/Allgene_anno*.xls表頭


Differential/Allgene_anno*.xls表頭


Differential/Allgene_anno*.xls表頭



一级做受毛片免费大片_国产精品亚洲综合一区在线观看_亚洲免费黄片基地_欧美 亚洲 图色 另类