在《Absolute quantitation of microbiota abundance in environmental samples》一文中, 作者使用生信分析方法實(shí)現(xiàn)環(huán)境樣品中微生物群落豐度的絕對(duì)定量。
文章中生物信息分析主要包括擴(kuò)增子分析、多維標(biāo)度分析和T檢驗(yàn)分析。
1)擴(kuò)增子分析采用Usearch10,且采用Unoise3非聚類直接去噪生成ZOTUs(Zero-radius OTUs),但該軟件的64位版本收費(fèi),而免費(fèi)的32位版對(duì)數(shù)據(jù)分析量有限制。
2)采用PRIMER6軟件進(jìn)行降維方法非度量多維標(biāo)度 (Non-metric Multidimensional scaling,NMDS)來(lái)分析兩組微生物群落結(jié)構(gòu)組成是否存在顯著差異。
3)采用統(tǒng)計(jì)學(xué)方法中的T檢驗(yàn)并進(jìn)行Bonferroni 矯正來(lái)檢驗(yàn)兩組樣品之間物種組成是否存在顯著性差異。
擴(kuò)增子分析
分析步驟如下:
1.擴(kuò)增子分析采用Usearch 10,且查找OTU使用非聚類算法unoise3(我們展示最新版本Usearch 11操作方法);
2.三類擴(kuò)增子注釋數(shù)據(jù)庫(kù)分別采用SILVA, PR2 and ITSone數(shù)據(jù)庫(kù);
3.擴(kuò)增子分析時(shí),需先將PEF三種合成spikes的序列和注釋信息分別加入到各自數(shù)據(jù)庫(kù)中;
4. 最終得到OTU代表序列需滿足各自的限定長(zhǎng)度。
Step1:Merge paired reads(雙端測(cè)序數(shù)據(jù)合并)
Step2:Strip primers (去除前后端引物片段)
Step3:Quality filter(質(zhì)控)
Step4:Find unique read sequences and abundances (去冗余)
Step5:Denoise: predict biological sequences and filter chimeras(查找ZOTUs&去嵌合體)
Step6:Make OTU table & Normalize to 5k reads for each sample(生成OTU table表并進(jìn)行均一化)
Step7:Predict taxonomy(對(duì)每個(gè)OTU進(jìn)行物種注釋)
Step8:Taxonomy summary reports(生成不同水平下的物種注釋匯總表)
上述Usearch11的8個(gè)步驟已滿足本文獻(xiàn)中所有擴(kuò)增子分析需求,后續(xù)的分析均以Step6或Step8得到的Table表為基礎(chǔ),通過(guò)格式轉(zhuǎn)化統(tǒng)計(jì)相應(yīng)基因的拷貝數(shù),或通過(guò)比較合成spikes和某物種的相對(duì)豐度并結(jié)合加入spikes的實(shí)際含量,計(jì)算得出對(duì)應(yīng)物種絕對(duì)含量等,最后實(shí)現(xiàn)可視化(點(diǎn)圖/折線圖/柱狀圖等可利用R實(shí)現(xiàn))及美化(可采用Adobe Illustrator CS6軟件向結(jié)果圖添加其他元素)。
NMDS分析
分析步驟如下:
1.軟件下載地址:https://www.primer-e.com/download/,安裝軟件,進(jìn)入操作界面
2.點(diǎn)擊File上傳ZOTUs Table表,txt文件即可,選擇Data type,勾選基本屬性,導(dǎo)入物種豐度表
3.點(diǎn)擊Pre-treatment→Transform(Overall)進(jìn)行數(shù)據(jù)預(yù)處理,格式轉(zhuǎn)化,文章采用的是取平方根Square root
4.點(diǎn)擊Analyse→Resemblance計(jì)算樣品間的距離矩陣,方法選擇Bray-Curtis similarity
5.點(diǎn)擊Analyse→MDS→Non-metric MDS(nMDS)…,進(jìn)行非度量多維標(biāo)度(NMDS)分析
非度量多維標(biāo)度(NMDS)分析參數(shù)設(shè)置:建議參數(shù)選擇如下,其中Number of restarts迭代次數(shù)較重要,直接影響結(jié)果的可靠性,默認(rèn)值為50,操作文檔建議設(shè)置為100。結(jié)果展示如下,樣品間的距離越近,表示其物種組成越接近。
T檢驗(yàn)
為了比較兩種土壤特定物種的相對(duì)/絕對(duì)豐度是否存在顯著差異,文章采用了T檢驗(yàn)法并進(jìn)行Bonferroni多重檢驗(yàn)矯正,將最終矯正得到的p_value值(為了區(qū)分用q表示)作為是否存在顯著差異的評(píng)判標(biāo)準(zhǔn),在文章中“*”表示q< 0.05, “***”表示q < 0.01, “***”表示q < 0.001。
T檢驗(yàn)的R語(yǔ)言分析流程:
Step1:安裝并載入分析需要的包
Step2:讀入文件
Step3:選擇要比較的兩組組(此處查看 group1 與 group2 的物種species_A 豐度是否存在顯著差異)
Step4:驗(yàn)證數(shù)據(jù)是否符合正態(tài)分布
Step5:獨(dú)立樣本的 t 檢驗(yàn)
Step6:Bonferroni多重檢驗(yàn)矯正
結(jié)果說(shuō)明:
1.正態(tài)QQ圖:若所有的點(diǎn)都離直線很近,且落在置信區(qū)間內(nèi)(圖中虛線部分,默認(rèn)展示95%置信區(qū)間),即表明符合正態(tài)性假設(shè),可進(jìn)行T檢驗(yàn)分析。
2. 多重檢驗(yàn)矯正意義和原理:
(1) 當(dāng)同一個(gè)數(shù)據(jù)集有n次(n>=2)假設(shè)檢驗(yàn)時(shí),通過(guò)多重假設(shè)檢驗(yàn)校正可以大大減少假陽(yáng)性概率,多重檢驗(yàn)矯正方法包括“holm”, “hochberg”, “hommel”, “bonferroni”, “BH”, “BY”, “fdr”,其中bonferroni為最嚴(yán)格的矯正方法。
(2) Bonferroni校正原理是,如果在同一數(shù)據(jù)集上同時(shí)檢驗(yàn)n個(gè)獨(dú)立的假設(shè),那么用于每一個(gè)假設(shè)的統(tǒng)計(jì)顯著水平為僅檢驗(yàn)一個(gè)假設(shè)時(shí)顯著水平的1/n。
以上就是該文獻(xiàn)生信分析方法體系的實(shí)現(xiàn)流程。