在《How Microbes Shape Their Communities? A Microbial Community Model Based on Functional Genes》一文中,作者利用生物信息分析實現(xiàn)了基于功能基因的微生物群落預(yù)測模型。
文章中生物信息分析部分主要包括宏基因組分析、統(tǒng)計學(xué)分析和FCP建模及預(yù)測,其中1)宏基因組分析采用的軟件和我們平時常用的軟件都不太一樣,且很多軟件包已不再維護,如果有涉及這方面的分析,建議大家使用目前的主流軟件。2)統(tǒng)計學(xué)相關(guān)分析均在R語言環(huán)境下實現(xiàn),主要包括GBM、MRT和CCREPE三個R包的使用。3)FCP 建模及預(yù)測是利用Matlab軟件自帶的FMINCON函數(shù)實現(xiàn)的,最后結(jié)合常規(guī)的統(tǒng)計學(xué)分析手段完成相關(guān)驗證和CSS基因篩選。
宏基因組分析
在宏基因組分析流程中,首先對高通量測序下機的雙端序列原始數(shù)據(jù)進行質(zhì)量篩查,獲取可用于下游分析的高質(zhì)量數(shù)據(jù)集。隨后對其進行宏基因組序列拼接組裝,構(gòu)建宏基因組Contigs序列集,并進行基因預(yù)測,獲得非冗余蛋白序列集。最后,選擇常用的數(shù)據(jù)庫對蛋白序列進行功能注釋,本研究采用是COG數(shù)據(jù)庫。
Step1: detect and correct errors in the raw data(Reads錯誤堿基修正)
Step2: filter out low quality reads(去除低質(zhì)量Reads)
Step3: assemble these preprocessed reads into contigs(Reads組裝)
Step4: predict protein coding genes(基因預(yù)測)
Step5: taxonomic classification(物種注釋)
Step6: COG database annotation(COG功能注釋)
統(tǒng)計學(xué)分析
文章利用MRT和GBM包分析解釋復(fù)雜生態(tài)系統(tǒng)物種組成和環(huán)境因子之間的關(guān)系。使用CCREPE算法解析微生物群落中物種間相關(guān)豐度的關(guān)系,具體步驟如下。
1. CCREPE分析
Step1 安裝和加載ccrepe包
Step2 構(gòu)建測試數(shù)據(jù)集
Step3 運行ccrepe
2. MRT分析
Step1 安裝和加載mvpart包
Step2 讀入數(shù)據(jù)
Step3 運行mvpart
3. GBM分析
Step1 安裝和加載gbm包
Step2 讀入數(shù)據(jù)
Step3 gbm建模
Step4 查看最佳迭代次數(shù),如圖左展示
Step5 看出最終結(jié)果,如圖右展示
FCP 建模及預(yù)測
在matlab中,fmincon函數(shù)可以求解帶約束的非線性多變量函數(shù)(Constrained nonlinear multivariable function)的最小值,即可以用來求解非線性規(guī)劃問題,matlab中,非線性規(guī)劃模型的寫法如下:
FMINCON函數(shù)用法:
[x,fval]=fmincon(fun,x0,A,b,Aeq,beq,lb,ub,nonlcon,options)
x—返回值是決策向量x的取值,fval的返回值是目標(biāo)函數(shù)f(x)的取值
fun—是用M文件定義的函數(shù)f(x),代表了(非)線性目標(biāo)函數(shù)
x0 —是x的初始值
A,b,Aeq,beq—定義了線性約束 ,如果沒有線性約束,則A=[],b=[],Aeq=[],beq=[]
lb和ub—變量x的下界和上界,如果下界和上界沒有約束,則lb=[],ub=[],也可以寫成lb的各分量都為 -inf, ub的各分量都為inf
nonlcon—用M文件定義的非線性向量函數(shù)約束
options—定義優(yōu)化參數(shù),不填寫表示使用Matlab默認的參數(shù)設(shè)置
以上就是該文獻生信分析方法體系的實現(xiàn)方法,歡迎感興趣的朋友前來和我們交流、溝通。