(通訊員 劉小磊)近日,國際學術期刊Genome Biology在線發表了題為“KAML: improving genomic prediction accuracy of complex traits using machine learning determined parameters”的研究論文。該研究提出了一種準确性高且計算高效的基因組預測方法,該方法利用機器學習的策略解析基因組和表型組大數據之間的隐藏關系,并根據表型的遺傳複雜程度智能化選擇最優預測模型來提高基因組預測的準确性。
基因組預測是指利用覆蓋于基因組的高密度遺傳标記對未知表型(或育種值)進行預測的技術。在動植物領域,利用該技術可對不同經濟性狀進行早期選擇,保留優勢個體,淘汰劣勢個體,既能提高群體總體性能表現以獲得豐厚的經濟效應,還能極大降低飼養及表型測量成本;對于人類,基因組預測可根據遺傳标記信息估計各類遺傳疾病的患病風險,給人們的生活方式及飲食習慣提供針對性建議,保障人們的健康生活。預測準确性是基因組預測應用于實際的基本保證,而統計方法發揮至關重要的作用。線性混合模型(LMM)以其高效的計算效率優勢成為目前基因組預測使用最廣泛的方法,然而由于其簡單的标記效應假設,預測準确性往往偏低,尤其對于受大效應基因影響的性狀。另一類以貝葉斯(Bayes)理論為基礎的方法,大多具有複雜的标記效應假設,模型靈活多變,能夠适用于遺傳構建從簡單到複雜的性狀,預測準确性往往高于LMM方法,然而其複雜的假設導緻衆多的未知待估超參,參數的求解過程無法并行運算,計算效率低下,尤其對于超高密度标記,預測一個性狀可能需要數周甚至數月的時間,因此難以廣泛應用于育種實踐。

高計算效率的方法預測準确性較低,高預測準确性的方法計算效率較低。為了解決這一難題,該研究結合兩類方法的特性,提出了一種準确性高且計算高效的新方法KAML。該方法利用高速可并行的機器學習策略解析性狀的複雜程度,機器學習過程整合了交叉驗證、多元回歸、網格搜索以及二分求極值等方法,智能化選擇最佳預測模型、最可靠的協變量QTN、最優的親緣關系矩陣,多方面優化模型以達到最理想的預測準确性。研究結果顯示,KAML具有與Bayes方法近似的準确性,在部分性狀上甚至表現更好,顯著超過LMM方法,計算效率高于Bayes方法30-100倍。同時,KAML可與動物育種中廣泛應用的一步法(SS,Single Step)策略結合,研究結果顯示SSKAML的預測準确性顯著優于SSBLUP方法。另外,對于已被KAML分析過的性狀,優化後的參數可直接用于新的群體預測,預測準确性幾乎不變,計算效率等同于LMM方法。KAML和SSKAML可助力動植物基因組育種産業以及疾病風險預測等人類大健康産業的發展。
yl7703永利劉小磊副教授,李新雲教授為文章共同通訊作者,博士生尹立林為論文第一作者,趙書紅教授參與并指導了該項工作。同時,武漢理工大學袁曉輝教授、博士生張浩浩等共同參與了該研究。上述研究工作得到了國家自然科學基金等項目的資助。
KAML軟件:https://github.com/YinLiLin/KAML
全文鍊接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02052-w