想要從數據中提取有意義的信息從而做出更好的育種決策,開發系統化的表型數據分析流程、增強可視化以及結果挖掘是至關重要的。在這里,作者概述了基于IRRI的旱作水稻育種(RRB)計劃,以及其如何利用 R 計算能力和R Markdown、plotly、LaTeX 和 HTML 等開源資源工具來開發開源和端到端的數據分析工作流程和方法,將其重新設計為可復制的文檔,以便提高數據解釋和結果可視化的能力,并實現輕松與合作者共享。
在當前報告中采用的數據分析工作流程的示意圖。分析工作流程過程中涉及的四個主要步驟是 a 數據導入、b 數據預處理、c 數據建模和 d 結果生成。主要步驟分為開發全面而強大的分析管道所需的各個組件。
作者報告了將表型數據分析管道和工作流程嵌入到表現良好的文檔中的最新進展。開發的分析管道是開源的,展示了如何分析作物育種計劃中的表型數據并分步解釋。分析管道展示了如何預處理和檢查表型數據的質量,使用現代統計工具和方法執行穩定的數據分析,并將其轉換為可復制的文檔。帶有 R 代碼的解釋性文本、表格或圖形的輸出以及結果的解釋都集成到統一的文檔中。該分析具有高度可重復性,并且可以隨時重新生成。分析管道源代碼和演示數據可在 https://github.com/whussain2/Analysis-pipeline 獲得。
從 MET 分析中提取的結果。A.使用第一因子估計載荷的前 10 個基因型的潛在回歸圖。 藍色實線和灰色陰影分別對應于潛在回歸線和 95% 的置信區間。 b 基于因子分析協方差結構在所有環境中調整的預測育種值,繪制選定基因型(藍色)和未選定基因型(黃色三角形)的雙標圖。 帶箭頭的藍線顯示環境及其相關性
所提供的分析工作流程和文件不僅限于 IRRI 的 RRB 計劃,還適用于任何擁有成熟育種計劃的組織或機構。作者相信這是一項使 IRRI 的 RRB 項目數據分析現代化的偉大舉措。此外,植物育種者或研究人員可以輕松運用該方法,幫助和指導他們以最佳方式分析育種試驗數據。
來源:Plant Methods.Open-source analytical pipeline for robust data analysis, visualizations and sharing in crop breeding.Waseem Hussain, Mahender Anumalla, Margaret Catolos, Apurva Khanna, Ma. Teresa Sta. Cruz, Joie Ramos & Sankalp Bhosale
https://plantmethods.biomedcentral.com/articles/10.1186/s13007-022-00845-7#Abs1