摘要背景近年來，小蛋白質受到越來越多的關注｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：已發表論文
日期：2022-09-02

摘要

背景近年來，小蛋白質受到越來越多的關注。它們尤其被認為是有助於細菌群落協調的信號。在基因組註釋中，它們經常丟失或隱藏在大量假設蛋白質中，因為基因組註釋管道通常會排除短開放閱讀框架或基於簡單模型過度預測假設蛋白質。因此，新型蛋白質，特別是小蛋白質（sProteins）的驗證需要額外的證據。蛋白質基因體學被認為是此目的的黃金標準。它超越了已建立的註釋，並包括所有可能的開放閱讀框架（ORF）作為勝肽的潛在來源，從而允許發現新穎的、未註釋的蛋白質。通常，這會導致大量假定的新型小蛋白質充滿大量假陽性預測。結果我們觀察到，映射到候選 ORF 的肽譜匹配 (PSM) 的數量和質量可以為區分蛋白質和虛假 ORF 註釋提供大量資訊。我們在此報告了一個工作流程，該工作流程將 PSM 品質資訊和本地上下文聚合成簡單的描述符，並可靠地將可能的蛋白質與大量假陽性（即最有可能未翻譯的 ORF）分開。我們研究了人工腸道微生物組模型 SIHUMIx，其中包含 8 個不同的物種，我們驗證了 5114 個蛋白質，這些蛋白質之前僅被註釋為假設的 ORF。此外，我們還鑑定了 37 個未註釋的候選蛋白質，並在蛋白質組和轉錄組層級上找到了證據。這些候選者中有一半（19）在其他物種中具有密切的功能同源物。另外 12 個候選蛋白在其他物種中具有被指定為假設蛋白質的同源物。其餘 6 個候選蛋白都很短（< 100 AA），很可能是真正的新型蛋白質。結論預測 ORF 的 PSM 品質資訊的聚合提供了一種穩健且有效的方法來識別蛋白質體資料中的新蛋白質。此工作流程特別能夠辨識小蛋白質和移碼變體。由於 PSM 明確地映射到基因組位置，因此它進一步促進了轉錄組數據和其他基因組水平資訊來源的整合。