摘要蛋白質編碼基因的正確註釋是蛋白質體學研究中常規資料分析的基礎｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：已發表論文
日期：2022-09-02

摘要

蛋白質編碼基因的正確註釋是蛋白質體學研究中常規資料分析的基礎。然而，大多數蛋白質序列資料庫幾乎完全依賴基因查找軟體，並且不可避免地遺漏蛋白質註釋或存在錯誤。蛋白質基因組學試圖透過將 MS 數據直接與基因組序列資料庫進行匹配來克服這些問題。在這裡，我們報告了幽門螺旋桿菌菌株 26695 的深入蛋白質體學研究。根據 NCBI 註釋和基因組六幀翻譯的組合資料庫搜尋 MS 資料。使用 Mascot 和 X! 進行資料庫搜尋Tandem 揭示了由至少兩種勝肽識別的 1115 個蛋白質，勝肽錯誤發現率低於 1%。這代表了預測蛋白質組的 71%。迄今為止，這是對幽門螺旋桿菌最廣泛的蛋白質體研究。我們的蛋白質體學方法明確地識別了四個先前遺漏的註釋，並進一步使我們能夠糾正六個註釋蛋白質的序列。由於分泌蛋白通常參與致病過程，我們進一步研究了信號肽酶切割位點。透過應用可識別半特異性切割肽的資料庫搜索，檢測到 63 種以前未知的信號肽。基序 LXA 顯示為信號肽酶的主要辨識序列。生物學意義基於MS的蛋白質體學研究的結果高度依賴蛋白質編碼基因的正確註釋，這是傳統數據分析的基礎。然而，基因組數據中蛋白質編碼序列的註釋通常是基於基因查找軟體。這些工具的預測準確性受到限制，例如精確基因邊界的確定存在問題。因此，蛋白質資料庫擁有部分錯誤或不完整的序列。此外，資料庫中也可能缺少一些蛋白質序列。蛋白質基因體學是蛋白質體學和基因組數據分析的結合，非常適合檢測先前未註釋的蛋白質並修正錯誤的序列。為此，所研究物種的現有資料庫通常補充有基因組的六幀翻譯。在這裡，我們研究了主要人類病原體幽門螺旋桿菌的蛋白質組，幽門螺旋桿菌是導致十二指腸潰瘍和胃癌等許多胃部疾病的原因。我們深入的蛋白質體學研究透過至少兩種勝肽 (FDR < 1%) 高度可靠地鑑定了 1115 個蛋白質 (FDR < 0.01%)，這代表了 NCBI 保藏的預測蛋白質組的 71%。我們的數據集的蛋白質組數據分析明確識別了 4 個先前遺漏的註釋，糾正了 6 個註釋的蛋白質，並檢測了 63 個先前未知的信號肽。我們註釋了具有特殊生物學意義的蛋白質，例如亞鐵轉運蛋白 A、富含捲曲螺旋的蛋白質 HP0058 和脂多醣生物合成蛋白質 HP0619。例如，蛋白質 HP0619 可能是抑制 LPS 合成路徑的藥物標靶。此外，已經證明基序「LXA」是幽門螺旋桿菌信號肽酶I的主要辨識序列。信號肽酶是細菌細胞生存所必需的酶，並參與發病機制。因此信號肽酶可能成為抗生素的新標靶。包含校正的和新註釋的蛋白質以及信號肽裂解位點的資訊將有助於研究幽門螺旋桿菌發病機製或藥物反應所涉及的生物途徑。