本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:已發表論文
- 日期:2022-09-02
摘要
動機:長非編碼 RNA (lncRNA) 類似蛋白質編碼 mRNA,但不編碼蛋白質。大多數lncRNA的序列限制比蛋白質編碼基因低,並且缺乏保守的二級結構,因此很難透過計算來預測它們。結果:我們引入了一種結合比較基因組學和機器學習來預測脊椎動物基因組中剪接 lncRNA 的方法。它是基於檢測脊椎動物全基因組比對中特徵剪接位點演化的特徵。首先,我們預測單一剪接位點,然後將相容位點組裝成候選外顯子,最後預測多外顯子轉錄物。使用新方法來評估典型的剪接位點替換模式,明確考慮物種系統發育,我們表明可以準確預測單一剪接位點。由於我們的方法僅依賴預測的剪接位點,因此它可以揭示編碼和非編碼外顯子。我們表明,我們預測的外顯子和部分轉錄本大多是非編碼的,並且缺乏保守的二級結構。這些外顯子特別令人感興趣,因為現有的計算方法無法檢測到它們。轉錄組定序數據表明預測的外顯子的組織特異性表達模式,並且有證據表明增加測序深度和廣度將驗證其他預測。我們還發現形成多外顯子轉錄部分的預測外顯子顯著富集,並且我們透過實驗驗證了這種新穎的多外顯子基因。總體而言,我們從人類基因間區域獲得了 336 個新穎的多外顯子轉錄本預測。我們的結果表明存在進化中保守的新型人類轉錄本,我們的方法有助於完成人類轉錄本目錄。