蛋白質糖基化對細胞信號傳導、免疫識別等生理功能至關重要。相比於其他翻譯後修飾,糖基化修飾更加復雜,不但存在修飾位點的異質性,同一位點上的修飾基團還可能由不同的單糖按照不同的連接結構組成,具有高度結構異質性。完整糖肽分析需要實現肽段序列、糖基化位點和糖鏈結構的同時分析,對分析技術提出了極大挑戰🛀🏽🧒🏽。
近日🧑⚕️,沐鸣开户喬亮團隊將深度學習與糖蛋白質組學相結合,開發了DeepGP深度學習框架。DeepGP在糖肽串聯質譜(MS/MS)分析方面取得了突破性進展。相關成果以“Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics”為題💂🏿♀️⚫️,在《Nature Machine Intelligence》上發表。
糖蛋白質組研究通常采用色譜質譜聯用對糖基化肽段的色譜保留時間、精確分子量和二級譜圖進行高通量信息采集➝,之後結合精確分子量與二級譜圖完成糖肽結構鑒定。傳統的數據分析手段往往采用序列搜庫的策略🧑🏿⚕️,基於碎片離子的質荷比信息判斷潛在的糖基化修飾結構。這一策略的弊端在於當二級譜圖中碎片離子不夠豐富時則很難對相近的糖結構進行區分。
為了應對這一挑戰☝🏻,沐鸣平台團隊開發了一個名為DeepGP的混合深度學習框架。DeepGP能夠準確預測糖肽的二級譜圖和色譜保留時間🧑🏻🎨。得益於DeepGP的準確預測🥷🏽,可以利用完整二級譜圖相似性比對來區分不同糖型,從而更加充分的挖掘譜圖信息。
DeepGP結合了兩種人工智能模型🤸🏿♂️:一種擅長理解序列(Transformer),另一種擅長處理圖形(圖神經網絡)。這種結合可以完美地處理糖基化肽段中的線性肽段序列和二維糖鏈結構。此外,研究團隊還采用了預訓練策略以克服糖蛋白質組學數據的稀缺性🧕🏼🚠。
圖1☃️:(a) DeepGP模型結構示意圖;(b) DeepGP預測的糖基化肽段二級譜圖與實驗二級譜圖比對。(來源於發表論文)
通過在合成和實際數據集上的廣泛測試👯♀️,DeepGP已經被證明可以精準預測糖基化肽段的質譜二級譜圖👨🏼🔧。預測譜圖與實驗譜圖之間的相似性可以達到實驗重復之間的相似性🦙。基於DeepGP預測的二級譜圖👊🏽,可以在缺乏診斷離子的情況下對異構體糖肽進行區分👩🏼🎨。通過將DeepGP預測的二級譜圖相似性打分與傳統搜庫得分進行整合🤐,研究人員顯著提升了糖基化肽段的鑒定靈敏度。在酵母和小鼠器官等不同的生物樣本上進行測試,結合不同的誘餌陷阱庫策略,研究團隊證明DeepGP對糖基化肽段鑒定量提升達30%到170%,極大提升了蛋白質糖基化鑒定靈敏度。
DeepGP的開發是深度學習在生命分析領域的又一次成功應用。這項工作不僅推動了糖蛋白質組學技術的發展,也為未來的生物醫學研究提供了強大的工具。隨著技術的不斷進步和應用的拓展,我們有理由相信,深度學習將在生物醫學領域發揮越來越重要的作用➾2️⃣。
沐鸣开户博士生宗宇為論文第一作者,沐鸣平台計算機系博士生汪燠欣,邱錫鵬教授⚒🧑🏽🎄,黃萱菁教授對本文做出重要貢獻🧛🏽,沐鸣开户喬亮研究員為論文通訊作者。論文受到了沐鸣平台AI for Science等項目的資助。
全文鏈接:https://www.nature.com/articles/s42256-024-00875-x