HUPO發文總結2024年國際人類蛋白質組計劃(HPP)研究進展
文獻鏈接:
https://pubs.acs.org/doi/10.1021/acs.jproteome.4c00776
Journal of Proteome ResearchVol 23/Issue 12Article
The 2024 Report on the Human Proteome from the HUPO Human Proteome Project
上月,來自美國、加拿大、法國、英國、德國、瑞士、瑞典、澳大利亞和中國的9個國家、18個機構的20位學者,聯合撰文總結了國際人類蛋白質組計劃(HPP)的2024年度報告。報告以 The 2024 Report on the Human Proteome from the HUPO Human Proteome Project 為題發表于 Journal of Proteome Research。
報告全面總結了HPP在2024年的重大進展和變革,包括知識庫轉型、目標列表優化、功能注釋改進,以及各子項目在疾病研究中的成果。這份報告不僅是對蛋白質組學研究的回顧,也為未來的發展指明了方向。在過去的一年里,HPP迎來了重要的轉型。首先,作為原始參考數據庫的neXtProt光榮「退休」,新的知識庫UniProtKB取而代之,成為參考蛋白質知識庫。同時,Ensembl-GENCODE成為蛋白質靶點列表的核心數據來源。這一轉型提升了數據的統一性和應用范圍,為全球蛋白質研究提供了更加權威和靈活的資源。報告介紹了HPP提供的關鍵技術和資源支持,包括人類蛋白質圖譜(Human Protein Atlas,HPA)提供的抗體和轉錄組數據、ProteomeXchange和MassIVE-KB支持的大規模質譜數據共享,以及新開發的HPP Portal,以提供最新的蛋白質目標統計數據。這些資源的協同整合為蛋白質組學研究的深入開展提供了堅實基礎。
報告還介紹了一個初步的Function Evidence FE1-5評分系統,用于根據UniProtKB中包含的Gene Ontology注釋對每種蛋白質的分子功能現有理解的證據進行排名,這是HPP重大挑戰項目“為每種蛋白質找到功能”(A Function for Every Protein)的關鍵步驟之一。
同時,報告也指出了HPP目前面臨的兩大挑戰:一是尚未檢測到的蛋白質數量仍需進一步降低;二是未知功能蛋白的注釋覆蓋率不足,亟待更多實驗數據的驗證。
Part 1. HPP 2024年進展
過去一年中,HPP指標的計算和呈現方式發生了幾項重大變化,包括蛋白質目標列表、參考基因組以及蛋白質功能評分的重大更新。
1. HPP參考目標蛋白列表(Reference Target Protein)的變化● 從neXtProt到UniProtKB的過渡 neXtProt知識庫停止更新,其功能已由UniProtKB接替。UniProtKB繼承了neXtProt在高質量質譜數據(如PeptideAtlas和MassIVE-KB)中提升protein evidence(PE1)等級的標準化流程,從而保持了指標的一致性。● 從neXtProt到GENCODE的目標列表轉變
GENCODE取代neXtProt成為參考目標蛋白列表,刪除了許多歷史遺留但不具備現代蛋白質編碼意義的條目(如免疫球蛋白可變區,immunoglobulin variable regions)。這一轉變共減少了978個蛋白質條目(移除了1254個蛋白質條目,同時新增了276個),并進一步提高了列表的科學性和準確性。
2. 當前狀態截至2024年,HPP基于最新目標列表,已成功鑒定出18,138個PE1(protein-level evidence,PE1)蛋白(覆蓋率達93%),而尚未鑒定的缺失蛋白(missing proteins)數量降至1,273個。2024年目標列表中蛋白總數的減少,主要得益于對冗余和不必要條目的清理與優化。此外,PeptideAtlas在2024年的數據構建中新增了214個質譜數據集,其中171個新發現的標準蛋白質通過質譜驗證,特別是在阿爾茨海默癥等神經退行性疾病的腦樣本中發現了大量新的蛋白質。然而,大多數新增數據集對新蛋白鑒定的實際增量較為有限,表明現有數據資源的進一步挖掘具有一定挑戰性。
3. 蛋白質功能與功能證據評分(FE) 為了系統地評估蛋白質的功能信息,HPP開發了一個FE(function evidence)評分系統,類似于PE(protein-level evidence)評分系統,采用FE1-5等級來衡量蛋白質功能注釋的可靠性:FE1代表最高的功能注釋等級,表明對該蛋白質功能有高度的可信證據;FE5則表示對蛋白質功能幾乎沒有已知信息。該評分系統主要依賴于UniProtKB數據庫,利用其中的功能描述、基因本體論術語(Gene Ontology terms)和酶學委員會(Enzyme Commission,EC)編號等信息,快速計算和驗證功能證據。根據最新的評分結果,19,411個目標蛋白中,已有5,229個蛋白達到最高功能注釋等級(FE1),表明它們的功能已得到充分驗證;其余的蛋白則分布在FE2到FE5的不同等級,反映出不同程度的功能理解和證據支持。這一評分體系為追蹤功能注釋進展提供了標準化工具,并為未來深入研究奠定了基礎。
Part 2. 來自生物學和疾病驅動的HPP亮點
報告展示了來自多個 BD-HPP(biology and disease-driven HPP)團隊的具體工作。
1. 人類腦蛋白質組計劃(HBPP)
人類腦蛋白質組計劃(Human Brain Proteome Project)匯聚了全球神經蛋白質組學專家,2024年5月,HBPP在愛爾蘭都柏林舉行了第33屆研討會,討論了與神經退行性疾病(如阿爾茨海默癥、帕金森病)和神經精神疾病(如精神分裂癥、自閉癥)相關的研究。大多數研究采用了以質譜為主的蛋白質組學技術,結合多組學平臺和多變量機器學習方法,揭示了疾病的分子機制,這些研究為神經疾病的早期診斷和潛在治療策略提供了新視角:
● 確定與阿爾茨海默癥相關的腦源性蛋白質標志物(如PTPRN2、NCAN);
● 使用開放源碼工具MaCProQC快速對腦脊液蛋白質數據進行質量控制;
● 發現在精神分裂癥患者的神經干細胞中,線粒體氧氣消耗降低和活性氧(ROS)水平升高。
2. 人類肝臟蛋白質組計劃(HLPP)
人類肝臟蛋白質組計劃(Human Liver Proteome Project)聚焦于通過蛋白質組學驅動的精準醫學實現肝細胞癌(HCC)的早期診斷和個性化治療。項目的關鍵成果包括:
● 開發了基于質譜的無創早期診斷panel(P4),能比影像學方法提前11.4個月預測肝硬化轉變為HCC,準確率達 90%;
● 深度學習工具DeepRTAlign提高了HCC早期復發的預測精度,并在大規模蛋白質組和代謝組研究中展現了廣泛應用潛力;
● 多組學分析確定了HCC的三種分子亞型,揭示了其基因變異、微環境失調和治療反應差異,支持了以分子亞型為基礎的精準治療策略(如索拉非尼的應用);
● 通過蛋白質組數據預測了40種FDA批準或正在臨床試驗中的藥物,作為潛在干預手段;
● 確定溶菌酶(LYZ)為HCC的預后標志物,發現其通過細胞表面GRP78介導的信號通路促進腫瘤增殖,成為新的治療靶點。
3. 人類糖蛋白組學計劃(HGI)
人類糖蛋白組學計劃(The Human Glycoproteomics Initiative)一直專注于改進N-和O-糖肽鑒定與定量的生物信息學工具。2024年,HGI推動了第二次社區挑戰,計劃由全球20多個軟件團隊參與,跨實驗室的數據分析和軟件性能評估預計于2024年下半年啟動,并在2025年上半年完成。為連接兩次研究,HGI于 2023年在中國臺北的Glyco26會議上組織了一場關于糖蛋白質組學軟件的互動會議,討論了該領域的機遇和未來方向。此外,HGI社區與德國 Beilstein Institute 合作制定了糖蛋白質組學實驗的最低信息要求指南,預計將在2024年底發布。這些努力為糖蛋白質組學研究提供了標準化支持,推動了技術的發展和應用。
4. 人類免疫肽組計劃(HIPP)
人類免疫肽組計劃(Human Immunopeptidomics Proteome Project)在提高肽抗原的獲取和鑒定方面取得了重要進展。通過LC-MS和PASEF質譜技術,HIPP提升了HLA(人類白細胞抗原)肽鑒定的靈敏度和范圍,同時擴展了非經典HLA相關肽組的定義。研究還深入分析了腫瘤免疫識別機制及非小細胞肺癌(NSCLC)的腫瘤微環境,發現了炎癥腫瘤中的免疫編輯證據。此外,mRNA疫苗結合質譜鑒定的癌癥抗原在胰腺癌和NSCLC的免疫治療中表現出潛力。最后,HIPP鑒定了TCR類抗體藥物的生理相關脫靶抗原,為未來藥物篩選和優化提供了新工具。這些進展促進了臨床轉化研究的發展,為免疫治療提供了新的思路。
5. 單細胞蛋白質組學計劃
單細胞蛋白質組學計劃旨在通過全局質譜技術分析單細胞和小亞群蛋白質,揭示組織的異質性并深入理解復雜生物機制,如器官發育和疾病進展。盡管在樣品制備、儀器靈敏度和數據分析上取得了進展,該領域仍面臨高通量和深度蛋白質組覆蓋的挑戰。新技術和數據分析pipeline提高了單細胞數據的鑒定和定量能力,特別是在研究蛋白質翻譯后修飾、細胞異質性以及不同疾病(如淋巴瘤和白血病)中的應用。
6. 尿液蛋白質組計劃
尿液蛋白質組學計劃旨在尋找可用于診斷和監測各種疾病的生物標志物。尿液采樣非侵入性,能敏感反映全身各器官的變化。盡管尿液蛋白質組的復雜性較血清或血漿低,但質譜技術已擴展了尿液中蛋白質的檢測范圍。去年,研究發現了與卵巢癌、胰腺癌、急性胰腺炎、膀胱癌等疾病相關的尿液生物標志物,還包括機器學習模型的應用。其他研究關注了子宮內膜異位癥、心力衰竭、糖尿病腎病(含8種蛋白質的標志物panel)及新生兒壞死性小腸結腸炎等疾病。此外,監測孕婦尿液蛋白質組以評估胎兒發育也展現出潛力。
7. 人類血漿蛋白質組計劃(HPPP)
血漿蛋白質組學計劃(Plasma Proteome Project, HPPP) 自2002年啟動以來,不斷更新人類血漿蛋白質圖譜。最新報告討論了循環蛋白的個體內外變異性,并介紹了針對大規模隊列分析的高精度方法,如Olink的親和平臺和NULISA。盡管質譜檢測到的血漿蛋白數量較少,但通過Orbital Astral MS和富集技術的結合,檢測能力大幅提高。2023年4月的PeptideAtlas包含113個數據集,檢測到4608個符合HPP標準的經典血漿蛋白,還識別了377個外泌體蛋白。此外,血漿中的糖蛋白、磷酸化蛋白及其共表達網絡分析在臨床中的潛在應用也有了新進展。
8. 癌癥人類蛋白質組計劃與病理學支柱及CPTAC
癌癥人類蛋白質組計劃(CHPP)與病理學支柱(Pathology Pillar)和美國臨床蛋白質組學腫瘤分析聯盟(CPTAC)聯合開展的研究,涵蓋腎臟、胰腺、結直腸、乳腺、肝臟、肺部、卵巢、前列腺、大腦和黑色素瘤等多種癌癥類型。CPTAC研究人員通過分析過度表達/激活的蛋白質、腫瘤抑制基因缺失相關的依賴性、腫瘤新抗原等,識別并驗證了10種癌癥的潛在治療靶點。研究強調,直接分析蛋白質的濃度、位置和相互作用對癌癥研究至關重要,因為這些信息無法從RNA或DNA研究中得到。近期的技術進展包括高效、低成本的質譜分析方法,如Echo MS+系統和Stellar快速離子阱質譜儀,能夠實現生物矩陣中肽段和蛋白質的絕對定量。
9. 病理學資源支柱
病理學資源支柱(Pathology Resource Pillar) 關注個性化健康和疾病的表型組學(phenomics)轉型,研究從基因組學到表型學的趨勢。例如,CLIA認證的質譜檢測已被用于甲狀腺球蛋白的臨床應用,以及SARS-CoV-2變異株的研究。為了提高臨床樣本處理的效率,CLINSPECT-M聯盟致力于開發標準化的工作流程,尤其是針對血清和腦脊液樣本。此外,針對大量生成的數據,已制定了快速分析的protocol,如使用AlphaFold2預測蛋白質結構。這些研究為疾病狀態、療效評估和臨床結果提供了重要的生物標志物。
10. 抗體支柱/人類蛋白質圖譜
抗體支柱/人類蛋白質圖譜(Antibody Pillar/Human Protein Atlas)致力于通過抗體技術映射健康和疾病中的蛋白質,為HPP Grand Challenge提供資源,幫助理解蛋白質在身體、細胞及亞細胞層級的空間定位。通過改進抗體技術和研究新樣本,HPA不斷提高蛋白質定位的精確度。特別是在組織部分,結合多重免疫熒光與單細胞轉錄組學分析,揭示了細胞子集中的蛋白表達模式,探索了腎小管、唾液腺、睪丸生精過程中的生殖細胞及其他組織中的運動纖毛等細胞亞結構。預計2024年底發布的HPA第24版本將包括多個重大更新,整合來自其他生物學數據庫的數據,進一步提升HPA作為重要知識資源的作用。
11. HPP:為每個蛋白質找到功能
HPP正在推進 “為每個蛋白質找到功能”(Finding Functions for Every Protein)的重大挑戰,目標是為每個蛋白質確定并驗證至少一個分子功能。計劃已經接近完成其首個目標——確認所有參考目標蛋白的表達。至2023年,存在1181個缺乏功能注釋的蛋白質(uPE1)。通過CHPP CP50倡議,出現了多個新功能注釋。該計劃還在與UniProtKB合作,建立功能證據評分系統(FE1-5),并推出了HPP Portal來支持這一挑戰。研究人員預計,來自于基于序列同源性、蛋白質與蛋白質、蛋白質與 RNA 相互作用的預測,以及使用 AlphaFold2、AlphaFold3 和其他算法的詳細結構的計算預測,將對這個挑戰做出貢獻。
12. 人體蛋白質組導航國際大科學計劃(π-HuB)啟動
由中國科學家發起的人體蛋白質組導航國際大科學計劃(Proteomic Navigator of the Human Body,π-HuB)項目已正式啟動,該計劃旨在通過多模態蛋白質組數據集,推動對人類生物學的理解、疾病風險評估、藥物靶點發現及智能醫療。該項目涉及蛋白質組技術、蛋白質組數據和AI、衰老研究和臨床轉化等領域,計劃通過跨國合作推動未來30年內人類蛋白質組學的發展。過去一年,π-HuB團隊在單細胞和空間技術、計算模型等方面取得了進展。衰老研究團隊已建立了與中國人群衰老相關的血漿蛋白組譜,并設計了衰老蛋白鐘來量化和跟蹤衰老的進程。臨床轉化方面,來自西湖大學的Guomics團隊開發了用于甲狀腺腫瘤的綜合譜庫和蛋白質panel,并在2000名患者的細針穿刺活檢中開發了多組學分類器 “ThyroProt” 用于甲狀腺結節的診斷。此外,Tiannan Guo、Chris Sander、Ruedi Aebersold、Peter Buhlmann等人提出了 “微擾蛋白質組學”(perturbation proteomics)和PMMP(Perturbations, Measurements, Modeling to Prediction)模型,開展了對63種FDA批準藥物的乳腺癌細胞系的微擾蛋白質組學研究,并通過AI建立了用于預測乳腺癌藥物治療效果的模型。Guomics團隊還在西湖CRISPR試點項目中利用基因編輯研究1000個與癌癥藥物機制相關的基因,并計劃通過分析這些基因的蛋白質組和磷酸化組,深化對基因功能的理解。
13. HPP ChemBioFrance試點項目啟動
ChemBioFrance項目的 “一個蛋白,一個配體,一個功能”(A Protein, a Ligand, a Function)旨在通過化學干擾策略,使用生物活性小分子研究其對特定細胞系蛋白質組的影響。該項目通過評估蛋白質組在處理后發生的變化,探索蛋白質功能的細致特征。目前,八個試點項目已被選中,用于生成初步數據并推動數據庫建設。目前,所有樣本都采用DIA-PASEF模式在大規模離子遷移質譜儀(即timsTOF Pro)上進行分析,數據分析使用SimpliFi工具,并通過Reactome平臺對數據進行映射。項目的目標是推動蛋白質功能的深入表征(例如針對標記為FE2級別的蛋白質)。此項討論正在進行中,計劃在西班牙、韓國和德國復制該方法,并希望激勵更多生物學家參與其中。
廈門普睿邁格生物科技有限公司致力于開發磁性納米材料富集不同來源樣本的低豐度蛋白,實現蛋白檢出數量和檢測通量的提升。
- 上一篇:血液蛋白質組的檢測深度——如何看待不同的策略方案? 2024/12/22
- 下一篇:熱點前沿:蛋白冠在前沿血漿蛋白質組學研究中的作用 2024/12/9