Cell | 無序即信息?NARDINI+算法量化連接IDR序列與細胞功能

引言

長久以來,我們對蛋白質的認知深深植根於一個經典信條:序列決定結構,結構決定功能。一個蛋白質必須精確地摺疊成三維構象,如同鑰匙配鎖,才能執行其特定的生物學使命。然而,在人類約兩萬個蛋白質編碼基因構成的浩瀚蛋白質組(proteome)中,存在着一片廣闊而神秘的“黑暗地帶”。這裡的主角們:“本質無序蛋白”(Intrinsically Disordered Proteins, IDPs)及其“本質無序區”(Intrinsically Disordered Regions, IDRs),它們藐視着傳統結構生物學的“金科玉律”,在沒有穩定三維結構的情況下,靈活、動態地參與到細胞生命的核心活動中。

這片“黑暗地帶”並非混沌無序,而是蘊含著一套不為人知的規則。

11月12日,《Cell》的研究報道“Molecular grammars of predicted intrinsically disordered regions that span the human proteome”,為我們揭開了這片神秘領域的冰山一角。研究人員以前所未有的視角,提出並系統性地解碼了IDRs的“分子語法”(molecular grammars)。他們開發了一套強大的算法,如同為這門“黑暗語言”編寫了第一部詞典和語法書,不僅揭示了蛋白質序列中隱藏的功能密碼,還深刻地闡釋了這些密碼如何決定蛋白質的“住址”、“職業”乃至在疾病(尤其是癌症)中的“黑化”路徑。

這不僅僅是一次對蛋白質世界的重新探索,更是一場思想範式的革新。它告訴我們,生命並非總是依賴於剛性的結構,那些看似“隨性”的柔性序列,實際上正用一種我們剛剛開始理解的、更為精妙的“語言”——一種由氨基酸的種類、比例和排布構成的“語法”,譜寫着生命的複雜樂章。

Cell | 無序即信息?NARDINI+算法量化連接IDR序列與細胞功能 -

從混沌到語法:為蛋白質的“無序”建立一部“詞典”

如果把蛋白質看作是一篇文章,那麼氨基酸就是構成文章的20個“字母”。對於有固定結構的蛋白質來說,這些字母需要排列組合成特定的“單詞”(如α-螺旋、β-摺疊),再進一步構築成完整的“句子”和“段落”(即三維結構),從而表達清晰的意義(即功能)。但IDRs卻像是一段段看似雜亂無章的字母流,我們如何從中讀出意義?

傳統方法往往力不從心。研究人員意識到,必須超越對單一結構的依賴,轉而從序列本身尋找規律。他們認為,IDRs的功能密碼就隱藏在其氨基酸序列的統計學特徵和排列模式之中。這,就是“分子語法”的核心思想。

為了破解這套語法,研究團隊開發了一款名為納爾迪尼+的創新算法。這個算法不關心IDR“長什麼樣”,而是專註於“它是由什麼構成的”以及“它們是如何排列的”。具體來說,NARDINI+對任何一段IDR序列進行兩個層面的深度剖析:

1. 成分分析(Compositional analysis):這就像是分析一篇文章的用詞習慣。NARDINI+會計算IDR中20種氨基酸各自的比例、帶正電/負電/疏水/極性等不同類型氨基酸的比例,以及由此衍生的凈電荷、疏水性等54項“成分特徵”。例如,一段IDR是富含帶正電的精氨酸(Arginine, R),還是偏愛帶負電的谷氨酸(Glutamate, E)?

2. 模式分析(Patterning analysis):這好比是分析文章的句式結構。同樣的詞彙,不同的排列方式會產生截然不同的效果。“我愛你”和“你愛我”意義迥異。NARDINI+通過計算36種不同的“模式特徵”,來量化不同類型氨基酸在線性序列上的分布模式。它們是均勻混合(well-mixed)的,還是各自扎堆成塊(blocky)?例如,一段序列中的正電荷和負電荷是交錯分布,形成電荷中性的“鹽橋”網絡,還是正電荷聚集在一端,負電荷聚集在另一端,形成一個“偶極子”?

通過這90個維度的量化描述,NARDINI+將每一條模糊的IDR序列,轉化成一個精確的90維“Z分數向量”(Z-score vector, ZSV)。這個向量就像是這條IDR的“語法指紋”,獨一無二地記錄了它的序列特性。

有了這個強大的“語法解碼器”,研究人員開啟了一項雄心勃勃的工程:對整個人類蛋白質組中所有預測的IDRs:一個包含24,508 件訂單的龐大集合,也被稱為“人類IDRome”,進行全面的語法分析。他們將所有IDRs的“語法指紋”輸入一個無監督學習模型(K-means聚類),讓計算機自動地對這些指紋進行分類。

結果令人振奮。計算機發現,這些看似千差萬別的IDRs,其“語法”可以被歸納為30種主要的類型。研究人員將這30個類別命名為“GIN簇”(GIN clusters)。每一個GIN簇都代表了一種獨特的分子語法,擁有其標誌性的氨基酸成分和排列模式。例如,GIN簇7的語法特徵是富含D/E氨基酸殘基,形成酸性長鏈(D/E-tracts);GIN簇23的語法核心則是富含K氨基酸,形成賴氨酸區塊(K blocks);而GIN簇11則以Q氨基酸串聯(Q-tracts)為代表。

至此,研究人員成功地為人類蛋白質組的無序世界,構建了第一部“語法詞典”:GIN資源庫。這30個GIN簇,如同30個“詞性”或“句式”,為我們理解IDRs的功能提供了一個全新的框架。現在,真正激動人心的問題來了:這本“語法書”真的能幫助我們“閱讀”蛋白質的功能嗎?

蛋白質的“GPS密碼”:序列語法如何決定細胞“住址”?

細胞是一個高度組織化的微縮城市,蛋白質需要在正確的時間出現在正確的地點,才能履行職責。這種精確的亞細胞定位(subcellular localization)是如何實現的?研究表明,IDRs在其中扮演着重要的“導航員”角色。那麼,不同的“分子語法”是否對應着不同的細胞“地址”呢?

利用GIN資源庫和人類蛋白質圖譜(Human Protein Atlas)數據庫,研究人員進行了一次大規模的數據關聯分析。他們發現,特定的GIN簇與特定的亞細胞定位之間存在着驚人的強相關性。特別是在細胞核這個“中央司令部”內,語法的導向作用表現得淋漓盡致。

核仁(Nucleolus)的“入場券”:數據顯示,GIN簇23,即以賴氨酸(K)區塊為特徵的語法,在定位於核仁的蛋白質中顯著富集。核仁是細胞內核糖體(ribosome)的“組裝工廠”,許多參與其中的蛋白質都佩戴着這張由“K區塊”構成的特殊“工牌”。

核斑(Nuclear speckles)的“通行證”:與此不同,GIN簇26,以精氨酸(R)斑塊為特徵的語法,則在定位於核斑的蛋白質中高度集中。核斑是mRNA剪接(splicing)因子儲存和修飾的“倉庫”,這些蛋白質似乎憑藉“R斑塊”這張“通行證”進出其中。

這種關聯性是真實的因果關係,還僅僅是巧合?為了回答這個問題,研究人員設計了一系列巧妙的活細胞實驗。他們選擇了非洲爪蟾(非洲爪蟾)的卵母細胞作為實驗系統,其巨大的細胞核為觀察蛋白質定位提供了絕佳的“窗口”。

他們挑選了幾種定位尚不明確,但其IDR分別屬於GIN簇23和GIN簇26的蛋白質,將它們與綠色熒光蛋白(GFP)融合,然後將其mRNA注入卵母細胞核中。結果正如預測的那樣:所有攜帶GIN簇23 IDR的蛋白質,無一例外地聚集到了核仁中;而所有攜帶GIN簇26 IDR的蛋白質,則精確地靶向了核斑。這為“語法決定定位”提供了直接的視覺證據。

更具說服力的實驗來自於一個“結構域交換”(domain swap)實驗。研究人員選擇了GPatch3和GPatch4這兩個蛋白質,它們都含有一個結構相似的摺疊結構域(GPatch domain),但其IDR的語法卻截然不同:GPatch3的IDR屬於一個較弱的簇19,而GPatch4的IDR則屬於特徵鮮明的簇23。實驗發現,GPatch4能高效地進入核仁,而GPatch3則不能。

接下來是關鍵一步:他們將GPatch3的摺疊域換成GPatch4的,同時保留其原來的簇19 IDR。反之,也將GPatch4的摺疊域換成GPatch3的,保留其簇23 IDR。如果定位是由摺疊域決定的,那麼交換後,原來的GPatch3應該會進入核仁。但實驗結果恰恰相反:無論與哪個摺疊域相連,只要蛋白質攜帶的是簇23的IDR,它就能進入核仁;反之則不能。

這個實驗有力地證明,在這些例子中,真正決定蛋白質“去哪裡”的,不是那個結構規整的摺疊域,而是那段看似“雜亂”的IDR的“分子語法”。這套語法規則,就是蛋白質在細胞內導航的“GPS密碼”。

功能與社交:從“職業規劃”到“朋友圈”的語法邏輯

如果說定位是蛋白質的“住址”,那麼功能就是它的“職業”。一個深刻的問題是:分子語法是否也為蛋白質預設了“職業規劃”?

研究人員利用GO這個龐大的功能注釋數據庫,系統分析了每個GIN簇與特定分子功能的關聯。結果再次揭示了清晰的“語法-功能”對應關係。

電荷的偏好:他們發現,參與RNA結合的蛋白質,其IDRs的電荷殘基比例(Fraction of Charged Residues, FCR)顯著高於參與DNA結合的蛋白質(p = 3.5 × 10⁻²⁶)。這意味着,與RNA這種單鏈、結構多變的分子打交道的IDRs,傾向於使用更多的“電荷工具”;而與DNA這種結構規整的雙螺旋相互作用的IDRs,則策略不同。

特定的“語法偏好”:更細緻地看,調控DNA轉錄的蛋白質富含GIN簇11(Q-tracts)的IDRs,這與之前發現谷氨酰胺(Q)富集區在轉錄因子中發揮重要作用的報道不謀而合。而參與mRNA代謝的蛋白質,則大量使用GIN簇26(R-patches)的IDRs,這正是剪接因子等RNA結合蛋白的典型特徵。

這些發現表明,分子語法不僅決定了蛋白質的“住址”,還深刻影響了它的“職業選擇”。不同的生物學任務,似乎需要不同“語法風格”的IDRs來完成。

生命活動並非由單個蛋白質孤立完成,而是依賴於一個複雜而動態的蛋白質“社交網絡”。那麼,擁有相似“語法”的蛋白質,是否在功能上也走得更近,更容易形成一個“朋友圈”呢?

為了探索這個問題,研究團隊引入了一個強大的工具:DepMap(癌症依賴性圖譜)。DepMap項目通過CRISPR基因敲除技術,在超過1000種癌細胞系中系統性地評估了每個基因失活對細胞生存的影響。如果敲除基因A和敲除基因B對所有癌細胞系的生存影響曲線非常相似,那麼A和B這兩個基因(及其編碼的蛋白質)在功能上很可能是緊密相關的。

研究人員巧妙地利用DepMap數據,構建了一個基於GIN簇的蛋白質功能關聯網絡。他們計算了任意兩個GIN簇之間蛋白質的功能關聯強度。結果令人震驚:

“同類相吸”原則:擁有相同GIN簇語法的蛋白質之間(簇內關聯),其功能相關性遠高於隨機選擇的蛋白質對。排名前列的簇,如簇26、11、23,正是那些在亞細胞定位上高度特化的簇。這說明,使用相同“語言”的蛋白質,往往在執行相似或協同的功能。

“近鄰效應”:在同一亞細胞區域“居住”的蛋白質(例如,都在核仁工作),它們的功能相關性也顯著更高。具體來說,核仁內的蛋白質功能網絡最為密集,其次是核斑和核質。

更有趣的是,研究人員發現,僅僅通過“住址”來預測功能關係是不夠的。比如,核斑和核質內的蛋白質,它們基於“語法”的簇內功能關聯強度,要顯著高於僅僅基於“同住在一個區域”所預期的關聯強度。這暗示了一個更深層次的邏輯:蛋白質們不僅是因為“住得近”才成為功能夥伴,更是因為它們說著相似的“分子語言”,才聚集到一起,共同完成某項任務。分子語法,是連接它們功能網絡的內在紐帶。

語法錯誤之後:癌症中的“拼寫失誤”與“句子重組”

既然分子語法對蛋白質的正常功能至關重要,那麼當語法出現“錯誤”時,會發生什麼?研究人員將目光投向了癌症,這個由基因突變導致的複雜疾病。他們發現,癌症的發生,在很多情況下,正是一種分子語法的嚴重破壞。

他們首先分析了已知的619個癌症驅動基因(cancer driver genes),發現這些基因編碼的蛋白質中,有相當一部分(51個)擁有“超常語法”(exceptional grammars)的IDRs。所謂“超常語法”,是指其序列特徵(如特定氨基酸的含量、聚集程度等)在整個人類IDRome中排名前80位(總數約2.5萬),是極其罕見和非隨機的。這些擁有超常語法的蛋白質,往往是細胞內的關鍵調控樞紐,如轉錄複合體、染色質重塑複合體的核心成員。

當研究人員將這些區域與COSMIC數據庫中的癌症突變數據進行比對時,一個清晰的模式浮現出來:

“拼寫失誤”,插入與缺失(Indels)的偏好:在25個由“塊狀”(blocky)模式定義的超常語法IDR中,有11個區域的插入/缺失(indel)突變頻率顯著高於預期。一個典型的例子是MAML2蛋白,它的IDR擁有在人類蛋白質組中長度排名第11位的谷氨酰胺(Q)長鏈。在某些腫瘤中,這個Q長鏈內會發生缺失突變。這種“拼寫錯誤”直接破壞了語法的完整性,可能改變蛋白質的相互作用價態(valence),進而擾亂其參與的Notch信號通路。

如果說Indel是單詞級別的“拼寫失誤”,那麼融合癌蛋白(fusion oncoproteins)則是一種更為劇烈的“句子重組”。在某些癌症中,染色體易位會將兩個原本不相干的基因拼接到一起,產生一個“縫合怪”式的融合蛋白。這種融合常常將一個蛋白的DNA結合域(DBD)與另一個蛋白的IDR拼接起來。

研究團隊分析了29個此類融合癌蛋白,發現它們無一例外地都發生了劇烈的“語法交換”(grammar swapping)。例如,在B細胞急性淋巴細胞白血病中,轉錄因子MEF2D的正常IDR(富含Q-patch)丟失了,取而代之的是另一個蛋白(如HNRNPUL1或FOXJ2)的IDR,後者要麼富含酪氨酸(Y)和脯氨酸(P),要麼富含塊狀的負電荷。這種徹底的語法改變,就像是把一個文檔的標題(DNA結合域)嫁接到另一篇完全不相干文章的正文(新的IDR)上。其結果是,這個融合蛋白會被錯誤地招募到基因組的特定位置,並利用其全新的“語法”招募錯誤的相互作用夥伴,從而劫持細胞的基因表達程序,驅動癌症的發生。

研究人員還通過對UBTF蛋白融合的分析,進一步展示了這種“語法交換”如何重塑蛋白質的“社交圈”。正常的UBTF蛋白通過其富含D/E的IDR(屬於GIN簇7)與其他核仁蛋白互作,而MAML3蛋白則通過其富含Q-patch的IDR(屬於GIN簇11)與另一群蛋白互作。在一種罕見的腫瘤中,UBTF與MAML3發生融合,UBTF丟失了它自己的D/E尾巴,換上了MAML3的Q-patch尾巴。DepMap數據顯示,與UBTF功能相關的蛋白(UBTF的朋友圈)和與MAML3功能相關的蛋白(MAML3的朋友圈)幾乎沒有交集,它們的IDR語法也截然不同。這意味着,UBTF::MAML3這個融合蛋白,很可能丟失了與原有UBTF夥伴的聯繫,卻獲得了與MAML3夥伴進行異常互作的能力,從而導致細胞功能紊亂。

這些來自癌症研究的證據,為分子語法的重要性提供了強有力的佐證。它們表明,語法的正確性是維持細胞穩態的基石,而語法的破壞,無論是“拼寫錯誤”,還是 “句子重組”,都可能成為通向疾病的危險路徑。

開啟理解生命複雜性的新篇章

這項發表於《細胞》的研究,遠不止於鑒定出30種IDR的語法類型。它為我們提供了一套全新的概念框架和強大的分析工具,讓我們能夠從序列本身出發,去預測、解釋和操縱蛋白質的功能。

一個可操作的資源庫:研究人員將GIN資源庫和NARDINI+算法打包成易於使用的Google Colab筆記本,向所有研究者開放。這意味着,任何對特定IDR感興趣的研究人員,都可以輕鬆地查詢它的“語法指紋”、所屬的GIN簇,並預測其潛在的定位和功能。

從關聯到因果的橋樑:這項工作巧妙地結合了生物信息學預測、大規模數據挖掘和精準的實驗驗證,成功地在“序列語法”與“生物學功能”之間建立了堅實的因果聯繫。它不僅僅是告訴我們“什麼與什麼相關”,更是通過實驗證明了“這個語法導致了這個功能”。

對疾病的新洞見:通過揭示癌症中分子語法的破壞模式,該研究為我們理解腫瘤發生機制提供了新的視角。未來,我們或許可以基於“語法修復”的思路,設計新型的治療策略,或者通過分析腫瘤特異的“語法錯誤”,開發更精準的診斷標誌物。

更重要的是,這項工作標誌着我們對蛋白質世界的認知正在發生一次深刻的轉變。長期以來,“結構-功能”範式如同物理學中的牛頓定律,為我們理解宏觀世界提供了堅實的基礎。然而,在生命的量子尺度,那個充滿動態、隨機性和“模糊性”的IDR世界裡,我們需要一套新的語言來描述。“分子語法”正是這樣一種語言,它讓我們從“剛性結構”的束縛中解放出來,轉向從“動態序列集合”(sequence ensemble)的角度去理解功能。

生命之書,是用氨基酸的字母書寫的。有些章節,辭藻華麗,結構工整,一目了然;而另一些章節,則語焉不詳,看似散亂,卻蘊含著更深邃、更靈活的語法邏輯。今天,我們終於拿到了解讀後者的第一本“語法書”。雖然這只是一個開始,但它無疑為我們打開了一扇通往理解生命更深層次複雜性的嶄新大門。未來的研究,將在這張“語法地圖”的指引下,繼續探索蛋白質“黑暗地帶”中更多未知的秘密。

參考文獻

Ruff KM、King MR、Ying AW、Liu V、Pant A、Lieberman WE、Shinn MK、Su X、Kadoch C、Pappu RV。跨越人類蛋白質組的預測本質無序區域的分子語法。細胞。 2025 年 11 月 12 日:S0092-8674(25)01191-2。 doi:10.1016/j.cell.2025.10.019。電子版先於印刷版。電話號碼:41232529。

聲明:本文僅用於分享,不代表平台立場,如涉及版權等問題,請儘快聯繫我們,我們第一時間更正,謝謝!

分享你的喜愛