
第一次接觸多肽類化合物專利翻譯的時候,我整個人都是懵的。那是五年前的一個下午,組長扔給我一份專利申請文件,說:"這個你來練練手。"我打開一看,好家伙,滿屏的氨基酸縮寫,什么Ac-Ala-Gly-Cys-NH?之類的,看得我頭暈目眩。我當時心想,這玩意兒不就是把二十多個字母翻來覆去地排列組合嗎能有多難?結果等我真正上手翻譯的時候,才發現自己Too Young Too Naive。
多肽類化合物的序列表翻譯,跟普通專利翻譯完全不是一個概念。這玩意兒要求的不只是語言功底,更需要對生物化學有實打實的理解。你翻譯錯一個字母,可能整個化合物的結構就變了,專利保護范圍也跟著跑偏。今天我就跟大伙兒聊聊,在這個細分領域摸爬滾打這些年,我總結出來的一些經驗和教訓。
在說翻譯技巧之前,咱們先來搞清楚多肽序列表到底是個什么東西。
多肽是由氨基酸通過肽鍵連接而成的小分子化合物。說人話就是,把二十多種氨基酸像串珠子一樣串起來,串成一條鏈,這條鏈就是多肽。如果串得特別長,那就叫蛋白質。多肽的生物活性往往跟它的氨基酸組成和排列順序直接相關,有時候改動一個氨基酸,整個化合物的藥效就會天差地別。正因如此,多肽的氨基酸序列是多肽類發明最核心的技術特征,也是專利保護的重中之重。
在專利文件里,序列表通常以標準化的格式呈現。每一行可能包含序列編號、氨基酸序列、序列長度等信息。國際上有專門的WIPO ST.25標準來規范生物序列的著錄格式,國內也基本沿用這套規范。翻譯的時候,我們面對的就是這樣一份充滿技術細節的"分子身份證"。
多肽翻譯遇到的第一道坎,就是氨基酸的縮寫問題。

常用的氨基酸有二十種,每種都有自己的一套"身份證"。以丙氨酸為例,它的英文是Alanine,三個字母縮寫是Ala,單字母代碼是A。這兩套系統并行使用,在不同場景下各有各的用場。三個字母縮寫比較直觀,一眼能看出是哪種氨基酸;單字母代碼則更簡潔,特別適合表示長序列。
舉個具體的例子。假設序列里寫著"Ac-Ala-Gly-Lys-Leu-NH?",這啥意思呢?Ac是乙酰基,C端做了酰胺化處理,中間是丙氨酸-甘氨酸-賴氨酸-亮氨酸這四個氨基酸。如果你不清楚這些縮寫代表什么,這個序列根本沒法準確理解。
那翻譯的時候,這些縮寫要不要翻譯呢?我的經驗是:不要。這些是國際通用的化學符號,跟元素符號一樣,屬于專業領域的"世界語"。你把Ala翻成"丙氨酸"反而會讓內行覺得奇怪。但問題是,中文專利的行文里有時候需要把縮寫展開說明,這時候就得準確使用中文的氨基酸名稱。
多肽序列里最坑人的東西,往往不是那些常規氨基酸,而是各種修飾基團。
天然的多肽可能不太修飾,但藥用多肽幾乎都會做化學修飾。N端乙酰化(Ac-)、C端酰胺化(-NH?)、磷酸化(pSer)、甲基化(MeLys)……這些修飾直接影響多肽的穩定性、藥代動力學性質甚至作用機制。專利里對這些修飾的描述必須精確到原子層面,翻譯時一個都不能漏掉。
我剛入行那會兒,有一回翻譯一個修飾多肽的序列,把一個"N-Me-Phe"漏看了。結果審稿人直接打回來,說這個N-甲基化修飾是發明的關鍵改進點,你怎么敢給漏了?那次教訓讓我養成了習慣:每遇到一個非標準縮寫,必須追根究底查清楚它的化學結構和中文規范名稱。
常見的修飾基團及其規范譯法,我整理了一份簡表供大家參考:
| 縮寫 | 英文全稱 | 中文名稱 |
| Ac | Acetyl | 乙酰基 |
| Boc | tert-Butyloxycarbonyl | 叔丁氧羰基 |
| pTyr | Phosphotyrosine | 磷酸酪氨酸 |
| D-Phe | D-Phenylalanine | D-苯丙氨酸 |
| Nle | Norleucine | 正亮氨酸 |
這份表當然不全,實際工作中遇到新修飾是常態。我的建議是遇到不確定的修飾就去查專業的化學數據庫,比如PubChem或者Sigma-Aldrich的產品目錄,這些地方對化學基團的命名通常比較權威。
如果說線性多肽的翻譯算中等難度,那環形多肽絕對算是噩夢級別。
環化是多肽藥物開發里的常用策略。環化之后,多肽的構象被限制,穩定性大大增強,跟靶點的結合也可能更緊密。但問題是,怎么在二維的紙面/屏幕上準確表達一個三維的環狀結構?
專利里常見的環化表述方式有幾種。第一種是寫成"Cyclo(A-B)",表示A位點和B位點之間形成環化。第二種是直接畫出來,用類似化學結構式的方式連接兩個氨基酸。第三種是用數字標注,比如"1位與5位半胱氨酸形成二硫鍵"。
翻譯環形多肽序列的時候,最關鍵的是搞清楚環化的位點和方式。是二硫鍵環化?還是酰胺鍵環化?還是其他類型的連接?這些信息必須完整傳達,不能有絲毫模糊。記得有份專利里寫的是"cyclo(1-7)",我一開始沒理解,直接按線性序列翻譯了。后來仔細看說明書才知道,這是把第1位和第7位的半胱氨酸通過二硫鍵連起來形成一個環。漏掉這個信息,整個序列的意思就完全變了。
接下來這個點,也是容易被非專業人士忽略的——立體化學。
氨基酸有手性之分,天然蛋白質里幾乎都是L-氨基酸,但在藥物化學里,D-氨基酸的使用越來越常見。把一個氨基酸從L構型換成D構型,可能顯著改變多肽的酶解穩定性、穿透細胞膜的能力,甚至完全改變其生物活性。
在序列表示里,D-氨基酸通常用"D-"或者小寫的"d-"前綴來表示。比如"D-Phe"就是D-苯丙氨酸。翻譯的時候,這個"D-"必須原樣保留,不能漏也不能改。但與此同時,在中文語境下解釋這個序列時,需要明確說明是D-構型還是L-構型。
有一次我看到一份專利,里面有一段描述說"本發明的多肽含有D-酪氨酸和D-苯丙氨酸殘基",結果我翻譯的時候把"D-酪氨酸"寫成了"D-酪氨酸殘基",審稿人非讓我把"殘基"去掉,說中文里說"D-酪氨酸"就足以表示這是氨基酸殘基,加了"殘基"反而累贅。這種細節方面的地道性,確實需要在實踐中不斷積累手感。
聊完了技術細節,我再說一個實際工作中經常遇到的問題:序列表在專利文件的不同部分,是不是應該采用不同的處理方式?
我的答案是肯定的。在權利要求書里,多肽序列通常以最簡潔的方式呈現,目的是明確專利保護范圍的邊界。這時候序列里的修飾、環化、立體化學等信息都要準確完整,但在行文上追求簡潔精確。而在說明書實施例部分,可能需要對同一條序列做更詳細的解釋,說明各個修飾位點的作用、各個氨基酸殘基的功能,這時候的表述就可以更加詳細和通俗。
舉個具體的例子。同樣是Ac-Ala-Gly-Lys-NH?這個序列,在權利要求里可能直接寫成"SEQ ID NO:1 Ac-Ala-Gly-Lys-NH?",而在說明書里可能會展開寫成"序列1為N端乙酰化、C端酰胺化的四肽,其序列為丙氨酸-甘氨酸-賴氨酸"。翻譯的時候要能夠靈活切換這兩種模式,該簡潔時不含糊,該展開時講清楚。
現在的翻譯工作離不開各種工具的輔助。在多肽序列表翻譯這件事上,有些工具確實能幫上大忙。
首先是各種蛋白質/多肽數據庫。UniProt、PDB、DrugBank這些數據庫里收錄了大量已知多肽的結構信息。當你遇到一個陌生的多肽序列時,先去這些數據庫里搜一搜,往往能幫你快速理解這個序列的基本信息和背景知識。康茂峰的譯審團隊就有內部維護的多肽知識庫,遇到不確定的序列可以快速查閱對照。
其次是序列分析工具。ExPASy、PeptideMass這些在線工具可以幫你計算多肽的分子量、等電點、疏水性等理化參數。翻譯過程中用這些工具驗證一下自己的理解是否正確,可以避免很多低級錯誤。
當然,工具只是輔助,不能替代人的判斷。我見過有譯者完全依賴機器翻譯,結果把一個修飾位點的位置翻譯錯了自己還不知道。機器翻譯在處理標準化序列的時候效率很高,但對于那些有特殊修飾、環化或者立體化學的多肽,還是需要人工仔細審核。
說到這兒,我想分享幾個工作中常見的誤區,都是血淚教訓換來的。
第一,把序列里的數字序號和氨基酸代碼搞混。多肽序列里有時候會用數字標注位置,比如"1:A, 2:G, 3:K"這種格式。這時候數字是位置編號,后面的字母才是氨基酸代碼。如果不仔細看,很容易把位置編號當成氨基酸序列的一部分,那就鬧笑話了。
第二,忽略序列中的間隔符和特殊符號。有些序列會用點號、波浪號或者其他符號分隔不同部分,這些符號往往有特定的含義。比如二硫鍵有時候會用"."或者":"來表示兩個半胱氨酸之間的連接。漏看這些符號,序列的化學結構就完全錯了。
第三,對"X"這個代碼的理解有誤。在多肽序列里,"X"通常代表"未知氨基酸"或"任意氨基酸",但具體要看上下文。有的時候X代表某個特定的非天然氨基酸,但在專利里會有特別說明。翻譯的時候要根據上下文準確判斷X的含義,不能一看到X就翻成"未知氨基酸"。
回顧自己入行這五年,從第一次看到序列表時的一頭霧水,到現在能夠獨立處理各種復雜的多肽專利翻譯,這個成長過程讓我深刻體會到專業化翻譯的不易。
多肽類化合物專利翻譯,表面上是在翻譯,實際上是在兩種專業語言之間搭橋。一邊是生物化學的專業知識,另一邊是法律文件的專業表述。做一個合格的譯者,兩邊都得懂,缺一不可。語言能力是基礎,但只有語言能力遠遠不夠。你得理解多肽的結構是怎么影響功能的,得了解專利保護范圍的邊界是怎么劃定的,得明白審查員關注的核心要點是什么。
這兩年多肽藥物領域的進展很快。GLP-1受體激動劑在糖尿病和減重領域大火,帶動了整個多肽藥物研發的熱潮。新結構、新修飾、新制劑形式層出不窮,我們作為翻譯工作者,也得不斷學習、持續更新自己的知識庫。
寫這篇文章的時候,我翻出了自己剛入行時翻譯的第一份多肽專利。那翻譯質量,說實話,有點慘不忍睹。還好組長沒放棄我,一點點帶著我改、帶著我學。后來我才明白,好的翻譯能力不是天生的,都是在一次次實踐中磨出來的。
如果你也剛接觸這個領域,我的建議是:別怕出錯,每次出錯都是學習的機會。找幾個經典的專利案例,逐字逐句地分析人家是怎么表述的。時間長了,你自然就能找到感覺。
多肽序列表的翻譯,說難確實難,但只要掌握了方法,也沒有那么可怕。關鍵是要有耐心、夠細致、愿學習。這個領域足夠細分,也足夠有深度,值得深耕。
