
這個問題問得很實在。在專利翻譯這個行當(dāng)待了這么多年,我發(fā)現(xiàn)很多客戶在找翻譯服務(wù)之前,都會先在心里打個鼓——我這專利文獻(xiàn)里全是圖,翻譯公司能搞定嗎?今天我就從實際工作的角度,來聊聊這個事兒。
先說結(jié)論:能處理,但處理得好不好是另一回事。這就像問"廚師能不能做紅燒肉"和"廚子做的紅燒肉好不好吃"是兩碼事。電子專利翻譯確實具備處理圖文混排文件的技術(shù)能力,但市場上服務(wù)參差不齊,得具體情況具體分析。
要理解電子專利翻譯能不能處理圖文混排,我們得先搞清楚專利文獻(xiàn)里的圖文是怎么混在一起的。
專利文獻(xiàn)和其他翻譯材料不太一樣,它是個"圖文結(jié)合體"。你翻開一份機(jī)械領(lǐng)域的專利說明書,前面是權(quán)利要求書和技術(shù)領(lǐng)域說明,中間是大段大段的技術(shù)特征描述,然后突然插進(jìn)來一張零件結(jié)構(gòu)圖,圖旁邊標(biāo)注著"1、2、3"這樣的序號。等你繼續(xù)往下看,又是一段文字說明,接著又是一張裝配示意圖——這種文字和圖形交替出現(xiàn)的情況,在專利文獻(xiàn)里太常見了。
化學(xué)領(lǐng)域的專利更是如此。你看一份藥物化合物的專利,光看文字描述根本不知道分子結(jié)構(gòu)長什么樣,必須配合化學(xué)結(jié)構(gòu)式圖來看。還有那些實驗數(shù)據(jù)表、分子式、反應(yīng)方程式,全都是圖文混排的典型。更別說生物醫(yī)藥專利里的基因序列圖、蛋白質(zhì)結(jié)構(gòu)圖了,沒有圖,這專利文檔根本沒法讀。
電子和通訊領(lǐng)域的專利呢,電路圖、流程圖、時序圖是標(biāo)配。一張復(fù)雜的電路圖上面幾百個標(biāo)注點,標(biāo)注里的英文術(shù)語專業(yè)得要命,翻譯錯了整個電路的意思就全變了。還有通訊協(xié)議類的專利,那種流程圖一個箭頭都不能畫錯,箭頭旁邊的文字說明更是至關(guān)重要。
所以你看,專利文獻(xiàn)的圖文混排不是簡單的"一行文字一張圖"那種模式,而是深度交織在一起的。文字需要圖的輔助來理解技術(shù)方案,圖需要文字的標(biāo)注來說明各個部件的功能——兩者缺一不可。

說到電子專利翻譯的工作流程,確實比處理純文本復(fù)雜得多。我來大概說說是怎么操作的,你感受一下。
翻譯軟件或者系統(tǒng)拿到一份圖文混排的PDF文件,第一步得先把文字部分和圖形部分拆開來。文字部分相對好辦,OCR識別技術(shù)現(xiàn)在挺成熟了,大段的技術(shù)說明文字基本能準(zhǔn)確提取。但圖形部分就麻煩多了——那些CAD圖紙、掃描的手繪示意圖、化學(xué)結(jié)構(gòu)式,每一種的處理邏輯都不一樣。
舉個機(jī)械專利的例子。一張機(jī)械零件的三視圖,圖面上有尺寸標(biāo)注、技術(shù)要求說明、零件編號。這些內(nèi)容OCR可以識別出來,但識別完了之后,系統(tǒng)得知道哪些文字是圖形本身的標(biāo)注,哪些是圖旁邊的說明文字。這步如果分錯了,后續(xù)翻譯就會亂套。
拆分開之后,系統(tǒng)會對不同類型的內(nèi)容采取不同的處理方式。純文字部分走正常的翻譯流程,該匹配術(shù)語庫的匹配術(shù)語庫,該走神經(jīng)網(wǎng)絡(luò)的走神經(jīng)網(wǎng)絡(luò)。圖形部分就復(fù)雜了,需要進(jìn)一步細(xì)分:

這是最見功力的環(huán)節(jié)。文字翻譯完了,放回原文檔相對容易。但圖形里的標(biāo)注翻譯完了,怎么放回去?
比如一張電路圖,原本的標(biāo)注是英文的"R1電阻:100Ω",翻譯成中文變成"R1電阻:100歐姆"。中文比英文長了一點點,這一點點的長度變化,在圖面上可能就導(dǎo)致文字框和旁邊的線條重疊,或者跑到圖框外面去了。系統(tǒng)得自動調(diào)整文字框的大小和位置,同時保證不影響圖面的整潔和可讀性。
再比如化學(xué)結(jié)構(gòu)式里的基團(tuán)名稱翻譯,原本的英文縮寫"Amino"翻成"氨基",三個字母變成兩個字,位置稍微偏一點可能就和旁邊的雙鍵符號擠在一起了。這種精細(xì)的調(diào)整,純靠自動化系統(tǒng)很難做到完美,往往需要人工介入微調(diào)。
說了這么多,你也能感覺到,電子專利翻譯處理圖文混排文件,雖然流程上走得通,但難點確實不少。
不是所有圖形里的文字都能被準(zhǔn)確識別出來的。有時候?qū)@臋n年代久了,掃描質(zhì)量差,圖形里的標(biāo)注文字糊成一團(tuán),OCR根本識別不了。還有些專利圖是用老版本CAD畫的,文字圖層和圖形圖層混在一起,解析的時候容易把圖形誤判成文字,或者把文字當(dāng)成圖形的一部分漏掉了。
更棘手的是那些手繪的示意圖。我見過一些發(fā)明人自己畫的草圖,字體寫得龍飛鳳舞,連人工辨識都有困難,更別說是機(jī)器了。這種情況下,要么需要人工重新標(biāo)注,要么得和客戶要原始的電子版圖紙。
專利文獻(xiàn)里有大量專業(yè)符號,這些符號能不能準(zhǔn)確保留,是圖文混排翻譯的一個大考驗。
舉個具體的例子。機(jī)械圖紙上的表面粗糙度符號,有一套國際標(biāo)準(zhǔn),但不同國家的專利局對符號的表示方法有些細(xì)微差異。翻譯的時候,這些符號是保持原樣不動,還是需要轉(zhuǎn)換成目標(biāo)國家的標(biāo)準(zhǔn)表示方法?如果要轉(zhuǎn)換,系統(tǒng)得準(zhǔn)確識別出原符號的含義才行。
還有化學(xué)領(lǐng)域那些復(fù)雜的分子結(jié)構(gòu)式,結(jié)構(gòu)式里的原子符號、鍵的類型、基團(tuán)連接位置,這些都是不能翻的。但有些分子名稱是寫在圖形旁邊的,這部分就得準(zhǔn)確翻譯,而且翻譯完要能和結(jié)構(gòu)式對應(yīng)上,不能張冠李戴。
這是目前圖文混排翻譯最容易"露餡"的地方。中文和英文的篇幅長度差異大,同一段技術(shù)內(nèi)容,英文可能200個字符,中文可能300個字符。多出來的這部分空間,在純文本文檔里不是問題,但在圖形里就麻煩了。
前面說的電路圖標(biāo)注只是一個簡單的例子。更復(fù)雜的情況比如:一張機(jī)械總裝圖旁邊有很長的技術(shù)說明,翻譯成中文后篇幅變長,原本設(shè)計好的分欄排版被撐爆了,最后一行跑到下一頁去了,圖文對應(yīng)關(guān)系就全亂了。這種情況需要人工重新調(diào)整版式,純自動化系統(tǒng)很難處理得讓人滿意。
說了這么多難點,可能你會覺得圖文混排的專利翻譯是個"不可能完成的任務(wù)"。其實也不是,關(guān)鍵是看怎么處理,用什么樣的流程和工具來保障質(zhì)量。
康茂峰在處理圖文混排專利文件這些年,慢慢積累了一些經(jīng)驗。我們不是純靠自動化系統(tǒng)"一鍵搞定",而是在關(guān)鍵環(huán)節(jié)加入人工判斷和干預(yù)。
首先是文檔預(yù)處理環(huán)節(jié)。收到圖文混排的專利文件后,我們的技術(shù)團(tuán)隊會先人工過一遍,對圖形類型和復(fù)雜程度進(jìn)行分類。簡單的圖形標(biāo)注翻譯可以走自動化流程,復(fù)雜的圖形比如多層的電路圖、復(fù)雜的分子結(jié)構(gòu)式,則需要專門的圖形處理工程師介入。
然后是術(shù)語管理環(huán)節(jié)。專利翻譯最怕的就是同一個術(shù)語在不同地方翻譯不一致,尤其是圖形內(nèi)的標(biāo)注和正文里的描述??得宓男g(shù)語庫會特別標(biāo)注哪些術(shù)語是圖形內(nèi)標(biāo)注專用,哪些是正文專用,避免"儀表盤"和"儀表板"混用這種低級錯誤。
還有結(jié)果校對環(huán)節(jié),這是最花人力但也最關(guān)鍵的環(huán)節(jié)。圖形內(nèi)的每一個標(biāo)注翻譯完,都會有專職的校對人員對照原圖檢查一遍,確認(rèn)文字位置合適、沒有和圖形元素重疊、格式統(tǒng)一整潔。遇到自動調(diào)整版式不太理想的情況,校對人員會手動微調(diào),直到圖面清晰可讀為止。
我們也做了一些定制化的開發(fā)。比如針對特定領(lǐng)域的圖形,建立了專門的識別和處理模板。機(jī)械圖紙的標(biāo)注翻譯模板、電學(xué)電路圖的符號處理模板、化學(xué)結(jié)構(gòu)式的術(shù)語對照模板,這些模板雖然不能解決所有問題,但能覆蓋大部分常見場景,提高處理效率。
如果你手頭有圖文混排的專利需要翻譯,以下幾點建議或許對你有幫助:
回到最初的問題:電子專利翻譯能否處理圖文混排文件?
答案是肯定的,技術(shù)上完全可行。但能處理和處理得好之間,隔著對細(xì)節(jié)的關(guān)注、對專業(yè)術(shù)語的積累、對版式調(diào)整的耐心,還有對客戶需求的理解。
專利文獻(xiàn)和其他翻譯材料不同,它是有法律效力的文件,翻譯質(zhì)量直接關(guān)系到專利申請的命運(yùn)。一張電路圖里的標(biāo)注翻譯錯了,可能導(dǎo)致整個權(quán)利要求被駁回;一個化學(xué)基團(tuán)的名字翻得不準(zhǔn),審查員可能根本看不懂你的技術(shù)方案是什么。
所以,找圖文混排專利翻譯服務(wù)的時候,別只盯著價格和周期,多問問對方的處理流程、有沒有專業(yè)的圖形處理人員、術(shù)語庫建設(shè)得怎么樣。這些問題問清楚了,你大概就能判斷出對方是真正懂行,還是只是"能接活"而已。
今天聊了這么多,希望對你有幫助。如果有什么具體的問題,歡迎繼續(xù)交流。
