
如果你正在做生命科學(xué)領(lǐng)域的翻譯工作,或者負(fù)責(zé)管理這類翻譯項(xiàng)目,你一定會(huì)遇到一個(gè)看似簡(jiǎn)單卻讓人頭疼的問題:到底怎么計(jì)算字?jǐn)?shù)才準(zhǔn)確?說實(shí)話,這個(gè)問題比我剛開始做翻譯那會(huì)兒想象的要復(fù)雜得多。普通文章翻譯,按字?jǐn)?shù)算錢或者按字?jǐn)?shù)統(tǒng)計(jì)工作量,看起來是天經(jīng)地義的事。但生命科學(xué)資料不一樣,里面夾雜著太多"不按套路出牌"的內(nèi)容——專業(yè)術(shù)語、分子式、基因序列符號(hào)、計(jì)量單位,還有一些七七八八的特殊字符。這些東西到底算不算字?怎么算才公平?圍繞這些問題,業(yè)內(nèi)其實(shí)一直沒有一個(gè)放之四海而皆準(zhǔn)的標(biāo)準(zhǔn)答案。
這篇文章就想聊聊生命科學(xué)資料翻譯中字?jǐn)?shù)統(tǒng)計(jì)的那些事兒。我會(huì)盡量用大白話把這個(gè)事兒說清楚,既會(huì)講清楚基本原理,也會(huì)分享一些實(shí)際操作中的經(jīng)驗(yàn)和技巧。不管你是剛?cè)胄械姆g新人,還是已經(jīng)干了多年的老手,相信讀完以后都會(huì)有一些收獲。
要理解生命科學(xué)翻譯字?jǐn)?shù)統(tǒng)計(jì)的難點(diǎn),咱們得先搞清楚這類資料到底有什么不一樣。普通文學(xué)作品或者商業(yè)文檔的文字構(gòu)成相對(duì)簡(jiǎn)單,基本就是字母、漢字、數(shù)字和標(biāo)點(diǎn)符號(hào)混在一起。但生命科學(xué)資料呢,簡(jiǎn)直就是一個(gè)"大雜燴"。
首先映入眼簾的就是那些密密麻麻的專業(yè)術(shù)語。什么"磷酸化的絲氨酸-蘇氨酸蛋白激酶",什么"β-半乳糖苷酶基因表達(dá)載體",這些又長(zhǎng)又復(fù)雜的術(shù)語在生命科學(xué)文獻(xiàn)里俯拾皆是。一個(gè)術(shù)語頂普通單詞好幾個(gè),計(jì)算方法不同,統(tǒng)計(jì)出來的結(jié)果可能差出百分之好幾十。
然后就是那些符號(hào)和公式。分子式不用說了,H?O、Na?、ATP這種還算簡(jiǎn)單的。更復(fù)雜的是基因序列片段,什么"5'-AGCTAGCT-3'"這種,還有各種上下標(biāo)、希臘字母。實(shí)驗(yàn)條件描述里也經(jīng)常出現(xiàn)溫度范圍、pH值、濃度單位之類的寫法。這些東西用純文字處理軟件打開,有時(shí)候會(huì)顯示得七零八落,統(tǒng)計(jì)的時(shí)候更容易出問題。
還有一類容易被忽略的是計(jì)量單位和縮寫。μmol/L、mg/ml、rpm、OD???這些,在生命科學(xué)文獻(xiàn)里出現(xiàn)頻率極高。它們有的是字母和數(shù)字的組合,有的是特殊符號(hào),處理軟件往往不知道該怎么對(duì)待它們。
正是因?yàn)檫@些"不速之客"的存在,生命科學(xué)翻譯的字?jǐn)?shù)統(tǒng)計(jì)成了一個(gè)需要專門對(duì)待的問題。用普通方法統(tǒng)計(jì),結(jié)果往往和實(shí)際工作量大相徑庭,翻譯覺得不公平,客戶覺得被多收錢,最后兩邊都委屈。所以,了解各種統(tǒng)計(jì)方法的原理和適用場(chǎng)景,就變得非常重要了。

在生命科學(xué)翻譯領(lǐng)域,常用的字?jǐn)?shù)統(tǒng)計(jì)方法大致可以分成幾類。每一類都有自己的道理和適用場(chǎng)景,沒有哪種是絕對(duì)完美的好,我們一個(gè)一個(gè)來說。
字符數(shù)統(tǒng)計(jì)是最基礎(chǔ)也是最通用的一種方法。它的原理很簡(jiǎn)單——數(shù)一數(shù)文檔里有多少個(gè)字符,包括字母、數(shù)字、空格、標(biāo)點(diǎn),統(tǒng)統(tǒng)都算。漢字比較特殊,一個(gè)漢字通常算兩個(gè)字符,這就是所謂的"雙字節(jié)字符"。
這種方法的優(yōu)點(diǎn)是客觀公正,不管你內(nèi)容是什么,是專業(yè)術(shù)語還是日常用語,機(jī)器一視同仁。而且?guī)缀跛械奈淖痔幚碥浖寄芙o出字符數(shù)統(tǒng)計(jì)數(shù)據(jù),操作起來門檻很低。生命科學(xué)翻譯用字符數(shù)統(tǒng)計(jì)的時(shí)候,專業(yè)術(shù)語的特殊性就被"磨平"了——一個(gè)術(shù)語不管多長(zhǎng),字符數(shù)該是多少就是多少,不會(huì)因?yàn)樗菍I(yè)詞匯就多算你幾個(gè)。
但字符數(shù)統(tǒng)計(jì)的缺點(diǎn)也很明顯。它沒辦法反映實(shí)際的工作量。同樣是1000個(gè)字符,"細(xì)胞"兩個(gè)字和"β-半乳糖苷酶"這七個(gè)字符,翻譯起來的腦力投入完全不在一個(gè)量級(jí)。專業(yè)術(shù)語需要查證資料、理解背景、確保準(zhǔn)確譯法,這些隱性工作在字符數(shù)里根本體現(xiàn)不出來。用字符數(shù)來定價(jià)或者評(píng)估工作量,翻譯人員往往會(huì)覺得自己吃虧。
詞數(shù)統(tǒng)計(jì)是另一種常見的做法。它的邏輯是以"詞"為單位來計(jì)算字?jǐn)?shù)。英文里詞和詞之間有空格,相對(duì)容易界定;中文麻煩一些,需要有分詞工具來幫忙。
詞數(shù)統(tǒng)計(jì)法在生命科學(xué)翻譯中有一個(gè)明顯的優(yōu)勢(shì):它對(duì)專業(yè)術(shù)語比較"友好"。一個(gè)術(shù)語不管多長(zhǎng),在詞數(shù)統(tǒng)計(jì)里通常被算作一個(gè)或者少數(shù)幾個(gè)"詞",不會(huì)因?yàn)樽址嗑驼急阋恕_@樣一來,像"酪氨酸激酶受體"這樣的長(zhǎng)術(shù)語和普通的"酶"這個(gè)詞,在統(tǒng)計(jì)上就不會(huì)差得太離譜。

不過詞數(shù)統(tǒng)計(jì)也有自己的問題。首先,中文分詞本身就是個(gè)有爭(zhēng)議的技術(shù)活,同樣一段話,不同的分詞軟件可能得出不同的詞數(shù)結(jié)果。其次,那些符號(hào)和公式怎么處理?基因序列片段"5'-AGCTAGCT-3'"是算一個(gè)詞還是八個(gè)詞?希臘字母μ到底是單獨(dú)一個(gè)詞還是和后面的mol連在一起算一個(gè)詞?這些問題沒有標(biāo)準(zhǔn)答案,不同的軟件、不同的設(shè)置會(huì)給出不同的結(jié)果。
還有一些做法是分別統(tǒng)計(jì)原文和譯文的字?jǐn)?shù),然后取其中較大的一個(gè)作為計(jì)費(fèi)標(biāo)準(zhǔn),或者按照某種比例來計(jì)算。這種方法背后的考慮是:翻譯過程中,譯文字?jǐn)?shù)可能比原文多(比如中文譯英文時(shí)),也可能比原文少(比如英文譯中文時(shí)),為了公平起見,取較多的一方對(duì)翻譯方來說更有保障。
生命科學(xué)資料翻譯中,英文譯中文的情況比較普遍。由于英語的構(gòu)詞特點(diǎn),專業(yè)術(shù)語往往比較長(zhǎng),翻譯成中文后反而可能更簡(jiǎn)潔(比如"polymerase chain reaction"譯成"聚合酶鏈?zhǔn)椒磻?yīng)",字?jǐn)?shù)反而少了)。這種情況下,如果只按原文計(jì)費(fèi),翻譯方明顯吃虧;只按譯文計(jì)費(fèi),客戶又覺得虧。分別統(tǒng)計(jì)然后取最大值,就成了一個(gè)折中的方案。
但這種方法操作起來比較麻煩,需要同時(shí)處理兩份文檔,溝通成本也高。而且它還是沒有解決專業(yè)術(shù)語工作量不對(duì)等的問題——你翻譯一個(gè)復(fù)雜的英文術(shù)語可能需要查很多資料、反復(fù)確認(rèn),譯成中文后字?jǐn)?shù)反而少了,按照這種統(tǒng)計(jì)方式,你拿到的報(bào)酬可能和付出的努力不成正比。
計(jì)算機(jī)輔助翻譯工具,也就是大家常說的CAT工具,在生命科學(xué)翻譯領(lǐng)域使用非常廣泛。這類軟件不僅能幫助翻譯人員管理術(shù)語、復(fù)用已經(jīng)翻譯過的內(nèi)容,還提供了相對(duì)復(fù)雜的字?jǐn)?shù)統(tǒng)計(jì)功能。
以Trados為例,這款軟件在翻譯行業(yè)占有率很高,它統(tǒng)計(jì)字?jǐn)?shù)時(shí)會(huì)區(qū)分幾種不同的概念。最基礎(chǔ)的是"文件總字?jǐn)?shù)",也就是整個(gè)文檔一共有多少字符或詞數(shù)。然后是"新增內(nèi)容字?jǐn)?shù)",也就是本次翻譯中新產(chǎn)生的、需要翻譯的字符數(shù)。那些已經(jīng)在翻譯記憶庫(kù)里匹配上的內(nèi)容,會(huì)被標(biāo)記為"重復(fù)"或"模糊匹配",統(tǒng)計(jì)時(shí)會(huì)有不同的處理方式。
對(duì)于生命科學(xué)翻譯來說,CAT工具的一個(gè)好處是它能處理一些特殊格式。PDF、HTML這些格式的文檔,直接用Word統(tǒng)計(jì)可能會(huì)有各種問題,但CAT工具往往能夠正確識(shí)別里面的文本內(nèi)容。不過,符號(hào)和公式依然是難題。大多數(shù)CAT工具在統(tǒng)計(jì)"5'-AGCTAGCT-3'"這樣的序列時(shí),要么全部算作字符,要么全部忽略,很少有智能識(shí)別的好辦法。
另外值得一提的是,現(xiàn)在有一些專門針對(duì)生命科學(xué)領(lǐng)域的CAT工具或者插件,它們對(duì)生物化學(xué)符號(hào)、基因序列表示法有更好的支持。如果你的工作涉及大量的這類內(nèi)容,投資這類專業(yè)工具是值得的。它們不僅統(tǒng)計(jì)更準(zhǔn)確,還能提供專業(yè)的術(shù)語庫(kù)和語料庫(kù),讓翻譯質(zhì)量和效率都上一個(gè)臺(tái)階。
說了這么多方法和理論,最后還是得落到實(shí)際操作層面。結(jié)合多年的行業(yè)經(jīng)驗(yàn),我有幾個(gè)建議可以分享給大家。
第一,在項(xiàng)目開始前就把統(tǒng)計(jì)方法約定清楚。很多翻譯糾紛都是因?yàn)殡p方對(duì)"字?jǐn)?shù)"的理解不一致造成的。客戶說按Word顯示的數(shù)字算,翻譯說應(yīng)該按實(shí)際字符數(shù)算,各說各的,最后不歡而散。康茂峰在長(zhǎng)期的服務(wù)實(shí)踐中就遇到過這種情況,所以我們現(xiàn)在都會(huì)在項(xiàng)目啟動(dòng)前和客戶確認(rèn)統(tǒng)計(jì)標(biāo)準(zhǔn),把具體用哪種方法、怎么處理特殊字符都寫進(jìn)合同或者確認(rèn)郵件里。這樣大家都心里有數(shù),后續(xù)合作也順暢。
第二,根據(jù)資料類型選擇合適的統(tǒng)計(jì)方法。如果是純文字的綜述性文獻(xiàn),用字符數(shù)或詞數(shù)差別不大;但如果是實(shí)驗(yàn)方法部分,充斥著各種試劑名稱和參數(shù)設(shè)置,可能需要更細(xì)致的處理。我個(gè)人的經(jīng)驗(yàn)是,遇到符號(hào)和公式特別多的段落,不妨單獨(dú)拿出來討論,看看能不能有特殊的計(jì)算方式。
第三,遇到拿不準(zhǔn)的情況,先小范圍測(cè)試。康茂峰的項(xiàng)目經(jīng)理在接到新類型的稿件時(shí),經(jīng)常會(huì)先選取有代表性的前幾頁(yè),用不同的方法分別統(tǒng)計(jì)一遍,然后和翻譯人員溝通實(shí)際工作量,對(duì)比看看哪種方法更合理。這樣實(shí)測(cè)一輪,后面執(zhí)行起來就有底了。
第四,保持溝通渠道暢通。字?jǐn)?shù)統(tǒng)計(jì)說到底是人與人之間的事,不是純粹的技術(shù)問題。翻譯覺得某個(gè)地方工作量被低估了,應(yīng)該及時(shí)提出來;客戶發(fā)現(xiàn)統(tǒng)計(jì)結(jié)果和預(yù)期不符,也應(yīng)該問清楚是怎么回事。很多時(shí)候,互相理解一下、協(xié)商調(diào)整一下,問題就解決了。
在字?jǐn)?shù)統(tǒng)計(jì)這個(gè)問題上,有一些常見的誤區(qū)值得專門拿出來說一說。
第一個(gè)誤區(qū)是完全依賴軟件給出的數(shù)字。Word有字?jǐn)?shù)統(tǒng)計(jì)功能,但它不一定能正確處理所有的特殊字符。有些符號(hào)在Word里顯示正常,統(tǒng)計(jì)的時(shí)候卻被當(dāng)成亂碼忽略掉了。PDF文檔直接復(fù)制到Word里統(tǒng)計(jì),經(jīng)常會(huì)出現(xiàn)換行符多算、表格內(nèi)容漏算的問題。軟件是工具,不是裁判,對(duì)它輸出的結(jié)果還是要有一個(gè)基本的判斷。
第二個(gè)誤區(qū)是忽視格式對(duì)字?jǐn)?shù)的影響。同樣一段文字,放在Word里和放在純文本里統(tǒng)計(jì),數(shù)字可能不一樣。表格里的內(nèi)容有時(shí)候被算進(jìn)去,有時(shí)候被漏掉。標(biāo)題、頁(yè)眉頁(yè)腳、腳注尾注,這些都是需要單獨(dú)處理的區(qū)域。康茂峰在處理稿件時(shí),都會(huì)明確說明是統(tǒng)計(jì)"純正文內(nèi)容"還是"全文完整統(tǒng)計(jì)",避免產(chǎn)生歧義。
第三個(gè)誤區(qū)是用字?jǐn)?shù)統(tǒng)計(jì)來完全衡量翻譯質(zhì)量。字?jǐn)?shù)和工作量有關(guān),但和質(zhì)量沒有必然聯(lián)系。一段300字的普通段落,熟練的翻譯可能半小時(shí)就能搞定,質(zhì)量也有保障;但一段300字的專業(yè)術(shù)語密集區(qū),可能需要查半天資料、打好幾個(gè)電話確認(rèn),質(zhì)量固然重要,但花的時(shí)間也是實(shí)實(shí)在在的。評(píng)價(jià)翻譯,既要看產(chǎn)出數(shù)量,更要看產(chǎn)出質(zhì)量,兩者不能混為一談。
為了更直觀地對(duì)比不同方法的特點(diǎn),我整理了一個(gè)簡(jiǎn)單的對(duì)比表格供大家參考:
| 統(tǒng)計(jì)方法 | 原理說明 | 優(yōu)點(diǎn) | 缺點(diǎn) | 適用場(chǎng)景 |
| 字符數(shù)統(tǒng)計(jì) | 計(jì)算文檔中所有字符的數(shù)量,包括字母、數(shù)字、標(biāo)點(diǎn)、空格 | 客觀統(tǒng)一,操作簡(jiǎn)單,軟件支持好 | 無法反映專業(yè)術(shù)語的翻譯難度 | 通用場(chǎng)景,雙方對(duì)專業(yè)性要求不高 |
| 詞數(shù)統(tǒng)計(jì) | 以詞為單位計(jì)算,英文按空格分詞,中文需分詞工具 | 對(duì)專業(yè)術(shù)語較公平,體現(xiàn)基本語言單位 | 分詞標(biāo)準(zhǔn)不統(tǒng)一,符號(hào)處理困難 | 術(shù)語較多但符號(hào)較少的資料 |
| CAT工具統(tǒng)計(jì) | 利用Trados等工具統(tǒng)計(jì),支持重復(fù)匹配、模糊匹配等細(xì)分 | 處理大量重復(fù)內(nèi)容時(shí)效率高,格式支持好 | 成本較高,特殊符號(hào)仍難處理 | 大項(xiàng)目,有翻譯記憶庫(kù)積累的資料 |
| 源/譯文分別統(tǒng)計(jì) | 分別統(tǒng)計(jì)原文和譯文,按較大值或特定比例計(jì)算 | 考慮翻譯過程中的字?jǐn)?shù)變化,相對(duì)公平 | 操作復(fù)雜,仍未解決專業(yè)術(shù)語問題 | 中英互譯,篇幅較長(zhǎng)的項(xiàng)目 |
這個(gè)表格只是一個(gè)大致的參考框架,具體選擇哪種方法還是要結(jié)合實(shí)際情況來定。康茂峰在服務(wù)客戶的時(shí)候,會(huì)根據(jù)稿件的具體情況靈活調(diào)整,有時(shí)候甚至?xí)C合使用多種方法,比如正文用字符數(shù)統(tǒng)計(jì),表格和公式部分單獨(dú)按項(xiàng)計(jì)算。
字?jǐn)?shù)統(tǒng)計(jì)這件事,說大不大,說小不小。它關(guān)系到翻譯人員的收入,關(guān)系到客戶的項(xiàng)目成本,也關(guān)系到整個(gè)行業(yè)的健康發(fā)展。在生命科學(xué)這個(gè)特殊領(lǐng)域,因?yàn)閷I(yè)術(shù)語和符號(hào)的特殊性,簡(jiǎn)單的"一刀切"往往行不通,需要更多的溝通、更多的理解、更多的靈活處理。
如果你正在為生命科學(xué)翻譯的字?jǐn)?shù)統(tǒng)計(jì)問題煩惱,不妨靜下心來想一想:我的資料有什么特點(diǎn)?我的合作伙伴關(guān)心什么?有沒有什么方法能夠兼顧效率和公平?把這些問題想清楚了,再去選擇合適的統(tǒng)計(jì)方法,往往就能找到令雙方都滿意的解決方案。
希望這篇文章能給你帶來一些啟發(fā)。如果你有什么想法或者經(jīng)驗(yàn)分享,歡迎在實(shí)踐中繼續(xù)探索和交流。翻譯這件事,歸根結(jié)底是人與人之間的合作,把溝通做好,很多問題都會(huì)迎刃而解。
