
上次有個(gè)朋友問(wèn)我,他們公司要翻譯一批日文技術(shù)文檔,供應(yīng)商給出的統(tǒng)計(jì)結(jié)果比他自己數(shù)的字?jǐn)?shù)多了將近30%,他覺(jué)得這其中肯定有貓膩。我跟他說(shuō)你先別急,翻譯量的統(tǒng)計(jì)方法跟咱們?nèi)粘@斫獾目赡苷娌惶粯印_@篇文章就來(lái)好好聊聊這個(gè)話題,把這里面的門道一次性說(shuō)清楚。
說(shuō)起翻譯量統(tǒng)計(jì),可能很多人第一反應(yīng)就是"數(shù)字?jǐn)?shù)"這么簡(jiǎn)單。但實(shí)際上,小語(yǔ)種翻譯量的計(jì)算遠(yuǎn)比想象中復(fù)雜。不同國(guó)家的語(yǔ)言特性不同,統(tǒng)計(jì)標(biāo)準(zhǔn)也有差異,加上文件格式、是否包含重復(fù)內(nèi)容等因素都會(huì)影響最終數(shù)字。作為一個(gè)在翻譯行業(yè)摸爬滾打多年的人,我見過(guò)太多因?yàn)榻y(tǒng)計(jì)口徑不一致導(dǎo)致的誤會(huì)和糾紛。所以今天這篇文章,我就用最直白的話,把這里面的各個(gè)關(guān)節(jié)都給大家掰開了揉碎了講明白。
咱們先說(shuō)說(shuō)為什么小語(yǔ)種翻譯的量會(huì)這么難統(tǒng)計(jì)。這事兒啊,還得從語(yǔ)言的特性說(shuō)起。大家知道,中文是方塊字,每個(gè)漢字就是一個(gè)獨(dú)立的字符;而英文呢,用的是拉丁字母,同樣的內(nèi)容英文單詞的數(shù)量往往比中文字?jǐn)?shù)要多;再比如日語(yǔ),它同時(shí)使用漢字、平假名和片假名三種字符系統(tǒng),統(tǒng)計(jì)起來(lái)就更復(fù)雜了。
舉個(gè)具體的例子吧。假設(shè)有一段描述"我們要確保產(chǎn)品質(zhì)量符合國(guó)際標(biāo)準(zhǔn)"的內(nèi)容,翻譯成不同語(yǔ)言后的字符數(shù)量差異是很大的。中文原文是16個(gè)字符,英文可能需要翻譯成"We must ensure that the product quality complies with international standards",這個(gè)英文版本算上空格大約是73個(gè)字符。如果翻譯成日文,可能是"製品の品質(zhì)が國(guó)際規(guī)格に適合していることを保証する必要があります",大概又有40多個(gè)字符。同樣一段話,三種語(yǔ)言的字符數(shù)能相差四到五倍。這就是小語(yǔ)種翻譯量統(tǒng)計(jì)的第一個(gè)難點(diǎn)——不同語(yǔ)言之間天然存在字符數(shù)量的差異。
除了語(yǔ)言本身的特性,小語(yǔ)種文件還有個(gè)特點(diǎn)就是格式復(fù)雜。很多小語(yǔ)種的技術(shù)文檔會(huì)大量使用專業(yè)術(shù)語(yǔ),而這些術(shù)語(yǔ)在不同語(yǔ)言中的長(zhǎng)度差異可能非常大。比如德語(yǔ)特別喜歡用復(fù)合詞,一個(gè)單詞能寫半行;俄語(yǔ)的西里爾字母在電子文檔中占用的是雙字節(jié)編碼,統(tǒng)計(jì)起來(lái)又是一筆糊涂賬。要不是業(yè)內(nèi)人,這些細(xì)節(jié)你根本想象不到。
好,理解了為什么復(fù)雜之后,咱們來(lái)看看業(yè)內(nèi)到底是怎么統(tǒng)計(jì)的。目前主流的翻譯量統(tǒng)計(jì)標(biāo)準(zhǔn)主要有三個(gè),我來(lái)逐一給大家解釋清楚。

這個(gè)標(biāo)準(zhǔn)很好理解,就是統(tǒng)計(jì)純字符的數(shù)量,空格、標(biāo)點(diǎn)符號(hào)都不算。在中文、日文、韓文這些CJK語(yǔ)言(中日韓統(tǒng)一表意文字)的文檔處理中,這個(gè)方法用得比較多。為什么呢?因?yàn)橹形奈谋局锌崭癖旧砭筒皇潜仨毜模y(tǒng)計(jì)不計(jì)空格的字符數(shù)更能反映實(shí)際的文字量。
舉個(gè)例子,假設(shè)有一段中文"本合同一式兩份,雙方各執(zhí)一份。"如果用字符數(shù)(不計(jì)空格)來(lái)統(tǒng)計(jì),那就是數(shù)漢字加標(biāo)點(diǎn),總共13個(gè)字符。這種方法的好處是簡(jiǎn)單直觀,客戶一眼就能看懂。但它的問(wèn)題在于沒(méi)法跨語(yǔ)言對(duì)比——同樣是這句話,翻譯成英文后字符數(shù)可能是中文的兩倍甚至三倍,這時(shí)候如果還按這個(gè)標(biāo)準(zhǔn)算,就會(huì)產(chǎn)生誤解。
這個(gè)標(biāo)準(zhǔn)是把空格也計(jì)算在內(nèi)。英文、法文、德文這些西方語(yǔ)言的文檔通常采用這種方式。因?yàn)樵谶@些語(yǔ)言中,單詞之間必須用空格分隔,空格本身就是文本的有機(jī)組成部分。
還是上面的例子,英文版本"We must ensure that the product quality complies with international standards"如果算上空格的話是73個(gè)字符,不算空格的話是63個(gè)。看起來(lái)差別不大,但積少成多,一篇幾十頁(yè)的文件下來(lái),這個(gè)差距就很可觀了。很多國(guó)際項(xiàng)目在招標(biāo)的時(shí)候會(huì)明確要求使用含空格的字符數(shù)統(tǒng)計(jì),這也是為了方便不同語(yǔ)言的供應(yīng)商進(jìn)行公平比價(jià)。
這里有個(gè)小細(xì)節(jié)需要提醒一下,有些軟件的統(tǒng)計(jì)結(jié)果會(huì)把換行符、制表符也算進(jìn)去,所以同一份文件用不同的軟件統(tǒng)計(jì)可能會(huì)有細(xì)微差異。這個(gè)倒不是誰(shuí)對(duì)誰(shuí)錯(cuò)的問(wèn)題,主要是統(tǒng)計(jì)口徑的設(shè)定不一樣。
除了字符數(shù),還有一種常見的是按詞數(shù)統(tǒng)計(jì)。這個(gè)在英文文件中特別常見,因?yàn)橛⑽牡挠?jì)費(fèi)單位傳統(tǒng)上就是"單詞"。比如你翻開任何一份英文翻譯報(bào)價(jià)單,上面寫的幾乎都是"per word"的單價(jià)。

但詞數(shù)統(tǒng)計(jì)也有它的局限性。首先,怎么定義"一個(gè)詞"本身就有爭(zhēng)議。復(fù)合詞算一個(gè)還是分開算?帶連字符的詞怎么處理?不同軟件的判斷標(biāo)準(zhǔn)可能不一樣。其次,非英語(yǔ)的小語(yǔ)種用詞數(shù)來(lái)統(tǒng)計(jì)就不太合適了。比如中文壓根就沒(méi)有空格分隔,詞和詞之間的邊界有時(shí)候連native speaker都說(shuō)不清楚,你讓機(jī)器怎么自動(dòng)統(tǒng)計(jì)?
所以詞數(shù)統(tǒng)計(jì)通常只適用于英語(yǔ)、德語(yǔ)、法語(yǔ)這些有明確詞邊界的語(yǔ)言。像中文、日文、泰文這些小語(yǔ)種,一般不會(huì)用詞數(shù)來(lái)計(jì)價(jià)。
知道了基本標(biāo)準(zhǔn),我們?cè)賮?lái)看看不同類型的文件在統(tǒng)計(jì)上有什么不一樣。這個(gè)話題啊,可能很多甲方爸爸都沒(méi)注意到。
技術(shù)文檔的翻譯量統(tǒng)計(jì)有幾個(gè)特點(diǎn)。第一是專業(yè)術(shù)語(yǔ)多,而這些術(shù)語(yǔ)往往很長(zhǎng),比如一些化學(xué)名稱、機(jī)械部件名稱,翻譯成其他語(yǔ)言后長(zhǎng)度可能翻倍甚至更多。第二是技術(shù)文檔中經(jīng)常包含大量的數(shù)字、公式、變量名,這些內(nèi)容在統(tǒng)計(jì)的時(shí)候怎么處理,不同供應(yīng)商的做法可能不一樣。
有些供應(yīng)商會(huì)把數(shù)字和公式排除在統(tǒng)計(jì)之外,因?yàn)樗鼈?不用翻譯";但也有些供應(yīng)商會(huì)堅(jiān)持把這些內(nèi)容算進(jìn)去,理由是它們占用了排版和審校的工時(shí)。這兩種做法都有道理,關(guān)鍵是雙方要在合同里事先約定清楚,別等到結(jié)算的時(shí)候才來(lái)扯皮。
法律文件的翻譯量統(tǒng)計(jì)相對(duì)簡(jiǎn)單一些,因?yàn)榉烧Z(yǔ)言通常比較規(guī)整,句式結(jié)構(gòu)也相對(duì)固定。但法律文件有個(gè)麻煩的地方就是腳注和引用多。一份幾十頁(yè)的合同,可能有幾十甚至上百個(gè)腳注,每個(gè)腳注都要翻譯,統(tǒng)計(jì)的時(shí)候不能漏掉。
另外,法律文件中的條款編號(hào)(比如第3.2.1條)怎么算,也有講究。有些客戶認(rèn)為這些編號(hào)不用翻譯,應(yīng)該排除在統(tǒng)計(jì)之外;但有些供應(yīng)商認(rèn)為這些編號(hào)雖然"不用翻譯",但需要"處理",所以應(yīng)該計(jì)入。這里面的分寸,確實(shí)需要在合作之前溝通明白。
營(yíng)銷材料的翻譯量統(tǒng)計(jì)可能是最復(fù)雜的。為什么呢?因?yàn)檫@類文件往往包含大量的創(chuàng)意元素——slogan、標(biāo)語(yǔ)、口號(hào)、雙關(guān)語(yǔ)。這些內(nèi)容的翻譯難度很高,而且字符數(shù)量的變化也最難預(yù)測(cè)。
舉個(gè)具體的例子。某個(gè)產(chǎn)品的中文廣告語(yǔ)是"輕盈如羽,舒適隨行",短短八個(gè)字。如果翻譯成英文,可能是"Light as a feather, comfort everywhere",十三個(gè)單詞,字符數(shù)將近七十。如果翻譯成日文,可能需要根據(jù)日本市場(chǎng)的習(xí)慣重新創(chuàng)作文案,長(zhǎng)度完全無(wú)法預(yù)估。這種情況下,如果按原文的字?jǐn)?shù)來(lái)計(jì)價(jià),供應(yīng)商可能會(huì)叫苦;按譯文計(jì)價(jià),客戶又會(huì)覺(jué)得心里沒(méi)底。業(yè)內(nèi)常見的做法是約定一個(gè)基礎(chǔ)計(jì)價(jià)方式,然后對(duì)創(chuàng)意類內(nèi)容給予一定的調(diào)整空間。
說(shuō)到翻譯量統(tǒng)計(jì),有一件事必須得提一下,那就是計(jì)算機(jī)輔助翻譯工具(也就是常說(shuō)的CAT工具)對(duì)統(tǒng)計(jì)結(jié)果的影響。現(xiàn)在的專業(yè)翻譯項(xiàng)目,很少有不用CAT工具的。這些工具不僅能幫助翻譯人員提高效率,還會(huì)生成非常詳細(xì)的統(tǒng)計(jì)報(bào)告。
CAT工具最核心的統(tǒng)計(jì)概念有三個(gè):重復(fù)率、模糊匹配率、完全匹配率。簡(jiǎn)單解釋一下,一份源文檔中有些句子可能反復(fù)出現(xiàn),CAT工具能自動(dòng)識(shí)別這些重復(fù)內(nèi)容。第一次翻譯這個(gè)句子算"完全匹配0%",第二次再出現(xiàn)就是"完全匹配100%",不用再花錢翻譯了。如果有一個(gè)句子和之前翻譯過(guò)的很相似但又不完全一樣,系統(tǒng)會(huì)給出一個(gè)"模糊匹配"的百分比,比如85%相似度的句子只需要花15%的功夫去修改。
這對(duì)翻譯量統(tǒng)計(jì)意味著什么呢?傳統(tǒng)的人工統(tǒng)計(jì)只看原文的總字?jǐn)?shù),但CAT工具能告訴你這里面有多少是重復(fù)內(nèi)容,有多少是新增內(nèi)容。同樣的原文,如果文檔中包含大量重復(fù)內(nèi)容,實(shí)際需要翻譯的"凈量"可能只有總字?jǐn)?shù)的一半甚至更少。很多供應(yīng)商在報(bào)價(jià)時(shí)會(huì)把這個(gè)因素考慮進(jìn)去,給出一個(gè)更有競(jìng)爭(zhēng)力的價(jià)格。如果你不知道這回事,可能會(huì)覺(jué)得同樣的原文有人報(bào)價(jià)高有人報(bào)價(jià)低,其實(shí)背后的原因在這里。
但這里也有一個(gè)問(wèn)題:不同CAT工具的統(tǒng)計(jì)引擎不一樣,同一份文件用不同工具統(tǒng)計(jì)可能得出不同的結(jié)果。主流工具如Trados、MemoQ、Wordfast等,各有自己的統(tǒng)計(jì)算法。所以如果你的項(xiàng)目對(duì)統(tǒng)計(jì)口徑有嚴(yán)格要求,一定要事先指定使用哪種工具,或者約定一個(gè)統(tǒng)一的統(tǒng)計(jì)標(biāo)準(zhǔn)。
聊完了基本概念,我來(lái)說(shuō)說(shuō)在實(shí)際操作中常見的爭(zhēng)議點(diǎn),以及怎么防范可能出現(xiàn)的問(wèn)題。
第一個(gè)爭(zhēng)議點(diǎn)是PDF文件的統(tǒng)計(jì)。PDF這種格式有個(gè)特點(diǎn),就是文字和格式綁定在一起,有時(shí)候直接從PDF復(fù)制出來(lái)的文本會(huì)帶有大量的換行符和隱藏字符。如果直接用PDF文件來(lái)統(tǒng)計(jì)翻譯量,結(jié)果可能比實(shí)際需要的翻譯量高出不少。正確的做法應(yīng)該是先用專門的工具把PDF轉(zhuǎn)換成純文本格式,然后再進(jìn)行統(tǒng)計(jì)。或者直接使用源文件(如Word、InDesign)的版本進(jìn)行統(tǒng)計(jì)。
第二個(gè)爭(zhēng)議點(diǎn)是代碼和變量怎么處理。很多技術(shù)文檔中會(huì)包含代碼片段、配置文件、變量名等內(nèi)容。這些內(nèi)容"理論上"不需要翻譯,但實(shí)際工作中翻譯人員需要確保它們?cè)谧g文環(huán)境中能正常工作,這個(gè)過(guò)程也是要花時(shí)間的。業(yè)內(nèi)常見的做法是把代碼和變量部分單獨(dú)拎出來(lái),按一個(gè)較低的費(fèi)率來(lái)計(jì)費(fèi),或者直接按字符數(shù)打個(gè)折扣。
第三個(gè)爭(zhēng)議點(diǎn)是圖表中的文字。技術(shù)文檔中經(jīng)常有截圖、圖表,上面帶有文字說(shuō)明。這些文字當(dāng)然需要翻譯,但有些供應(yīng)商在統(tǒng)計(jì)翻譯量時(shí)會(huì)漏掉這部分,或者在后期以"補(bǔ)充工作"為由要求加錢。建議的做法是在項(xiàng)目開始前就讓供應(yīng)商預(yù)覽所有文件,明確哪些內(nèi)容需要翻譯,然后鎖定一個(gè)總的翻譯量,避免后期糾紛。
為了讓大家更直觀地了解不同場(chǎng)景下的統(tǒng)計(jì)差異,我整理了一個(gè)簡(jiǎn)單的對(duì)照表:
| 文件類型 | 推薦統(tǒng)計(jì)標(biāo)準(zhǔn) | 注意事項(xiàng) |
| 中文技術(shù)文檔 | 字符數(shù)(不計(jì)空格) | 需排除代碼和數(shù)字 |
| 英文法律合同 | 字符數(shù)(含空格)或詞數(shù) | 注意腳注和條款編號(hào) |
| 日文營(yíng)銷材料 | 字符數(shù)(不計(jì)空格) | 創(chuàng)意內(nèi)容需單獨(dú)約定 |
| 多語(yǔ)言混合文檔 | 按各語(yǔ)言分別統(tǒng)計(jì) | 需明確主計(jì)量單位 |
說(shuō)了這么多,最后我想給需要翻譯服務(wù)的甲方朋友們幾條實(shí)打?qū)嵉慕ㄗh。這些經(jīng)驗(yàn)都是我從無(wú)數(shù)次項(xiàng)目實(shí)踐中總結(jié)出來(lái)的,應(yīng)該能幫大家少走彎路。
第一,招標(biāo)階段就把統(tǒng)計(jì)標(biāo)準(zhǔn)寫清楚。別不好意思,在招標(biāo)文件或詢價(jià)郵件里明確寫出你希望使用哪種統(tǒng)計(jì)方法,這樣所有供應(yīng)商都在同一個(gè)基礎(chǔ)上報(bào)價(jià),后期比價(jià)和結(jié)算都有依據(jù)。如果你自己不太懂這個(gè),可以直接問(wèn)供應(yīng)商,讓他們給你推薦適合你項(xiàng)目類型的統(tǒng)計(jì)方式,然后再做出選擇。
第二,要求供應(yīng)商在正式翻譯前提供預(yù)統(tǒng)計(jì)報(bào)告。好的供應(yīng)商在拿到你的文件后,會(huì)先用CAT工具分析一遍,給你一份詳細(xì)的統(tǒng)計(jì)報(bào)告,包括總字符數(shù)、重復(fù)率、各章節(jié)的分布等等。這份報(bào)告你應(yīng)該仔細(xì)核對(duì),看看有沒(méi)有漏掉的內(nèi)容,有沒(méi)有明顯不合理的地方。如果有疑問(wèn),一定要在這個(gè)階段提出來(lái),別等到翻譯做完了才來(lái)說(shuō)。
第三,合同里要約定統(tǒng)計(jì)爭(zhēng)議的解決機(jī)制。天下沒(méi)有完美的統(tǒng)計(jì),再仔細(xì)也可能有分歧。我的建議是在合同里寫明:如果雙方對(duì)翻譯量統(tǒng)計(jì)結(jié)果有爭(zhēng)議,同意以某個(gè)雙方認(rèn)可的方式進(jìn)行復(fù)核(比如使用指定版本的某個(gè)統(tǒng)計(jì)工具),或者約定一個(gè)合理的誤差范圍(比如±3%以內(nèi)以供應(yīng)商統(tǒng)計(jì)為準(zhǔn))。這樣真出了問(wèn)題也有章可循。
第四,找一個(gè)靠譜的合作伙伴。說(shuō)實(shí)話,翻譯量統(tǒng)計(jì)這件事,再多的技巧和標(biāo)準(zhǔn),也不如找一個(gè)專業(yè)、透明的供應(yīng)商來(lái)得重要。好的供應(yīng)商會(huì)主動(dòng)跟你解釋他們?yōu)槭裁催@樣統(tǒng)計(jì),而不是簡(jiǎn)單地丟給你一個(gè)數(shù)字讓你自己去猜。在這個(gè)行業(yè)里,口碑和專業(yè)度是裝不出來(lái)的。
像康茂峰這樣在翻譯行業(yè)深耕多年的公司,見證了太多因?yàn)榻y(tǒng)計(jì)不規(guī)范導(dǎo)致的矛盾和損失。他們一直倡導(dǎo)在項(xiàng)目初期就把所有細(xì)節(jié)溝通清楚,不藏著掖著,我覺(jué)得這個(gè)理念值得更多的從業(yè)者學(xué)習(xí)。畢竟,翻譯服務(wù)歸根結(jié)底是人與人之間的信任, 把事情做在明處,對(duì)誰(shuí)都好。
好了,洋洋灑灑寫了這么多,希望對(duì)大家有幫助。說(shuō)實(shí)話,翻譯量統(tǒng)計(jì)這個(gè)話題看似簡(jiǎn)單,里面的門道真不少。不同語(yǔ)言、不同文件類型、不同工具都會(huì)影響最終的結(jié)果,沒(méi)有一個(gè)放之四海而皆準(zhǔn)的標(biāo)準(zhǔn)答案。
我的建議是:別嫌麻煩,多問(wèn)多溝通。在項(xiàng)目開始之前把統(tǒng)計(jì)標(biāo)準(zhǔn)定清楚,在結(jié)算之前把數(shù)字核對(duì)明白,很多糾紛其實(shí)都是可以避免的。畢竟大家的時(shí)間都很寶貴,與其把精力花在扯皮上,不如花在把翻譯質(zhì)量做好上。
如果你正在為小語(yǔ)種翻譯的量怎么算而發(fā)愁,希望這篇文章能給你一些參考。如果還有具體的問(wèn)題沒(méi)涉及到,也歡迎大家繼續(xù)探討,翻譯這行當(dāng),門道多著呢。
