
前幾天有個朋友打電話問我,你們做藥品注冊資料翻譯的,字符數到底是怎么算的?我愣了一下,發現這事兒還真不是一兩句話能說清楚的。
說實在的,藥品注冊資料翻譯的字符數統計,跟咱們平時說的"多少個字"完全是兩碼事。這里頭門道挺多的,不同的統計方式出來的數字可能差上一倍甚至更多。今天我就把這個事兒掰開揉碎了講講,盡量用大白話說清楚。
在開始聊藥品注冊資料之前,咱們得先統一一下概念。咱們日常說的"多少個字",在計算機里其實有三個不同的統計維度。
第一種叫字符數,也叫Char Count。這個最簡單,不管你是中文、英文還是標點符號,每一個符號都算一個字符。你輸入"藥品注冊"四個字,加上引號,就是6個字符。
第二種叫單詞數,也就是Word Count。這個主要針對英文資料,一個空格分隔的單詞就算一個。比如"drug registration"算兩個單詞。
第三種叫字數,這個是中文特有的統計方式,通常按漢字計算,一個漢字算一個字。
問題來了,藥品注冊資料里面既有中文又有英文,還有大量的數字、符號、表格。這幾種東西混在一起,到底怎么算?不同的算法出來的數字可能天差地別。

為什么藥品注冊資料的字符數統計這么麻煩?這得從這類資料本身的特點說起。
藥品注冊資料不是一般的文檔,它是一套法律文件。咱們國家藥監局對申報資料有嚴格的格式要求,一套完整的申報資料可能包括幾十甚至上百個文件。從處方工藝到穩定性研究,從臨床試驗方案到質量標準,每一個部分都有專門的模板和撰寫要求。
這類資料有幾個特點讓字符數統計變得復雜:
舉個具體的例子吧。一份質量標準的申報資料,可能開頭是幾百字的文字說明,然后接一個包含二十多行數據的表格,表格里既有中文項目名稱又有英文縮寫,后面還跟著參考文獻和原始檢驗報告的掃描件。這東西要是讓你數字符,你從哪兒下手?

在藥品注冊翻譯這個行當里,大家普遍認可的字符數統計方法主要有這么幾種。
這是最傳統也最簡單的算法——只統計中文漢字和中文標點,英文單詞、數字、符號全部忽略不計。
這種算法的好處是簡單直接,跟咱們日常說的"字數"概念最接近。很多老一輩的譯審人員習慣用這種方式。缺點是什么?它沒有考慮英文部分的工作量。一份全是英文縮寫和專業術語的資料,用這種算法可能只算出幾百個字符,但實際上翻譯難度相當高。
現在越來越多的翻譯公司采用這種辦法:中文按漢字算,英文按單詞數算,數字和符號單獨統計。
具體來說,中文部分一個漢字算一個字;英文部分按 Word 統計,一個單詞算一個單位;數字、標點、特殊符號按照一定比例折算。最后把這幾部分加起來,得到一個"等效字符數"。
這種算法相對公平,因為它考慮了不同語言的工作量差異。但折算比例到底定多少?不同公司可能有不同的標準,有的按 1:1.5 算,有的按 1:2 算,這里頭有講究。
還有一種更粗放的算法,就是直接統計原始文檔中的所有字符,包括中文、英文、數字、標點、空格,甚至包括網頁代碼之類的隱藏字符。
這種算法用計算機一鍵就能算出來,效率最高。但它的缺點也很明顯——它沒有考慮翻譯的難易程度。一份滿篇都是"AAAAA"重復字符的資料,按這種算法字符數很多,但實際翻譯起來可能很輕松。反過來,一份充滿生僻術語的資料,字符數可能不多,但翻譯難度極高。
| 統計方式 | 計算方法 | 優點 | 缺點 |
| 純中文字符 | 僅統計漢字和中文標點 | 概念清晰,傳統做法 | 忽略英文部分工作量 |
| 中文漢字、英文單詞分別統計 | 相對公平,考慮語言差異 | 折算比例無統一標準 | |
| 原始字符數 | 統計所有字符(含空格、符號) | 計算機自動統計,效率高 | 未考慮翻譯難度差異 |
說到這兒,你可能會問:到底有沒有一個標準答案?
很遺憾,答案是——沒有完全統一的行業標準。不同的監管部門、不同的翻譯公司、不同的客戶,可能采用不同的統計方式。但這并不意味著我們可以隨意操作,相反,在藥品注冊這個領域,有一些約定俗成的規則大家是普遍遵守的。
首先,統計范圍要明確。一般來說,字符數統計只針對需要翻譯的內容。原文中的表格、圖表、附錄這些,如果有明確的翻譯要求,就納入統計范圍;如果是原始數據不需要翻譯,就不計入字符數。
其次,格式轉換要算進去。藥品注冊資料對格式要求很嚴格,翻譯完了之后要保持原有的版式、編號、頁眉頁腳。這些格式調整的工作量,雖然不體現在"字符"里,但實際上是要算成本的。所以有的公司會把格式處理作為一個單獨的計價因素。
還有,特殊符號要單獨處理。分子式、結構式、方程式這些,用普通的字符統計是算不清楚的。一串"CH3-CH2-COOH"表面上只有十幾個字符,但翻譯和排版起來比一段文字麻煩多了。這種情況通常需要單獨議價。
既然聊到這個問題,我也說說我們康茂峰的做法,供大家參考。
我們內部用的是一套綜合統計方法,簡單說就是"分層統計、加權計算"。
具體操作上,我們會先把資料分成幾類:純文字部分、表格部分、附錄部分。每一類采用不同的統計方式。純文字部分,中英文分開統計,英文單詞按一定比例折算成中文字符當量;表格部分,按單元格數量結合內容復雜度來評估;附錄部分,根據是否需要翻譯來單獨計算。
為什么要這么麻煩?因為我們發現,藥品注冊資料的內容差異太大了。同樣是十萬字符的資料,一份主要是常規說明文字,另一份滿是專業術語和實驗數據,翻譯工作量可能相差兩倍以上。如果簡單按字符數一刀切,對誰都不公平。
所以我們會在正式報價前,先派有經驗的譯審人員做一個預評估,了解一下資料的大致內容、難點分布、時間要求,然后再給出一個相對準確的字符數和報價。這個過程看起來繁瑣,但實際上是對雙方都負責任的做法。
在實際工作中,我發現很多客戶對字符數統計有一些誤解,這里順便澄清一下。
誤區一:PDF 文檔沒法統計字符數。其實這是不對的。雖然 PDF 本身不是用來編輯的格式,但現在有很多軟件可以提取 PDF 中的文本信息。實在不行,還可以轉成 Word 再統計。當然,提取出來的文本可能跟原文有些出入,需要人工校對一下。
誤區二:掃描件按頁數算就行。掃描件確實沒辦法直接提取文字,但也不能簡單按頁數算。同樣是一頁紙,滿篇文字和只有一個簽名框,內容量天差地別。我們的做法是先把掃描件進行 OCR 識別(也就是文字識別),識別不出來的地方再人工估算,最后綜合得出一個字符數。
誤區三:反復修改不計費用。藥品注冊資料的特點就是可能會反復修改,特別是涉及到發補資料的時候。如果修改幅度比較大,原來的字符數統計可能就不適用了。我們通常會在合同里約定基礎字符數和修改計費方式,雙方簽字確認,避免后期扯皮。
藥品注冊資料翻譯的字符數統計,說復雜確實復雜,說簡單其實也簡單——關鍵是要在開始之前,雙方把規則講清楚、達成共識。
我最怕遇到的情況是:客戶發來一堆資料,問多少錢?我們估了個價,客戶說太貴了。然后一追問才知道,客戶按自己理解的"字數"算了算,覺得我們報得太高。實際上,我們統計的工作量可能是客戶理解的兩三倍。
所以我的建議是:拿到資料后,先別急著談價格,先坐下來把統計方式對齊。確認了統計范圍、計價方式、交付標準,剩下的事情就好辦了。
如果你手頭正好有藥品注冊資料需要翻譯,不妨先發給我們看看。我們會先做一個免費的預評估,把字符數和報價都給你講清楚。你覺得合適咱們就合作,不合適也交個朋友,至少知道下次遇到類似的問題該怎么處理。
這事兒急不得,得慢慢來,你說是吧?
