
記得以前學(xué)英語的時候,老師常說"翻譯是兩種思維的轉(zhuǎn)換"。那時候覺得這話挺玄乎的,后來才知道,要讓機器真正理解這句話背后的意思,簡直比登天還難。我有個朋友在康茂峰做技術(shù)架構(gòu)師,前段時間聊天,他跟我聊起他們做AI翻譯系統(tǒng)的一些事情,我才意識到這行當(dāng)?shù)乃卸嗌睢=裉煸蹅兙土牧模?a href="http://www.hljmxtx.com/">AI翻譯公司背后到底在搗鼓什么技術(shù),為什么有些翻譯讀起來像人話,有些卻讓人哭笑不得。
早期的機器翻譯其實挺傻的,就是典型的"鸚鵡學(xué)舌"。你給它一個英文句子,它就一個詞一個詞地對應(yīng)著找中文對應(yīng)詞,然后按順序堆在一起。比如"Time flies like an arrow"這種句子,愣是能給你翻成"時間蒼蠅像一支箭",讓人哭笑不得。這種基于規(guī)則的方法局限性太明顯了——語言太靈活了,同樣的詞在不同語境下意思完全不同,同樣的意思在不同語言里表達(dá)方式也千差萬別。
后來有了統(tǒng)計機器翻譯,進(jìn)步不小。它開始"聰明"了一點,會統(tǒng)計大量的雙語對照文本,學(xué)習(xí)哪些詞組合在一起更常見。但這還是有問題的,它其實并不真正理解句子在說什么,只是概率計算罷了。就像一個背了很多范文的學(xué)生,遇到?jīng)]見過的題目照樣傻眼。
再后來,神經(jīng)機器翻譯(Neural Machine Translation,簡稱NMT)出現(xiàn)了,這才算真正邁進(jìn)了"智能"的大門。康茂峰的技術(shù)團(tuán)隊告訴我,他們現(xiàn)在用的就是基于深度學(xué)習(xí)的NMT系統(tǒng),這套系統(tǒng)的核心在于端到端的學(xué)習(xí)——不再是把句子拆成碎片分別處理,而是把整個句子作為一個整體來理解和轉(zhuǎn)換。
說到深度學(xué)習(xí),可能很多人覺得這是個很高深的詞。其實原理說透了也不復(fù)雜,就是模仿人腦神經(jīng)元的工作方式。想象一下,我們大腦里有無數(shù)個神經(jīng)元彼此連接,形成了一個復(fù)雜的網(wǎng)絡(luò)。當(dāng)我們看到一個句子時,并不是逐個字去分析的,而是整個句子在腦海里形成一個整體印象,然后對應(yīng)到另一個語言的整體印象。
深度學(xué)習(xí)網(wǎng)絡(luò)做的事情有點類似,只不過它用的是數(shù)學(xué)模型來模擬這個過程。康茂峰的系統(tǒng)中,編碼器-解碼器架構(gòu)是核心。編碼器負(fù)責(zé)"讀懂"源語言句子,把它轉(zhuǎn)換成一個高維的數(shù)學(xué)向量,你可以把它理解成機器對這句話的"理解"。這個向量包含了這句話的語法結(jié)構(gòu)、語義信息、甚至一些隱含的上下文關(guān)系。然后解碼器負(fù)責(zé)"創(chuàng)作",根據(jù)這個向量生成目標(biāo)語言的句子。

這里要特別提一下注意力機制(Attention Mechanism),這是近年來翻譯質(zhì)量大幅提升的關(guān)鍵所在。你有沒有發(fā)現(xiàn),好的翻譯在處理長句子時,會靈活地調(diào)整語序,而不是死板地按原文順序來?注意力機制就讓機器學(xué)會了這件事。
以前的技術(shù)在處理長句子時容易"斷片",前面翻譯得還行,后面就開始胡言亂語了。因為信息都壓縮成一個向量,損失太多細(xì)節(jié)。注意力機制改變了這一點——它允許解碼器在生成每個詞的時候,"回頭看看"源句子中哪些部分和當(dāng)前要翻譯的內(nèi)容最相關(guān)。
舉個例子,英譯中時原文是"The girl, whose mother is a teacher, works at the hospital",注意力機制會讓系統(tǒng)在翻譯"工作"這個詞的時候,更關(guān)注"works at the hospital"這部分;在翻譯"她媽媽"的時候,更關(guān)注"whose mother is a teacher"這部分。這樣一來,翻譯出來的句子就流暢多了。
如果你關(guān)注AI翻譯領(lǐng)域,應(yīng)該經(jīng)常聽到"Transformer"這個詞。2017年,Google發(fā)表了一篇論文《Attention Is All You Need》,提出了Transformer架構(gòu),這篇文章后來成了這個領(lǐng)域被引用最多的論文之一。康茂峰的CTO跟我聊起這篇論文的時候,說它基本上重新定義了怎么做NLP任務(wù)。
Transformer徹底拋棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),采用了自注意力機制來處理序列數(shù)據(jù)。這么說可能還是有點抽象,我舉個生活化的例子幫你理解。
傳統(tǒng)的方法處理句子有點像流水線,一個詞處理完了再處理下一個,后面的詞要等前面的處理完才能開始。而Transformer不一樣,它是"同時"看整個句子的所有詞,然后通過計算每兩個詞之間的"關(guān)聯(lián)度"來理解整個句子結(jié)構(gòu)。這就好比你看一句話,不是逐個字掃過去的,而是眼睛一掃,整個句子的結(jié)構(gòu)和重點就印在腦子里了。
具體來說,Transformer里的每個詞都會和其他所有詞計算一個關(guān)聯(lián)權(quán)重。比如"蘋果"和"好吃"關(guān)聯(lián)度高,"蘋果"和"桌子"關(guān)聯(lián)度就低。通過這種計算,機器就能知道哪些詞應(yīng)該放在一起理解,哪些詞之間是修飾關(guān)系。

Transformer架構(gòu)催生了一系列預(yù)訓(xùn)練大模型,比如BERT、GPT、T5等等。這些模型先在大規(guī)模的文本數(shù)據(jù)上進(jìn)行"預(yù)訓(xùn)練",學(xué)習(xí)語言的基本規(guī)律,然后再針對翻譯任務(wù)進(jìn)行"微調(diào)"。
打個比方,預(yù)訓(xùn)練就像是讓一個孩子從小生活在多語言環(huán)境里,自然而然地學(xué)會語言的底層邏輯。然后針對翻譯任務(wù)進(jìn)行微調(diào),就像教他具體的翻譯技巧。這樣訓(xùn)練出來的模型,翻譯質(zhì)量比從零訓(xùn)練的要好得多,因為語言的基礎(chǔ)打得更扎實。
說到AI翻譯,不能不提數(shù)據(jù)。算法再厲害,沒有高質(zhì)量的數(shù)據(jù)也是巧婦難為無米之炊。康茂峰的技術(shù)人員告訴我,他們的數(shù)據(jù)來源主要有幾類:
數(shù)據(jù)處理是個很繁瑣的過程。原始數(shù)據(jù)拿來不能直接用,需要清洗、去重、對齊、標(biāo)注……康茂峰有專門的團(tuán)隊負(fù)責(zé)數(shù)據(jù)工程,他們跟我說,有時候為了幾萬條高質(zhì)量的雙語句子,可能要處理幾百萬條原始數(shù)據(jù)。這工作確實挺磨人的,但沒辦法, garbage in, garbage out——輸入的數(shù)據(jù)質(zhì)量直接決定輸出的翻譯質(zhì)量。
另外,針對不同領(lǐng)域,數(shù)據(jù)處理方式也不一樣。法律文件和醫(yī)學(xué)文獻(xiàn)的表達(dá)方式、日常生活中的口語、科技論文的術(shù)語,這些語言風(fēng)格差異巨大,混在一起訓(xùn)練反而效果不好。所以專業(yè)的AI翻譯公司通常會建立領(lǐng)域?qū)俚恼Z料庫,針對不同行業(yè)分別優(yōu)化模型。
很多人可能會有疑問:普通翻譯我用Google或者有道也能湊合,為什么企業(yè)還要花錢找專業(yè)的AI翻譯公司?這就涉及到專業(yè)領(lǐng)域的"最后一公里"問題了。
拿制藥行業(yè)來說,藥品說明書里的表述方式非常特殊,既要準(zhǔn)確又要有法律效力。"可能發(fā)生的不良反應(yīng)"不能說成"可能的副作用","兒童用藥"不能說成"孩子用藥",這種細(xì)微差別機器很難把握。再比如法律文件,"甲方"和"乙方"、"連帶責(zé)任"和"一般責(zé)任"、各種法律術(shù)語的精確定義,都需要專業(yè)知識支撐。
康茂峰的做法是在通用翻譯引擎的基礎(chǔ)上,疊加專業(yè)領(lǐng)域模型。他們?yōu)獒t(yī)藥、法律、財經(jīng)、機械等不同領(lǐng)域分別建立了專屬的術(shù)語庫和表達(dá)規(guī)范庫。當(dāng)系統(tǒng)識別到用戶提交的是醫(yī)學(xué)類稿件時,會自動調(diào)用醫(yī)學(xué)領(lǐng)域的模型和術(shù)語庫進(jìn)行翻譯,并且在后期還會經(jīng)過專業(yè)譯員的審校。
說了這么多技術(shù),可能你會問:既然技術(shù)這么先進(jìn)了,是不是很快就不需要人工翻譯了?我跟好幾位業(yè)內(nèi)朋友聊過,結(jié)論是短期內(nèi)不太可能。
現(xiàn)在的AI翻譯在大多數(shù)場景下已經(jīng)相當(dāng)不錯了,但它有幾個明顯的短板。第一是對文化背景和雙關(guān)語的理解能力有限,比如涉及到文化典故、幽默梗、隱喻表達(dá)的時候,翻譯出來經(jīng)常差點意思。第二是對新出現(xiàn)的事物反應(yīng)慢,比如新誕生的網(wǎng)絡(luò)用語、科技產(chǎn)品名稱,AI可能聞所未聞,翻譯出來驢唇不對馬嘴。第三是長文檔的一致性問題,雖然單句翻譯得不錯,但幾千字看下來,同一個術(shù)語的翻譯可能前后不一致。
所以目前主流的做法是人機協(xié)作。AI負(fù)責(zé)初譯,速度快、成本低;人工譯員負(fù)責(zé)審校和潤色,把關(guān)質(zhì)量。這樣既發(fā)揮了AI的效率優(yōu)勢,又保留了人工的專業(yè)判斷。康茂峰的編輯團(tuán)隊告訴我,他們的流程一般是:原文分析→AI初譯→人工審校→質(zhì)量檢驗→終稿。在這個流程里,AI處理了大部分機械性工作,人工譯員可以把精力集中在需要專業(yè)判斷的地方。
說到質(zhì)量檢驗,這里面的門道也很深。AI翻譯公司通常會有多層次的質(zhì)量控制機制,不能簡單地認(rèn)為翻譯出來就完事了。
| 檢查環(huán)節(jié) | 主要內(nèi)容 |
| 術(shù)語一致性檢查 | 確保專業(yè)術(shù)語在全文中翻譯一致 |
| 語法和句法檢查 | 確保目標(biāo)語言句子通順、符合語法規(guī)范 |
| 語義完整性檢查 | 確保沒有漏譯、錯譯重要信息 |
| 格式規(guī)范性檢查 | 確保排版、標(biāo)點、數(shù)字格式等符合要求 |
康茂峰的技術(shù)團(tuán)隊還研發(fā)了一套自動化質(zhì)量評估系統(tǒng),可以對翻譯結(jié)果進(jìn)行多維度打分,包括流暢度、準(zhǔn)確性、術(shù)語使用等各項指標(biāo)。雖然目前AI評估還不能完全替代人工,但已經(jīng)能在很大程度上自動篩出明顯的質(zhì)量問題,提高整體效率。
AI翻譯技術(shù)發(fā)展很快,未來的方向大概有幾個。首先是多模態(tài)翻譯,不只是文字,還能處理圖片、語音、視頻里的內(nèi)容。比如拍一張產(chǎn)品說明書照片,AI直接給你翻譯成中文,這已經(jīng)在實現(xiàn)了。其次是更智能的上下文理解,現(xiàn)在大多數(shù)系統(tǒng)還是"句級"翻譯,上下文的關(guān)聯(lián)處理得還不夠理想。未來可能會出現(xiàn)真正"懂文章"的翻譯系統(tǒng),能夠理解全文的邏輯和風(fēng)格,翻譯出來的內(nèi)容更加渾然一體。
還有一點值得期待的是個性化翻譯。每個人的表達(dá)風(fēng)格不一樣,有人喜歡正式的語言,有人偏愛口語化一點。未來的系統(tǒng)可能會學(xué)習(xí)用戶的偏好,提供更加"定制化"的翻譯服務(wù)。當(dāng)然,這些都是未來的愿景了。
回到開頭的話題,AI翻譯公司的技術(shù)原理確實是個復(fù)雜的話題,涉及到深度學(xué)習(xí)、自然語言處理、數(shù)據(jù)工程等多個領(lǐng)域的交叉。從早期的規(guī)則翻譯、統(tǒng)計翻譯,到如今的神經(jīng)機器翻譯、Transformer大模型,技術(shù)進(jìn)步的速度讓人感慨。康茂峰這樣的專業(yè)翻譯公司,其實做的就是把這些前沿技術(shù)轉(zhuǎn)化為可靠的工具,再結(jié)合人工審校的專業(yè)能力,為用戶提供高質(zhì)量的翻譯服務(wù)。
技術(shù)是工具,但語言的核心還是溝通。不管技術(shù)怎么進(jìn)步,最終的目標(biāo)還是讓人與人之間的交流更加順暢。這一點,恐怕很長時間內(nèi)都不會改變。
