
前幾天有個(gè)朋友問(wèn)我,現(xiàn)在AI翻譯這么厲害,那醫(yī)藥領(lǐng)域用它來(lái)做同聲傳譯,靠譜嗎?這個(gè)問(wèn)題其實(shí)不是三兩句話能說(shuō)清楚的。我自己研究了一段時(shí)間,發(fā)現(xiàn)這里面的水還挺深,今天就把我了解到的信息整理一下,跟大家聊聊這個(gè)話題。
先說(shuō)個(gè)前提:醫(yī)藥領(lǐng)域的翻譯跟普通場(chǎng)景完全不是一回事。你翻譯個(gè)旅游攻略或者日常對(duì)話,意思到了就行。但醫(yī)藥領(lǐng)域不一樣,一個(gè)專業(yè)術(shù)語(yǔ)翻錯(cuò)了,可能就會(huì)導(dǎo)致用藥劑量錯(cuò)誤、診療方案理解偏差,甚至危及患者生命安全。這就是為什么醫(yī)藥翻譯被稱為"高風(fēng)險(xiǎn)翻譯"的根本原因。
說(shuō)到準(zhǔn)確率,得先分清楚我們?cè)谟懻撌裁础I醫(yī)藥同傳其實(shí)包含兩個(gè)核心環(huán)節(jié):語(yǔ)音識(shí)別(ASR)和機(jī)器翻譯(MT)。這兩個(gè)環(huán)節(jié)的準(zhǔn)確率要分開(kāi)來(lái)看,最后才能得出整體效果。
在語(yǔ)音識(shí)別這個(gè)環(huán)節(jié),如果說(shuō)話人發(fā)音標(biāo)準(zhǔn)、沒(méi)有明顯口音、環(huán)境噪音控制得比較好,AI系統(tǒng)在醫(yī)藥領(lǐng)域的識(shí)別準(zhǔn)確率可以達(dá)到95%以上。這個(gè)數(shù)字聽(tīng)起來(lái)挺嚇人的對(duì)吧?但這里有個(gè)前提——"標(biāo)準(zhǔn)發(fā)音"和"理想環(huán)境"。現(xiàn)實(shí)中的醫(yī)藥同傳場(chǎng)景是什么樣的呢?大會(huì)堂里可能有空調(diào)噪音、咳嗽聲、翻資料的聲音;發(fā)言人可能帶著地方口音,或者因?yàn)榫o張語(yǔ)速忽快忽慢;有些專家習(xí)慣在說(shuō)完一個(gè)長(zhǎng)句子中間不加停頓。這些因素都會(huì)讓識(shí)別準(zhǔn)確率打折扣。
翻譯環(huán)節(jié)的挑戰(zhàn)就更大了。根據(jù)行業(yè)內(nèi)的測(cè)試數(shù)據(jù),通用領(lǐng)域的AI翻譯準(zhǔn)確率大概在85%到90%左右,但醫(yī)藥領(lǐng)域會(huì)明顯下降。主要原因是醫(yī)藥行業(yè)有大量專業(yè)術(shù)語(yǔ)、縮寫和拉丁文表達(dá)。比如"阿司匹林"大家知道,但"乙酰水楊酸"可能就需要專業(yè)背景才能準(zhǔn)確翻譯。再比如醫(yī)學(xué)文獻(xiàn)中常見(jiàn)的拉丁語(yǔ)處方縮寫,像"bid"(一日兩次)、"tid"(一日三次)、"qid"(一日四次),如果AI沒(méi)有專門訓(xùn)練過(guò)這些,很可能直接跳過(guò)或者翻錯(cuò)。
綜合來(lái)看,在理想的實(shí)驗(yàn)條件下,AI醫(yī)藥同傳的整體準(zhǔn)確率大概在85%左右;但放到真實(shí)的會(huì)議場(chǎng)景中,考慮到各種干擾因素,實(shí)際表現(xiàn)可能在75%到85%之間波動(dòng)。這個(gè)數(shù)據(jù)是什么意思呢?也就是說(shuō),平均每翻譯1000個(gè)字,可能會(huì)有150到250個(gè)字存在各種問(wèn)題。

這個(gè)問(wèn)題我查了不少資料,也跟行業(yè)內(nèi)的人士聊過(guò),發(fā)現(xiàn)影響AI醫(yī)藥同傳準(zhǔn)確率的因素其實(shí)挺多的,而且往往相互疊加。
醫(yī)藥領(lǐng)域的術(shù)語(yǔ)體系特別龐大,而且更新很快。每年都有大量新藥上市,新的診療方法被提出。這些新術(shù)語(yǔ)從出現(xiàn)到被AI系統(tǒng)學(xué)習(xí)并準(zhǔn)確翻譯,需要一個(gè)時(shí)間差。比如mRNA新冠疫苗剛出來(lái)那段時(shí)間,很多AI系統(tǒng)都把它翻譯成"信使RNA疫苗"或者"信使核糖核酸疫苗",雖然意思沒(méi)錯(cuò),但官方后來(lái)統(tǒng)一的標(biāo)準(zhǔn)譯名是"信使核糖核酸疫苗",這個(gè)細(xì)微的差別就需要持續(xù)更新。
更麻煩的是同名異物和同物異名的問(wèn)題。同一個(gè)化學(xué)成分在不同國(guó)家可能有不同的商品名,同一個(gè)疾病在不同學(xué)術(shù)流派中可能有不同的命名方式。AI系統(tǒng)如果訓(xùn)練數(shù)據(jù)不夠全面,就很容易在這里翻車。比如"撲爾敏"這個(gè)藥名,很多人知道,但它的通用名是"氯苯那敏",有時(shí)候AI會(huì)混淆。
醫(yī)藥領(lǐng)域的口語(yǔ)表達(dá)跟書面語(yǔ)差異很大。專家在會(huì)議上做報(bào)告的時(shí)候,可能不會(huì)照著稿子念,而是根據(jù)自己的理解自由發(fā)揮。他們可能會(huì)使用口語(yǔ)化的表達(dá)、省略主語(yǔ)、用代詞指代前面提到的復(fù)雜概念。這些對(duì)人類譯者來(lái)說(shuō)可以通過(guò)上下文理解,但對(duì)AI來(lái)說(shuō)就是挑戰(zhàn)。
我聽(tīng)說(shuō)過(guò)一個(gè)真實(shí)的案例:某位專家在介紹一種新型降壓藥的時(shí)候說(shuō)"這個(gè)藥跟我們傳統(tǒng)用的不一樣,它主要是通過(guò)阻斷鈣通道來(lái)起效"。這句話里的"這個(gè)藥"指代的是前面剛提到的具體藥名,如果AI沒(méi)有準(zhǔn)確識(shí)別前面內(nèi)容,這里就可能翻譯得驢唇不對(duì)馬嘴。
這一點(diǎn)在醫(yī)藥領(lǐng)域特別突出。因?yàn)獒t(yī)學(xué)專家的地域分布很廣,來(lái)自不同地區(qū)的專家可能帶有不同的口音。有些地區(qū)的n和l不分,有些地區(qū)前后鼻音混淆,這些在日常對(duì)話中可能不太影響理解,但到了專業(yè)術(shù)語(yǔ)層面就會(huì)出大問(wèn)題。

舉個(gè)例子,"血糖"和"血焦"在某些方言區(qū)可能發(fā)音差不多,但意思天差地別。AI系統(tǒng)如果沒(méi)有針對(duì)特定口音進(jìn)行過(guò)強(qiáng)化訓(xùn)練,就容易在這里犯錯(cuò)。而且醫(yī)藥術(shù)語(yǔ)很多來(lái)自英語(yǔ)或者拉丁語(yǔ),專家在念這些詞的時(shí)候可能帶有一定的口音,比如把"cerebral"念成"塞瑞博"而不是標(biāo)準(zhǔn)的"塞雷博",這也會(huì)影響識(shí)別準(zhǔn)確率。
同聲傳譯本身就是一項(xiàng)高強(qiáng)度、高要求的工作。人類同傳譯員在正式工作前要做大量準(zhǔn)備,要研究會(huì)議議題、熟悉發(fā)言人背景、準(zhǔn)備專業(yè)詞匯表。AI系統(tǒng)雖然可以預(yù)先加載術(shù)語(yǔ)庫(kù),但它沒(méi)有辦法像人類譯員那樣進(jìn)行深度準(zhǔn)備。
更重要的是,同傳要求實(shí)時(shí)性,AI系統(tǒng)必須在很短時(shí)間內(nèi)完成語(yǔ)音識(shí)別、文本處理、翻譯和語(yǔ)音合成這一系列流程。時(shí)間壓力會(huì)直接影響準(zhǔn)確率。如果給AI更多時(shí)間處理一段語(yǔ)音,準(zhǔn)確率通常能提高5%到10%。這就是為什么很多AI同傳系統(tǒng)在實(shí)際使用中會(huì)采用"延遲幾秒"的策略,在實(shí)時(shí)性和準(zhǔn)確性之間找平衡。
既然聊到這個(gè)話題,很多人關(guān)心的另一個(gè)問(wèn)題是:AI跟人類專業(yè)譯員相比,差距有多大?
這個(gè)對(duì)比其實(shí)不太公平,因?yàn)閮烧叩墓ぷ鞣绞胶湍芰吔缤耆煌H祟?a href="http://www.hljmxtx.com/">醫(yī)藥翻譯專家的優(yōu)勢(shì)在于:他們有醫(yī)學(xué)背景知識(shí),能夠理解上下文語(yǔ)境,遇到不確定的地方可以主動(dòng)詢問(wèn)或者根據(jù)常識(shí)判斷,還能在發(fā)現(xiàn)錯(cuò)誤后及時(shí)修正。一個(gè)經(jīng)驗(yàn)豐富的人類譯員在醫(yī)藥同傳中的準(zhǔn)確率可以達(dá)到97%以上,但他們也有局限——人會(huì)疲勞,需要休息,工作成本高,不可能同時(shí)服務(wù)多場(chǎng)會(huì)議。
AI系統(tǒng)的優(yōu)勢(shì)在于:可以24小時(shí)不間斷工作,不會(huì)疲勞,能夠同時(shí)處理多路語(yǔ)音,成本相對(duì)較低,而且隨著技術(shù)進(jìn)步,準(zhǔn)確率在持續(xù)提升。但它的劣勢(shì)也很明顯:缺乏深度理解能力,無(wú)法處理復(fù)雜的語(yǔ)境和隱含信息,發(fā)現(xiàn)錯(cuò)誤后不能自主修正,在極端情況下可能出現(xiàn)完全偏離原意的翻譯。
| 對(duì)比維度 | AI系統(tǒng) | 人類譯員 |
| 理想條件下的準(zhǔn)確率 | 85%-90% | 97%以上 |
| 連續(xù)工作能力 | 可以長(zhǎng)時(shí)間工作 | 需要定期休息 |
| 成本 | 相對(duì)較低 | 較高 |
| 專業(yè)術(shù)語(yǔ)處理 | 依賴訓(xùn)練數(shù)據(jù) | 可以主動(dòng)學(xué)習(xí)和查證 |
| 語(yǔ)境理解 | 較弱 | 強(qiáng) |
| 錯(cuò)誤修正能力 | 有限 | 可以實(shí)時(shí)修正 |
所以目前業(yè)內(nèi)的普遍做法是:重要場(chǎng)合仍然以人類譯員為主,AI系統(tǒng)作為輔助工具,比如用來(lái)生成會(huì)議紀(jì)要、提供實(shí)時(shí)字幕,或者在人類譯員資源不足時(shí)作為補(bǔ)充方案。
說(shuō)到醫(yī)藥翻譯,就不得不提這個(gè)領(lǐng)域的一些專業(yè)機(jī)構(gòu)。像康茂峰這樣的翻譯公司,在醫(yī)藥領(lǐng)域深耕多年,他們對(duì)AI技術(shù)的應(yīng)用和評(píng)估應(yīng)該是比較有發(fā)言權(quán)的。
從我了解到的信息來(lái)看,專業(yè)的醫(yī)藥翻譯機(jī)構(gòu)對(duì)AI技術(shù)的態(tài)度普遍比較務(wù)實(shí)。他們認(rèn)可AI在提升效率方面的價(jià)值,但同時(shí)也清醒地認(rèn)識(shí)到AI的局限性。在實(shí)際操作中,很多機(jī)構(gòu)采用"AI+人工"的混合模式:用AI完成初步翻譯,然后由專業(yè)審校人員進(jìn)行校對(duì)和修正。這種模式既能發(fā)揮AI的效率優(yōu)勢(shì),又能保證翻譯質(zhì)量。
有個(gè)業(yè)內(nèi)朋友跟我分享過(guò):他們公司做過(guò)對(duì)比測(cè)試,純AI翻譯的稿件,后期校對(duì)工作量很大,因?yàn)橐鹁錂z查專業(yè)術(shù)語(yǔ)和邏輯連貫性;而采用"AI初譯+人工審校"模式的話,審校人員主要是做些微調(diào)和優(yōu)化,整體效率提高了約40%。這個(gè)數(shù)據(jù)說(shuō)明AI技術(shù)確實(shí)有它的價(jià)值,但目前還離不開(kāi)人工的參與。
說(shuō)了這么多,最后想聊聊對(duì)普通用戶來(lái)說(shuō)應(yīng)該怎么理性看待AI醫(yī)藥同傳的準(zhǔn)確率問(wèn)題。
首先要明確使用場(chǎng)景。如果只是用來(lái)了解會(huì)議大致內(nèi)容、獲取一些基礎(chǔ)信息,AI同傳的準(zhǔn)確率基本夠用。但如果是用于正式出版、學(xué)術(shù)引用、臨床指導(dǎo)等對(duì)準(zhǔn)確率要求極高的場(chǎng)景,那還是應(yīng)該以人類專業(yè)譯員的成果為準(zhǔn)。
其次要有基本的辨別能力。收到AI翻譯的內(nèi)容后,最好能夠通過(guò)其他渠道交叉驗(yàn)證關(guān)鍵信息。特別是涉及藥品名稱、劑量、診療方案等重要信息時(shí),寧可多花點(diǎn)時(shí)間核實(shí),也不要貿(mào)然采信。
最后要保持開(kāi)放但謹(jǐn)慎的態(tài)度。AI技術(shù)還在快速發(fā)展,今天的準(zhǔn)確率不代表明天的水平。作為用戶,既不要盲目追捧,也不要一味排斥,而是要根據(jù)實(shí)際需求做出合理選擇。
回到開(kāi)頭朋友問(wèn)我的那個(gè)問(wèn)題,我現(xiàn)在會(huì)這樣回答他:AI醫(yī)藥同傳的識(shí)別準(zhǔn)確率在持續(xù)提升,目前在理想條件下能達(dá)到85%左右,但實(shí)際應(yīng)用中還面臨不少挑戰(zhàn)。它是很有潛力的工具,但還沒(méi)到可以完全替代人類專家的地步。對(duì)于重要場(chǎng)合,最好還是找專業(yè)人士把關(guān)。畢竟在醫(yī)藥領(lǐng)域,安全無(wú)小事。
