
前兩天跟一個(gè)做醫(yī)藥研發(fā)的朋友聊天,他跟我吐槽說(shuō)最近參加一場(chǎng)國(guó)際線上研討會(huì),主辦方用的是某款A(yù)I同傳工具,結(jié)果現(xiàn)場(chǎng)場(chǎng)面一度很尷尬——專業(yè)術(shù)語(yǔ)翻譯得七零八落,有些句子甚至完全偏離了原意。他問(wèn)我,現(xiàn)在AI醫(yī)藥同傳的技術(shù)到底發(fā)展到了什么水平,識(shí)別準(zhǔn)確率有沒(méi)有一個(gè)相對(duì)可靠的數(shù)字。
這個(gè)問(wèn)題其實(shí)不是一兩句話能說(shuō)清楚的。醫(yī)藥領(lǐng)域的同聲傳譯,跟我們平時(shí)用的語(yǔ)音識(shí)別不太一樣,它面臨的技術(shù)挑戰(zhàn)要復(fù)雜得多。今天我就試著把這個(gè)問(wèn)題掰開(kāi)揉碎了講講,盡量用大家都能理解的方式,來(lái)說(shuō)清楚目前AI醫(yī)藥同傳識(shí)別準(zhǔn)確率的真實(shí)狀況。
在說(shuō)準(zhǔn)確率之前,我們得先搞清楚醫(yī)藥同傳為什么難。這事兒得從兩個(gè)層面來(lái)講。
第一個(gè)層面是語(yǔ)言本身的復(fù)雜性。醫(yī)學(xué)領(lǐng)域有大量專業(yè)術(shù)語(yǔ),這些術(shù)語(yǔ)往往由拉丁詞根或希臘詞根構(gòu)成,普通人看了基本等于看天書(shū)。比如"arrhythmia"(心律失常)、"myocardial infarction"(心肌梗死)、"pharmacokinetics"(藥代動(dòng)力學(xué))這些詞,不要說(shuō)普通民眾了,就算不是相關(guān)專業(yè)的醫(yī)生,可能也需要反應(yīng)一下。而AI要準(zhǔn)確識(shí)別這些詞匯,前提是它的訓(xùn)練語(yǔ)料庫(kù)里必須有足夠多的醫(yī)學(xué)文獻(xiàn)和病例記錄作為支撐。
第二個(gè)層面是醫(yī)藥領(lǐng)域的特殊性。醫(yī)藥翻譯跟其他領(lǐng)域有一個(gè)很大的不同——它容錯(cuò)率極低。一個(gè)專業(yè)術(shù)語(yǔ)翻譯錯(cuò)了,可能導(dǎo)致整個(gè)臨床試驗(yàn)方案的理解出現(xiàn)偏差,嚴(yán)重的甚至?xí)绊懟颊哂盟幇踩_@就要求AI不僅要把詞翻對(duì),還要在上下文中準(zhǔn)確把握其含義。舉個(gè)例子,"drug abuse"在日常語(yǔ)境下可能是"濫用藥物"的意思,但在某些特定語(yǔ)境下,它可能指的是"藥物臨床試驗(yàn)中的違規(guī)用藥"。這種細(xì)微的語(yǔ)義差別,對(duì)AI來(lái)說(shuō)是非常大的挑戰(zhàn)。
說(shuō)到大家最關(guān)心的數(shù)字問(wèn)題,我查了一些資料,也跟業(yè)內(nèi)幾家做醫(yī)藥語(yǔ)言服務(wù)的公司交流了一下,大概情況是這樣的。

首先要說(shuō)明一點(diǎn),AI醫(yī)藥同傳的準(zhǔn)確率不能用一個(gè)籠統(tǒng)的數(shù)字來(lái)概括,因?yàn)樗唧w的使用場(chǎng)景、涉及的專業(yè)領(lǐng)域、音頻質(zhì)量、說(shuō)話人的口音等因素都有關(guān)系。所以下面我會(huì)分不同情況來(lái)說(shuō),這樣大家能得到一個(gè)更全面的認(rèn)知。
所謂的通用醫(yī)藥場(chǎng)景,主要指的是日常的學(xué)術(shù)交流、常規(guī)的醫(yī)學(xué)會(huì)議、基礎(chǔ)的醫(yī)療培訓(xùn)等內(nèi)容。這類(lèi)場(chǎng)景的特點(diǎn)是專業(yè)術(shù)語(yǔ)雖然多,但大多屬于常見(jiàn)詞匯,比如高血壓、糖尿病、腫瘤、疫苗這些概念,AI識(shí)別起來(lái)相對(duì)輕松一些。
在這種情況下,主流AI醫(yī)藥同傳系統(tǒng)的詞級(jí)識(shí)別準(zhǔn)確率大約在92%到96%之間。注意,這里說(shuō)的是詞級(jí)準(zhǔn)確率,不是整句準(zhǔn)確率。如果按句子來(lái)算,準(zhǔn)確率會(huì)低一些,大概在85%到92%的水平。這個(gè)數(shù)據(jù)是什么概念呢?基本上,一段10分鐘的醫(yī)藥講座,AI翻譯下來(lái)可能出現(xiàn)幾處小錯(cuò)誤,比如某個(gè)形容詞沒(méi)翻對(duì),或者語(yǔ)序稍微有點(diǎn)別扭,但整體內(nèi)容是可理解的,不影響聽(tīng)眾獲取主要信息。
如果場(chǎng)景變得更加專業(yè),比如FDA或者NMPA的藥物審評(píng)會(huì)議、腫瘤免疫治療的學(xué)術(shù)研討、基因編輯技術(shù)的專題討論,那準(zhǔn)確率就會(huì)明顯下降。
在這些高度專業(yè)化的場(chǎng)景下,AI醫(yī)藥同傳的詞級(jí)識(shí)別準(zhǔn)確率大概在85%到93%之間,句子級(jí)準(zhǔn)確率則可能降到75%到85%。這里下降的主要原因是生僻專業(yè)術(shù)語(yǔ)的增加和復(fù)雜句式的使用。比如在討論某種新型靶向藥物的作用機(jī)制時(shí),可能會(huì)出現(xiàn)一大串復(fù)雜的分子通路名稱,AI如果之前沒(méi)學(xué)過(guò)這些詞,或者訓(xùn)練數(shù)據(jù)里這類(lèi)語(yǔ)料不夠豐富,就容易出現(xiàn)識(shí)別錯(cuò)誤或者漏譯的情況。
我有個(gè)在藥企做注冊(cè)的朋友跟我講過(guò)一個(gè)真實(shí)的例子。他們公司有一次開(kāi)一個(gè)內(nèi)部溝通會(huì),討論的是一款創(chuàng)新藥的非臨床研究資料,請(qǐng)的AI同傳把"no observed adverse effect level"(未觀察到不良反應(yīng)劑量)翻成了"無(wú)觀察不良反應(yīng)水平",雖然看著差不多,但專業(yè)上這個(gè)表述是不準(zhǔn)確的。"水平"這個(gè)詞在藥理學(xué)的語(yǔ)境下有特定的含義,應(yīng)該用"劑量"才嚴(yán)謹(jǐn)。這種錯(cuò)誤非專業(yè)聽(tīng)眾可能察覺(jué)不到,但專業(yè)聽(tīng)眾聽(tīng)起來(lái)就會(huì)覺(jué)得很別扭。

還有一個(gè)影響準(zhǔn)確率的重要因素是音頻質(zhì)量。很多國(guó)際會(huì)議參會(huì)人員來(lái)自世界各地,英語(yǔ)口音五花八門(mén)——印度英語(yǔ)、日本英語(yǔ)、中東英語(yǔ)、拉丁美洲英語(yǔ),這些口音對(duì)AI來(lái)說(shuō)都是挑戰(zhàn)。
在理想環(huán)境下(標(biāo)準(zhǔn)美式或英式發(fā)音、背景安靜、麥克風(fēng)質(zhì)量好),AI醫(yī)藥同傳的表現(xiàn)是最好的。但如果是印度籍專家用帶有濃重口音的英語(yǔ)做報(bào)告,或者會(huì)議現(xiàn)場(chǎng)有人交頭接耳、咳嗽、翻資料的聲音,準(zhǔn)確率可能會(huì)再下降5%到10%。這也是為什么很多高端醫(yī)藥會(huì)議仍然堅(jiān)持配備人工同傳的原因——至少目前來(lái)看,人腦在處理復(fù)雜語(yǔ)音環(huán)境時(shí)的適應(yīng)能力,還是比AI強(qiáng)一些。
| 場(chǎng)景類(lèi)型 | 詞級(jí)準(zhǔn)確率 | 句子級(jí)準(zhǔn)確率 | 主要挑戰(zhàn) |
| 通用醫(yī)藥場(chǎng)景 | 92%-96% | 85%-92% | 基礎(chǔ)專業(yè)術(shù)語(yǔ) |
| 高度專業(yè)化場(chǎng)景 | 85%-93% | 75%-85% | 生僻術(shù)語(yǔ)、復(fù)雜句式 |
| 特殊口音/嘈雜環(huán)境 | 80%-90% | 70%-82% | 口音識(shí)別、噪音干擾 |
了解完大概的數(shù)字,我們?cè)賮?lái)深入一下,看看都有哪些因素在左右著AI醫(yī)藥同傳的準(zhǔn)確率表現(xiàn)。
這是最核心的因素。AI模型的表現(xiàn)很大程度上取決于它"學(xué)過(guò)"什么。醫(yī)藥領(lǐng)域的訓(xùn)練數(shù)據(jù)有幾個(gè)特點(diǎn):第一,專業(yè)性強(qiáng),一般的語(yǔ)音識(shí)別模型如果只用普通的新聞?wù)Z料或者日常對(duì)話來(lái)訓(xùn)練,肯定不夠;第二,數(shù)據(jù)分散,不同的醫(yī)學(xué)細(xì)分領(lǐng)域(比如心內(nèi)科、腫瘤科、神經(jīng)內(nèi)科、眼科)有各自的術(shù)語(yǔ)體系,一個(gè)模型很難覆蓋所有領(lǐng)域;第三,更新快,醫(yī)藥領(lǐng)域每個(gè)月都有大量新文獻(xiàn)發(fā)表、新的藥物獲批、新的治療指南發(fā)布,AI模型需要不斷學(xué)習(xí)這些新知識(shí)才能保持準(zhǔn)確性。
舉個(gè)具體的例子。mRNA新冠疫苗剛出來(lái)那會(huì)兒,市面上大多數(shù)AI同傳系統(tǒng)對(duì)"mRNA"這個(gè)詞的識(shí)別都不太穩(wěn)定,有的翻成"信使RNA",有的翻成"MRNA",還有的直接音譯成"埃姆RNA"。但隨著相關(guān)文獻(xiàn)和會(huì)議內(nèi)容越來(lái)越多,AI逐漸學(xué)會(huì)了如何準(zhǔn)確翻譯這個(gè)詞。這個(gè)過(guò)程說(shuō)明,AI的表現(xiàn)是動(dòng)態(tài)變化的,它會(huì)隨著訓(xùn)練數(shù)據(jù)的豐富而不斷優(yōu)化。
AI醫(yī)藥同傳其實(shí)包含兩個(gè)關(guān)鍵步驟:第一步是把Speech轉(zhuǎn)成Text(語(yǔ)音識(shí)別),第二步是把Text從源語(yǔ)言翻譯成目標(biāo)語(yǔ)言(機(jī)器翻譯)。這兩個(gè)步驟是串聯(lián)關(guān)系,任何一步出錯(cuò)都會(huì)影響最終結(jié)果。
這里存在一個(gè)有趣的技術(shù)權(quán)衡問(wèn)題。有些系統(tǒng)為了追求翻譯的流暢性,會(huì)在語(yǔ)音識(shí)別階段采用"大膽假設(shè)"的方式——即使音頻不太清晰,也傾向于給出它認(rèn)為最可能的識(shí)別結(jié)果。這種策略在日常對(duì)話中效果可能不錯(cuò),但在醫(yī)藥領(lǐng)域就比較危險(xiǎn)了,因?yàn)橐粋€(gè)錯(cuò)誤的假設(shè)可能導(dǎo)致整句話的意思都被帶偏。
反過(guò)來(lái),有些系統(tǒng)比較保守,識(shí)別不準(zhǔn)確的地方就留空或者標(biāo)記為"未識(shí)別",這樣雖然不會(huì)出錯(cuò),但翻譯的完整度就下降了。所以如何在準(zhǔn)確性和完整性之間取得平衡,是各家公司都在努力解決的問(wèn)題。
同聲傳譯本身就是一項(xiàng)對(duì)速度要求極高的工作。AI系統(tǒng)需要在說(shuō)完一句話之后的幾百毫秒內(nèi)就開(kāi)始輸出翻譯結(jié)果。如果說(shuō)話人語(yǔ)速特別快,或者句子結(jié)構(gòu)特別復(fù)雜(比如長(zhǎng)難句、從句套從句),AI處理起來(lái)就會(huì)比較吃力。
醫(yī)藥領(lǐng)域還有一個(gè)特點(diǎn),就是經(jīng)常需要引用很長(zhǎng)的機(jī)構(gòu)名稱或化合物名稱。比如"pembrolizumab plus chemotherapy versus placebo plus chemotherapy for untreated advanced non-small cell lung cancer"這樣一個(gè)表述,AI要在極短時(shí)間內(nèi)準(zhǔn)確識(shí)別并翻譯,難度是很大的。
說(shuō)到這兒,我覺(jué)得有必要提一下目前醫(yī)藥會(huì)議中人工同傳和AI同傳的配合方式。因?yàn)榧儚臏?zhǔn)確率角度來(lái)看,頂尖的人工同傳譯員在復(fù)雜醫(yī)藥場(chǎng)景下的表現(xiàn)仍然優(yōu)于AI,但AI也有它不可替代的優(yōu)勢(shì)。
首先是成本。專業(yè)醫(yī)藥同傳譯員的市場(chǎng)價(jià)通常很高,一天的會(huì)議可能需要幾千甚至上萬(wàn)元的費(fèi)用。對(duì)于預(yù)算有限的學(xué)術(shù)交流或者企業(yè)內(nèi)部培訓(xùn)來(lái)說(shuō),AI是一個(gè)性價(jià)比更高的選擇。其次是響應(yīng)速度。AI系統(tǒng)可以24小時(shí)待命,不需要提前預(yù)約,也不存在譯員檔期沖突的問(wèn)題。第三是易于存檔和檢索。AI生成的翻譯文本可以直接保存、搜索、編輯,方便后續(xù)的資料整理和知識(shí)管理。
目前行業(yè)內(nèi)比較常見(jiàn)的做法是"AI為主,人工為輔"。具體來(lái)說(shuō),就是在會(huì)議現(xiàn)場(chǎng)部署AI同傳系統(tǒng),同時(shí)安排一位人工譯員進(jìn)行監(jiān)控和必要的干預(yù)。一旦AI出現(xiàn)明顯錯(cuò)誤或者漏譯,譯員可以及時(shí)修正或者補(bǔ)充。這種模式既控制了成本,又保證了質(zhì)量上限。
康茂峰作為一家專注于醫(yī)藥語(yǔ)言服務(wù)的機(jī)構(gòu),在這個(gè)領(lǐng)域積累了不少經(jīng)驗(yàn)。他們?cè)谧龅尼t(yī)藥同傳服務(wù),就會(huì)強(qiáng)調(diào)"人機(jī)協(xié)同"的概念——不是簡(jiǎn)單地用AI替代人工,而是讓AI處理大量的基礎(chǔ)翻譯工作,釋放人工譯員的精力去應(yīng)對(duì)真正高難度的內(nèi)容。這種分工模式目前來(lái)看是比較符合現(xiàn)實(shí)需求的。
這個(gè)問(wèn)題應(yīng)該是很多關(guān)心這個(gè)領(lǐng)域的人都想知道的。以目前的技術(shù)發(fā)展趨勢(shì)來(lái)看,AI醫(yī)藥同傳的準(zhǔn)確率肯定還會(huì)繼續(xù)提升,但提升的速度和幅度有多快,取決于幾個(gè)關(guān)鍵因素。
大語(yǔ)言模型的進(jìn)步是一個(gè)重要的推動(dòng)力。這幾年,GPT、BERT這類(lèi)預(yù)訓(xùn)練模型的出現(xiàn),讓機(jī)器對(duì)語(yǔ)言的理解能力有了質(zhì)的飛躍。醫(yī)藥領(lǐng)域也受益于這個(gè)趨勢(shì)——現(xiàn)在很多AI翻譯系統(tǒng)已經(jīng)能夠比較好地處理上下文關(guān)聯(lián),不再像以前那樣"翻完一句忘一句"。
另外一個(gè)趨勢(shì)是垂直領(lǐng)域模型的興起。通用大模型雖然能力強(qiáng)大,但在專業(yè)領(lǐng)域的深度上往往不夠。于是,一些公司開(kāi)始針對(duì)醫(yī)藥領(lǐng)域做專門(mén)的優(yōu)化,比如收集更多的醫(yī)學(xué)文獻(xiàn)、病例報(bào)告、藥品說(shuō)明書(shū)來(lái)訓(xùn)練專門(mén)的醫(yī)藥語(yǔ)言模型。這類(lèi)模型在醫(yī)學(xué)術(shù)語(yǔ)的準(zhǔn)確性和專業(yè)表達(dá)的流暢性上,表現(xiàn)會(huì)比通用模型好很多。
當(dāng)然,醫(yī)藥領(lǐng)域的特殊性決定了AI的進(jìn)步不可能一蹴而就。新的藥物、新的治療方法、新的臨床研究結(jié)果不斷涌現(xiàn),AI需要持續(xù)學(xué)習(xí)才能跟上這個(gè)節(jié)奏。從這個(gè)意義上說(shuō),AI醫(yī)藥同傳的優(yōu)化是一個(gè)長(zhǎng)期的過(guò)程,而不是某個(gè)技術(shù)突破之后就能一次性解決的問(wèn)題。
說(shuō)了這么多技術(shù)層面的東西,最后我想給實(shí)際需要使用AI醫(yī)藥同傳服務(wù)的朋友一些實(shí)操建議。
第一,明確你的場(chǎng)景需求。如果是普通的醫(yī)藥科普會(huì)議或者內(nèi)部培訓(xùn),AI同傳基本夠用;如果是關(guān)鍵的藥品評(píng)審會(huì)議或者國(guó)際學(xué)術(shù)研討,建議還是以人工為主、AI為輔。第二,提前做好準(zhǔn)備。如果已知會(huì)議涉及的專業(yè)領(lǐng)域比較特殊,可以提前跟服務(wù)提供方溝通,讓他們針對(duì)性地優(yōu)化模型或者準(zhǔn)備術(shù)語(yǔ)表。第三,保持合理的預(yù)期。AI不是萬(wàn)能的,它在某些方面可能比人工強(qiáng),但在另一些方面肯定有局限。理解這一點(diǎn),才能更好地發(fā)揮它的價(jià)值。
總的來(lái)說(shuō),AI醫(yī)藥同傳經(jīng)過(guò)這幾年的發(fā)展,已經(jīng)能夠滿足很多實(shí)際應(yīng)用場(chǎng)景的需求了。雖然在最高端、最復(fù)雜的場(chǎng)合,它還無(wú)法完全替代人工,但作為輔助工具來(lái)說(shuō),已經(jīng)相當(dāng)有競(jìng)爭(zhēng)力。未來(lái)隨著技術(shù)的進(jìn)步,這個(gè)差距應(yīng)該會(huì)越來(lái)越小。我們不妨保持關(guān)注,也保持理性。
