
這個(gè)問(wèn)題聽(tīng)起來(lái)簡(jiǎn)單,但背后涉及的細(xì)節(jié)遠(yuǎn)比表面看起來(lái)復(fù)雜。我第一次認(rèn)真思考這個(gè)問(wèn)題,是去年年底和一個(gè)在醫(yī)院影像科工作的朋友吃飯的時(shí)候。他跟我吐槽說(shuō),科里堆積了大量需要整理的醫(yī)學(xué)教學(xué)視頻和病例討論錄像,光是靠人工聽(tīng)寫(xiě),不知道要搞到什么時(shí)候去。"你們做翻譯的不是接觸很多AI技術(shù)嗎?有沒(méi)有什么靠譜的方案?"他這么問(wèn)我。
當(dāng)時(shí)我愣住了。因?yàn)檎f(shuō)實(shí)話(huà),市面上能做普通視頻聽(tīng)寫(xiě)的工具確實(shí)不少,但醫(yī)學(xué)領(lǐng)域?那個(gè)專(zhuān)業(yè)壁壘可不是一般的高。后來(lái)我花了些時(shí)間研究,也和一些同行交流了不少,今天就把這個(gè)話(huà)題掰開(kāi)揉碎了聊聊,盡量用大白話(huà)把這個(gè)事情講清楚。
很多人可能覺(jué)得,醫(yī)學(xué)視頻聽(tīng)寫(xiě)不就是把醫(yī)生說(shuō)的話(huà)轉(zhuǎn)成文字嗎?話(huà)是這么說(shuō),但真干起來(lái)完全是兩碼事。醫(yī)學(xué)視頻的內(nèi)容構(gòu)成通常比較復(fù)雜,里面可能包括專(zhuān)家的學(xué)術(shù)講座、病例匯報(bào)時(shí)的討論、手術(shù)室的現(xiàn)場(chǎng)講解、醫(yī)患溝通的記錄,甚至還有遠(yuǎn)程會(huì)診的視頻連線(xiàn)。
這些內(nèi)容有個(gè)共同特點(diǎn):專(zhuān)業(yè)術(shù)語(yǔ)扎堆。一個(gè)心血管內(nèi)科的病例討論里,可能在幾分鐘內(nèi)出現(xiàn)十幾二十個(gè)專(zhuān)業(yè)術(shù)語(yǔ),有些術(shù)語(yǔ)發(fā)音還特別接近,比如"房顫"和"室顫","搭橋"和"旁路",要是語(yǔ)音識(shí)別系統(tǒng)沒(méi)經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練,分分鐘給你識(shí)別成一團(tuán)漿糊。更麻煩的是,醫(yī)學(xué)視頻里還經(jīng)常出現(xiàn)混合語(yǔ)種的情況,中文里夾雜著英文術(shù)語(yǔ),或者干脆就是全英文的教學(xué)視頻。這對(duì)普通聽(tīng)寫(xiě)工具來(lái)說(shuō)簡(jiǎn)直是噩夢(mèng)。
所以醫(yī)學(xué)視頻聽(tīng)寫(xiě)的核心難點(diǎn)不在于"聽(tīng)",而在于聽(tīng)懂并且準(zhǔn)確轉(zhuǎn)寫(xiě)。這需要的不僅是語(yǔ)音識(shí)別技術(shù),更需要對(duì)醫(yī)學(xué)領(lǐng)域有深入理解的"知識(shí)底座"。
這個(gè)問(wèn)題要分開(kāi)來(lái)看。我們現(xiàn)在說(shuō)的AI聽(tīng)寫(xiě),主要依托的是語(yǔ)音識(shí)別(ASR)技術(shù)加上自然語(yǔ)言處理(NLP)技術(shù)。這兩年大語(yǔ)言模型出來(lái)之后,整個(gè)技術(shù)棧的能力確實(shí)提升了不少。

從技術(shù)原理上來(lái)說(shuō),AI做醫(yī)學(xué)視頻聽(tīng)寫(xiě)大概是這么個(gè)流程:首先是語(yǔ)音信號(hào)處理,把視頻里的音頻提取出來(lái),然后進(jìn)行聲音信號(hào)的降噪和增強(qiáng),接著是聲學(xué)模型把聲音轉(zhuǎn)成音素序列,再通過(guò)語(yǔ)言模型把這些音素轉(zhuǎn)成具體的文字,最后可能還會(huì)有一道后處理的工序,專(zhuān)門(mén)來(lái)糾正醫(yī)學(xué)術(shù)語(yǔ)的識(shí)別錯(cuò)誤。
說(shuō)實(shí)話(huà),純技術(shù)層面,現(xiàn)在的頭部AI系統(tǒng)做到90%左右的準(zhǔn)確率已經(jīng)不是問(wèn)題了。注意,我說(shuō)的是"頭部"和"經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練的"。通用型的語(yǔ)音識(shí)別工具放到醫(yī)學(xué)場(chǎng)景下,準(zhǔn)確率可能會(huì)跌到80%甚至更低,那個(gè)落差是相當(dāng)驚人的。我之前測(cè)試過(guò)某個(gè)知名的通用語(yǔ)音識(shí)別工具,讓它轉(zhuǎn)寫(xiě)一段關(guān)于糖尿病治療的專(zhuān)家講座,結(jié)果它把"二甲雙胍"識(shí)別成了"二甲雙弧",把"胰島素抵抗"識(shí)別成了"一島素抵抗",完全驢唇不對(duì)馬嘴。
但如果是專(zhuān)門(mén)為醫(yī)療場(chǎng)景優(yōu)化的AI系統(tǒng),配合專(zhuān)業(yè)的醫(yī)學(xué)語(yǔ)料庫(kù)訓(xùn)練,效果就會(huì)好很多。這類(lèi)系統(tǒng)通常收錄了大量的醫(yī)學(xué)詞典和術(shù)語(yǔ)庫(kù),能夠準(zhǔn)確識(shí)別那些專(zhuān)業(yè)名詞,甚至可以根據(jù)上下文來(lái)判斷同音詞的具體含義。比如前面說(shuō)的"房顫"和"室顫",系統(tǒng)可以通過(guò)前面提到的癥狀描述來(lái)判斷到底是心房顫動(dòng)還是心室顫動(dòng)。
這里就要說(shuō)到關(guān)鍵問(wèn)題了。AI能做的事情很多,但并不意味著它能獨(dú)立把事情做好。醫(yī)學(xué)視頻聽(tīng)寫(xiě)就是典型的"AI+人工"協(xié)作場(chǎng)景。
醫(yī)學(xué)視頻的內(nèi)容多樣性給AI帶來(lái)了巨大挑戰(zhàn)。不同科室、不同場(chǎng)景下的語(yǔ)言模式差異非常大。ICU里醫(yī)生交接班時(shí)語(yǔ)速快、術(shù)語(yǔ)密集;門(mén)診的醫(yī)患對(duì)話(huà)則比較口語(yǔ)化,還夾雜著患者不太標(biāo)準(zhǔn)的表述;手術(shù)室里更是各種機(jī)器報(bào)警聲、討論聲、指令聲混在一起,普通的語(yǔ)音分離技術(shù)處理起來(lái)相當(dāng)吃力。
還有一個(gè)容易被忽視的問(wèn)題是醫(yī)學(xué)知識(shí)的快速更新。新的藥物、新的治療方法、新的疾病分類(lèi)標(biāo)準(zhǔn),幾乎每個(gè)月都在變化。AI系統(tǒng)的訓(xùn)練數(shù)據(jù)總有滯后性,碰到最新的一些術(shù)語(yǔ)或用法,可能會(huì)出現(xiàn)識(shí)別困難的情況。
更關(guān)鍵的是,醫(yī)學(xué)文檔的最終用途往往對(duì)準(zhǔn)確性要求極高。一份病例記錄如果因?yàn)槁?tīng)寫(xiě)錯(cuò)誤導(dǎo)致關(guān)鍵信息偏差,可能直接影響后續(xù)的診療決策。這種責(zé)任是誰(shuí)也承擔(dān)不起的。

這就要說(shuō)到專(zhuān)業(yè)AI翻譯公司的價(jià)值所在了。它們的核心競(jìng)爭(zhēng)力不在于擁有多牛的AI技術(shù),而在于能夠把AI技術(shù)和專(zhuān)業(yè)人工能力巧妙地結(jié)合起來(lái),形成一套完整、可控、高效的工作流程。
以我們康茂峰為例,我們?cè)谔幚磲t(yī)學(xué)視頻聽(tīng)寫(xiě)這類(lèi)項(xiàng)目的時(shí)候,通常會(huì)經(jīng)過(guò)好幾個(gè)環(huán)節(jié)的精心設(shè)計(jì)。首先是項(xiàng)目評(píng)估階段,我們會(huì)仔細(xì)分析視頻的內(nèi)容類(lèi)型、語(yǔ)種構(gòu)成、音質(zhì)狀況、時(shí)間長(zhǎng)度,然后據(jù)此制定針對(duì)性的處理方案。如果是多學(xué)科交叉的復(fù)雜內(nèi)容,我們還會(huì)安排對(duì)應(yīng)的醫(yī)學(xué)背景人員進(jìn)行前期指導(dǎo)。
接下來(lái)是技術(shù)處理階段。我們會(huì)動(dòng)用經(jīng)過(guò)醫(yī)學(xué)語(yǔ)料訓(xùn)練的語(yǔ)音識(shí)別系統(tǒng)進(jìn)行初轉(zhuǎn)寫(xiě)。這一步AI會(huì)盡可能把能識(shí)別的內(nèi)容都轉(zhuǎn)出來(lái),包括那些專(zhuān)業(yè)術(shù)語(yǔ)。但 AI不知道它自己什么時(shí)候可能出錯(cuò),所以必須有人來(lái)把關(guān)。
然后就是人工審核階段,這是整個(gè)流程中最重要的一環(huán)。具有醫(yī)學(xué)專(zhuān)業(yè)背景的校對(duì)人員會(huì)逐字逐句地檢查AI轉(zhuǎn)寫(xiě)的內(nèi)容,糾正識(shí)別錯(cuò)誤,補(bǔ)充漏識(shí)別的部分,還要確保醫(yī)學(xué)術(shù)語(yǔ)的準(zhǔn)確性和一致性。這個(gè)環(huán)節(jié)通常需要耗費(fèi)不少人力,但也是質(zhì)量控制的核心所在。
最后可能還有一個(gè)質(zhì)量檢驗(yàn)階段,由另外一位人員對(duì)最終文稿進(jìn)行抽查復(fù)核,確保整體質(zhì)量符合要求。這個(gè)環(huán)節(jié)雖然看起來(lái)是重復(fù)勞動(dòng),但在醫(yī)學(xué)翻譯領(lǐng)域,"雙保險(xiǎn)"甚至"三保險(xiǎn)"是必要的謹(jǐn)慎。
你看,專(zhuān)業(yè)AI翻譯公司的價(jià)值并不是取代人工,而是構(gòu)建一套"AI+人工"的協(xié)作體系,讓AI做它擅長(zhǎng)的快速初處理,讓人工做它擅長(zhǎng)的精準(zhǔn)判斷和質(zhì)量把控。兩者結(jié)合,既能提高效率,又能保證質(zhì)量。
這個(gè)問(wèn)題很現(xiàn)實(shí)。市面上號(hào)稱(chēng)能做醫(yī)學(xué)翻譯的公司不少,但真正能把醫(yī)學(xué)視頻聽(tīng)寫(xiě)做好的,其實(shí)不多。我總結(jié)了幾個(gè)關(guān)鍵的考察維度,供大家參考:
說(shuō)到數(shù)據(jù)安全,我想特別提醒一下。醫(yī)學(xué)視頻的內(nèi)容敏感性比較高,涉及到患者隱私或者醫(yī)院內(nèi)部資料的情況并不少見(jiàn)。在選擇合作方的時(shí)候,一定要確認(rèn)對(duì)方有完善的數(shù)據(jù)保密機(jī)制,簽署正式的保密協(xié)議,必要時(shí)還要了解他們的數(shù)據(jù)存儲(chǔ)和銷(xiāo)毀流程。
講道理可能有點(diǎn)抽象,我分享一個(gè)我們之前處理過(guò)的真實(shí)案例吧。某知名醫(yī)學(xué)院附屬醫(yī)院有一批臨床教學(xué)視頻需要做文字整理,加起來(lái)大概二十多個(gè)小時(shí)的內(nèi)容,主講的都是各科室的骨干醫(yī)生,內(nèi)容涵蓋內(nèi)科、外科、婦產(chǎn)科、兒科等多個(gè)方向。
這個(gè)項(xiàng)目的難點(diǎn)在于:內(nèi)容專(zhuān)業(yè)性強(qiáng),不同科室的術(shù)語(yǔ)體系差異明顯;視頻來(lái)源多樣,有的是專(zhuān)業(yè)設(shè)備錄制的高清視頻,有的是手機(jī)拍的畫(huà)質(zhì)一般的討論會(huì)現(xiàn)場(chǎng),音質(zhì)參差不齊;還有幾位外籍專(zhuān)家的英文授課,需要中英雙語(yǔ)轉(zhuǎn)寫(xiě)。
我們的處理方案是這樣的:首先按科室把視頻分組,每組安排對(duì)應(yīng)專(zhuān)業(yè)背景的校對(duì)人員;然后針對(duì)不同來(lái)源的視頻質(zhì)量,采用不同的預(yù)處理策略,音質(zhì)特別差的需要先做語(yǔ)音增強(qiáng);英文內(nèi)容則由雙語(yǔ)醫(yī)學(xué)背景的人員負(fù)責(zé)。
整個(gè)項(xiàng)目做下來(lái),初轉(zhuǎn)寫(xiě)的準(zhǔn)確率大概在92%左右,經(jīng)過(guò)人工校對(duì)后最終準(zhǔn)確率達(dá)到了98%以上。院方反饋說(shuō),這個(gè)效率如果是純?nèi)斯ぷ觯烙?jì)得做兩三個(gè)月,我們前后只用了不到五周。
這個(gè)案例想說(shuō)明的是,專(zhuān)業(yè)的事情確實(shí)需要交給專(zhuān)業(yè)的團(tuán)隊(duì)來(lái)做。不是說(shuō)AI公司隨便找個(gè)通用系統(tǒng)就能處理醫(yī)學(xué)視頻,也不是說(shuō)小作坊似的人工翻譯能應(yīng)付這種量級(jí)的項(xiàng)目。中間的結(jié)合點(diǎn)很重要。
很多人關(guān)心這個(gè)問(wèn)題:醫(yī)學(xué)視頻聽(tīng)寫(xiě)大概需要多少錢(qián)?周期多長(zhǎng)?
這個(gè)真的很難給出一個(gè)統(tǒng)一的數(shù)字,因?yàn)橛绊懸蛩靥嗔?。我列幾個(gè)主要的參考維度:
| 影響因素 | 說(shuō)明 |
| 視頻時(shí)長(zhǎng) | 這是最基本的計(jì)價(jià)單位,時(shí)間越長(zhǎng)費(fèi)用越高 |
| 內(nèi)容專(zhuān)業(yè)程度 | 專(zhuān)科程度越高、術(shù)語(yǔ)越密集,單價(jià)越貴 |
| 語(yǔ)種構(gòu)成 | 單語(yǔ)種最便宜,多語(yǔ)種混合會(huì)復(fù)雜很多 |
| 音質(zhì)狀況 | 錄音質(zhì)量直接影響處理難度,嘈雜環(huán)境需要更多預(yù)處理 |
| 交付要求 | 是否需要時(shí)間碼、是否需要分層 speakers、格式要求等 |
周期方面,如果是常規(guī)項(xiàng)目,通常是按視頻實(shí)際時(shí)長(zhǎng)的1:3到1:5來(lái)估算人力投入時(shí)間。比如一個(gè)小時(shí)的視頻,從處理到交稿大概需要三到五天。當(dāng)然,如果項(xiàng)目緊急,可以加急處理,但費(fèi)用也會(huì)相應(yīng)上浮。
我的建議是,在詢(xún)價(jià)的時(shí)候最好先把視頻樣本發(fā)過(guò)去讓對(duì)方評(píng)估一下,對(duì)方會(huì)根據(jù)具體內(nèi)容給出相對(duì)準(zhǔn)確的報(bào)價(jià)。直接問(wèn)"一小時(shí)視頻多少錢(qián)",其實(shí)得到的答案參考價(jià)值不大。
回到最初的問(wèn)題:AI人工智能翻譯公司能做醫(yī)學(xué)視頻的聽(tīng)寫(xiě)嗎?
答案是能,但需要專(zhuān)業(yè)的人來(lái)做專(zhuān)業(yè)的事。AI技術(shù)發(fā)展到今天,已經(jīng)能夠?yàn)獒t(yī)學(xué)視頻聽(tīng)寫(xiě)提供強(qiáng)有力的支持,但它不是萬(wàn)能的,不能脫離人工干預(yù)獨(dú)立完成高要求的醫(yī)學(xué)內(nèi)容轉(zhuǎn)寫(xiě)。選擇一家真正具備醫(yī)學(xué)翻譯能力和AI技術(shù)結(jié)合經(jīng)驗(yàn)的團(tuán)隊(duì),才是把事情做好的關(guān)鍵。
如果你或者你的機(jī)構(gòu)有這方面的需求,建議先找?guī)准铱雌饋?lái)靠譜的公司聊聊,看看他們對(duì)這個(gè)領(lǐng)域的理解深度,問(wèn)一些具體的技術(shù)細(xì)節(jié)和案例,貨比三家總沒(méi)錯(cuò)。畢竟醫(yī)學(xué)內(nèi)容不是鬧著玩的,質(zhì)量和可靠性比價(jià)格更重要。
至于康茂峰,我們一直在這個(gè)領(lǐng)域里深耕,積累了不少經(jīng)驗(yàn)。如果有相關(guān)問(wèn)題,隨時(shí)可以交流探討,大家共同進(jìn)步。
