
去年冬天,我一位在醫(yī)院放射科工作的老朋友跟我吐槽說,他們科室最近接收了一批從國外轉(zhuǎn)運(yùn)過來的病例資料,里面有大量的CT片、MRI報(bào)告掃描件,還有一些病理切片的照片。領(lǐng)導(dǎo)要求他把里面所有的文字信息整理成電子文檔,這可把他愁壞了。你說這些圖片吧,里面有英文的、拉丁文的,還有一些手寫的標(biāo)注,普通的識別軟件根本搞不定。
他問我:"你們做翻譯的,現(xiàn)在不是都說用AI嗎?到底能不能識別這些醫(yī)學(xué)圖片上的文字?"這個(gè)問題讓我意識到,可能很多從事醫(yī)學(xué)相關(guān)工作的人都有類似的困惑。畢竟,醫(yī)學(xué)圖片和普通文檔太不一樣了,上面不僅有文字,還夾雜著各種圖像、符號、標(biāo)注,普通人看著都眼花,更別說機(jī)器了。
其實(shí)吧,這個(gè)問題的答案是:能識別,但得看具體情況。別覺得我在說廢話,且聽我慢慢道來。
要理解為什么醫(yī)學(xué)圖片的文字識別是個(gè)專門的技術(shù)活兒,咱們得先弄清楚醫(yī)學(xué)圖片到底特殊在哪兒。
首先,醫(yī)學(xué)圖片的來源非常多樣。CT、MRI、X光、超聲、病理切片、檢驗(yàn)報(bào)告、手寫病歷……每一種圖片的呈現(xiàn)方式、文字排版、字體大小都截然不同。就拿病理切片來說,上面可能同時(shí)存在打印的診斷結(jié)論、手畫的圈注、以及各種專業(yè)符號。一張病理報(bào)告圖片,可能同時(shí)包含正式打印的段落、手寫的補(bǔ)充說明、以及用彩色筆做的標(biāo)注。這種"混搭"風(fēng)格,對識別技術(shù)來說是個(gè)不小的挑戰(zhàn)。
其次,醫(yī)學(xué)術(shù)語的專業(yè)性遠(yuǎn)超普通文檔。像"嗜鉻細(xì)胞瘤""抗中性粒細(xì)胞胞漿抗體"這類詞匯,不僅長,而且包含大量生僻字和縮寫。普通的文字識別系統(tǒng)如果訓(xùn)練數(shù)據(jù)里沒有足夠多的醫(yī)學(xué)語料,遇到這些詞的時(shí)候很容易"蒙圈",識別出來的結(jié)果可能驢唇不對馬嘴。醫(yī)學(xué)領(lǐng)域?qū)?zhǔn)確性要求極高,一個(gè)識別錯(cuò)誤可能導(dǎo)致嚴(yán)重的后果,所以這個(gè)領(lǐng)域的OCR(光學(xué)字符識別)技術(shù)必須經(jīng)過專門的優(yōu)化和訓(xùn)練。
再者,醫(yī)學(xué)圖片的質(zhì)量參差不齊。有的高清掃描件邊緣清晰、對比度高,識別起來相對容易;但也有的照片是手機(jī)拍的,光線不均勻,還有反光和陰影,甚至有的老舊病歷圖片已經(jīng)泛黃發(fā)脆,字跡都模糊了。這種情況下,即便是人眼去看都很吃力,更別說機(jī)器了。

說了這么多困難,那到底行不行呢?
答案是:在技術(shù)上已經(jīng)可以實(shí)現(xiàn),但需要專業(yè)的醫(yī)學(xué)OCR引擎。
我專門研究了一下這個(gè)領(lǐng)域的發(fā)展現(xiàn)狀。現(xiàn)在主流的醫(yī)學(xué)圖片文字識別技術(shù),主要依賴于深度學(xué)習(xí)算法,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的結(jié)合應(yīng)用。簡單來說,CNN負(fù)責(zé)"看懂"圖片中的像素模式,識別出哪個(gè)區(qū)域是文字、哪個(gè)區(qū)域是圖像;RNN則負(fù)責(zé)把識別出來的單個(gè)字符組合成有意義的詞語和句子。
這個(gè)技術(shù)路線聽起來挺高大上,但實(shí)現(xiàn)起來有幾個(gè)關(guān)鍵難點(diǎn)。
第一個(gè)是訓(xùn)練數(shù)據(jù)的獲取。要讓AI學(xué)會識別醫(yī)學(xué)圖片上的文字,首先得給它喂大量的學(xué)習(xí)素材。這些素材需要包含各種類型的醫(yī)學(xué)圖片,并且每張圖片都要有準(zhǔn)確的人工標(biāo)注。問題是,醫(yī)學(xué)數(shù)據(jù)涉及到患者隱私,獲取和標(biāo)注的成本都非常高。而且,醫(yī)學(xué)領(lǐng)域的細(xì)分領(lǐng)域很多,兒科影像和骨科影像的呈現(xiàn)風(fēng)格差異很大,一個(gè)通用的醫(yī)學(xué)OCR模型很難在所有細(xì)分領(lǐng)域都達(dá)到理想效果。
第二個(gè)是版面分析的復(fù)雜性。醫(yī)學(xué)圖片往往不是單純的"文字+背景"結(jié)構(gòu),而是文字、圖像、表格、圖形標(biāo)注混雜在一起。專業(yè)的醫(yī)學(xué)OCR系統(tǒng)需要具備智能的版面分析能力,能夠區(qū)分哪些是需要識別的文字區(qū)域、哪些是醫(yī)學(xué)影像本身的內(nèi)容、哪些是輔助說明的圖表。這需要對醫(yī)學(xué)文檔的布局結(jié)構(gòu)有深入的理解。
第三個(gè)是專業(yè)術(shù)語的處理能力。醫(yī)學(xué)領(lǐng)域有大量的拉丁語縮寫、希臘字母符號、以及各種專業(yè)代碼。一個(gè)合格的醫(yī)學(xué)OCR系統(tǒng)不僅要把字符識別出來,還要能夠正確解讀這些特殊符號的含義。比如μg是微克的意思,mmHg是毫米汞柱,這些都是醫(yī)學(xué)領(lǐng)域的常識,但對于缺乏醫(yī)學(xué)背景的通用OCR系統(tǒng)來說,可能只是一些無法解讀的亂碼。

說到這兒,你可能會問:既然難度這么大,那些專業(yè)的醫(yī)學(xué)翻譯公司是怎么處理這類需求的呢?
以康茂峰這樣的專業(yè)醫(yī)學(xué)翻譯公司為例,他們在處理醫(yī)學(xué)圖片文字識別任務(wù)時(shí),通常不會完全依賴單一的自動(dòng)化工具,而是采用"人機(jī)協(xié)作"的模式。
首先,會使用經(jīng)過專門訓(xùn)練的醫(yī)學(xué)OCR引擎。這類引擎在通用OCR技術(shù)的基礎(chǔ)上,用大量的醫(yī)學(xué)圖片數(shù)據(jù)進(jìn)行了專門訓(xùn)練,對醫(yī)學(xué)字體、醫(yī)學(xué)術(shù)語、醫(yī)學(xué)文檔布局都有針對性的優(yōu)化。初步識別完成后,系統(tǒng)會給出置信度評分,對于識別準(zhǔn)確率較高的部分,可以直接采用;對于置信度較低或者存在疑問的部分,則會標(biāo)記出來交給人工審核。
然后,配備專業(yè)的醫(yī)學(xué)背景審校人員。這一步非常關(guān)鍵。機(jī)器識別出來的結(jié)果,需要由具備醫(yī)學(xué)專業(yè)知識的審校人員進(jìn)行復(fù)核。他們不僅能夠發(fā)現(xiàn)識別錯(cuò)誤,還能結(jié)合具體的醫(yī)學(xué)圖像上下文,判斷識別結(jié)果是否符合醫(yī)學(xué)邏輯。比如,識別出來的某個(gè)檢驗(yàn)指標(biāo)數(shù)值是否在合理范圍內(nèi),診斷結(jié)論是否與影像表現(xiàn)相符等等。
最后,建立完善的術(shù)語庫和質(zhì)量控制流程。專業(yè)公司會持續(xù)積累醫(yī)學(xué)術(shù)語庫,對于常見的醫(yī)學(xué)詞匯、縮寫、符號建立標(biāo)準(zhǔn)化的對照表。每一次識別任務(wù)完成后,相關(guān)的不確定項(xiàng)和問題反饋都會沉淀到系統(tǒng)中,用于不斷優(yōu)化后續(xù)的識別準(zhǔn)確率。
為了讓你更直觀地了解這項(xiàng)技術(shù)的實(shí)際應(yīng)用效果,我整理了幾個(gè)典型的使用場景:
| 應(yīng)用場景 | 典型圖片類型 | 識別難度 | 當(dāng)前技術(shù)表現(xiàn) |
| 檢查檢驗(yàn)報(bào)告數(shù)字化 | 打印的檢驗(yàn)報(bào)告、化驗(yàn)單 | 中等 | 準(zhǔn)確率可達(dá)95%以上 |
| CT/MRI診斷報(bào)告、影像片文字標(biāo)注 | 較高 | 準(zhǔn)確率約85-92%,需人工復(fù)核 | |
| 手寫病歷、處方簽 | 很高 | 準(zhǔn)確率差異大,嚴(yán)重依賴書寫清晰度 | |
| 多語言醫(yī)學(xué)影像報(bào)告 | 很高 | 需結(jié)合機(jī)器翻譯與專業(yè)審校 |
從這個(gè)表格可以看出,不同的圖片類型,識別效果差異很大。打印清晰的檢驗(yàn)報(bào)告,識別準(zhǔn)確率已經(jīng)能夠達(dá)到很高的水平;但如果是潦草的手寫病歷,或者拍攝條件不佳的照片,即便最先進(jìn)的系統(tǒng)也會"力不從心"。
我專門了解了一下康茂峰在這方面的技術(shù)積累。他們針對不同的醫(yī)學(xué)圖片類型開發(fā)了專門的識別模型,比如針對病理切片報(bào)告的、針對影像診斷報(bào)告的、針對臨床病歷的,每個(gè)模型都在對應(yīng)領(lǐng)域進(jìn)行了深度優(yōu)化。而且,他們的系統(tǒng)支持多種語言的醫(yī)學(xué)文字識別,包括英語、日語、德語、法語等主要語種,這對于處理國際醫(yī)學(xué)資料很有幫助。
如果你手頭有醫(yī)學(xué)圖片需要識別,有幾個(gè)因素會直接影響最終的識別效果。
圖片質(zhì)量是首要的。在同樣的識別系統(tǒng)下,一張拍攝清晰、曝光適度、角度端正的圖片,識別效果肯定比一張模糊、過曝、有陰影的圖片好很多。如果可能的話,盡量使用掃描儀獲取圖片,而不是直接用手機(jī)拍照。如果是拍照片,注意光線要均勻,不要有反光,畫面要端正,不要傾斜。
文字的清晰度和規(guī)范性也很重要。打印體文字的識別難度遠(yuǎn)低于手寫體。工整的手寫體尚可識別,但如果字跡過于潦草,或者使用了特殊的醫(yī)學(xué)縮寫符號,識別準(zhǔn)確率會明顯下降。另外,不同國家的醫(yī)學(xué)文檔使用的字體、編碼方式也可能不同,這些都會影響識別結(jié)果。
醫(yī)學(xué)術(shù)語的專業(yè)程度也有影響。常見的醫(yī)學(xué)詞匯、系統(tǒng)疾病名稱,識別準(zhǔn)確率相對較高;但如果是罕見病名稱、最新藥物名稱、或者非常專業(yè)的檢驗(yàn)指標(biāo),識別系統(tǒng)可能因?yàn)橛?xùn)練數(shù)據(jù)中缺少這些詞匯而出現(xiàn)錯(cuò)誤。這種情況下,人工審校就特別重要了。
多語言混排的情況需要特別處理。很多國際醫(yī)學(xué)資料中會同時(shí)出現(xiàn)英文、拉丁文、縮寫符號等混合內(nèi)容。比如診斷名稱用拉丁文,藥品名稱用英文,檢驗(yàn)指標(biāo)用縮寫。這種情況下,識別系統(tǒng)需要具備多語言混合識別能力,并且能夠正確區(qū)分不同類型的內(nèi)容。
如果你確實(shí)有醫(yī)學(xué)圖片文字識別的需求,應(yīng)該怎么選擇服務(wù)商呢?
我的建議是看幾個(gè)方面:
就拿康茂峰來說吧,他們做醫(yī)學(xué)翻譯很多年了,積累了大量醫(yī)學(xué)領(lǐng)域的專業(yè)人才和技術(shù)經(jīng)驗(yàn)。在處理醫(yī)學(xué)圖片識別任務(wù)時(shí),他們不會簡單地"一鍵識別"就完事,而是會有專業(yè)的醫(yī)學(xué)背景人員參與全程,確保識別結(jié)果符合醫(yī)學(xué)專業(yè)標(biāo)準(zhǔn)。這種"懂醫(yī)學(xué)"的優(yōu)勢,是他們區(qū)別于一般OCR服務(wù)商的關(guān)鍵所在。
回到開頭我那位放射科朋友的問題,他后來的解決方案就是找了一家專業(yè)的醫(yī)學(xué)翻譯公司幫忙處理。他告訴我,雖然沒有達(dá)到100%的自動(dòng)化程度,但比起純?nèi)斯や浫耄蔬€是高出了很多。最重要的是,有專業(yè)的人把關(guān),識別結(jié)果他是放心的。
所以總的來說,AI技術(shù)已經(jīng)能夠讓計(jì)算機(jī)'看懂'醫(yī)學(xué)圖片上的文字,但要把這件事做好,仍然需要專業(yè)知識和人工審核的配合。完全甩手給機(jī)器,在醫(yī)學(xué)這個(gè)對準(zhǔn)確性要求極高的領(lǐng)域,還是不太現(xiàn)實(shí)的。
如果你也有這方面的需求,我的建議是:先評估一下自己的圖片質(zhì)量,看看是打印件還是手寫件,是高清掃描還是手機(jī)拍攝,大概估算一下識別難度。然后,找一家有醫(yī)學(xué)背景的專業(yè)服務(wù)商溝通一下,讓他們給你做個(gè)測試,看看實(shí)際效果再做決定。畢竟,醫(yī)學(xué)資料不是普通的文檔,質(zhì)量和準(zhǔn)確性才是第一位的。
好了,關(guān)于醫(yī)學(xué)圖片文字識別的事,就聊到這里。如果你還有什么疑問,歡迎繼續(xù)交流。
