
前幾天跟一個(gè)做臨床試驗(yàn)的朋友聊天,他跟我抱怨說現(xiàn)在最讓人頭疼的就是數(shù)據(jù)傳輸這個(gè)問題。你說一個(gè)臨床試驗(yàn),從篩選受試者到最后的數(shù)據(jù)庫鎖定,中間產(chǎn)生的數(shù)據(jù)量有多大?光是病例報(bào)告表里的數(shù)據(jù)就夠讓人眼花繚亂的了,更別說還有各種實(shí)驗(yàn)室檢查報(bào)告、醫(yī)學(xué)影像、隨訪記錄這些輔助資料。 這些數(shù)據(jù)怎么從各個(gè)研究中心安全、準(zhǔn)確地傳到數(shù)據(jù)中心,里面門道可太多了。今天我就跟大伙兒聊聊這個(gè)話題,說說我了解到的一些東西。
說白了,試驗(yàn)數(shù)據(jù)傳輸就是把臨床試驗(yàn)過程中產(chǎn)生的各種數(shù)據(jù),從原始記錄的地方轉(zhuǎn)移到統(tǒng)一管理的地方。這個(gè)過程看起來簡單,做起來可不容易。你想啊,一個(gè)多中心試驗(yàn)可能有幾十家醫(yī)院參與,每家醫(yī)院的電子病歷系統(tǒng)都不一樣,數(shù)據(jù)格式也是五花八門。有的是結(jié)構(gòu)化數(shù)據(jù),有的可能只是掃描件,還有的甚至是手寫的原始記錄。
記得之前聽一位前輩打過一個(gè)比方,說這數(shù)據(jù)傳輸就像是在不同方言區(qū)之間傳遞信息。你得先把每個(gè)人的"方言"翻譯成統(tǒng)一的"普通話",然后再安全地送到達(dá)目的地。這話我覺得特別形象,確實(shí)就是這么個(gè)道理。
一個(gè)完整的試驗(yàn)數(shù)據(jù)傳輸流程,通常包含數(shù)據(jù)提取、格式轉(zhuǎn)換、安全傳輸和完整性校驗(yàn)這幾個(gè)關(guān)鍵環(huán)節(jié)。每一步都不能馬虎,因?yàn)閿?shù)據(jù)一旦出錯(cuò),后面的分析結(jié)果可能就全都不靠譜了。
數(shù)據(jù)提取是整個(gè)傳輸鏈條的起點(diǎn)。臨床運(yùn)營團(tuán)隊(duì)需要和各個(gè)研究中心建立明確的溝通機(jī)制,確保源數(shù)據(jù)的及時(shí)獲取。這里說的源數(shù)據(jù)可不只是最終錄入系統(tǒng)的那些數(shù)值,還包括最初的原始文件。比如受試者的知情同意書復(fù)印件、入組篩選記錄、每次訪視的醫(yī)生筆記,還有那些影像學(xué)檢查的膠片或者電子版文件。

在這個(gè)階段,數(shù)據(jù)管理員的工作特別瑣碎。他們需要和研究者反復(fù)確認(rèn)數(shù)據(jù)的完整性,有時(shí)候一份報(bào)告缺個(gè)簽字,有時(shí)候一個(gè)檢查結(jié)果漏了頁碼,這些看似小問題都可能成為日后數(shù)據(jù)質(zhì)疑的根源。我認(rèn)識(shí)的數(shù)據(jù)管理員朋友經(jīng)常開玩笑說,他們的工作就是"找茬",但這個(gè)"茬"找得值,因?yàn)殛P(guān)系到整個(gè)試驗(yàn)的質(zhì)量。
這應(yīng)該是技術(shù)含量最高的一步了。不同系統(tǒng)出來的數(shù)據(jù)格式可能完全不一樣,有的是XML格式,有的是CSV,還有的是數(shù)據(jù)庫直接導(dǎo)出的專有格式。臨床運(yùn)營團(tuán)隊(duì)需要把這些五花八門的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的標(biāo)準(zhǔn)格式。
說到標(biāo)準(zhǔn)化,業(yè)內(nèi)比較常用的是CDISC標(biāo)準(zhǔn),也就是臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會(huì)制定的那套規(guī)范。像SDTM(研究數(shù)據(jù)表格模型)和ADaM(分析數(shù)據(jù)模型)這兩個(gè)標(biāo)準(zhǔn),現(xiàn)在已經(jīng)被很多藥監(jiān)部門接受了。不過說實(shí)話,真正能把這些標(biāo)準(zhǔn)用好并不容易,需要既懂業(yè)務(wù)又懂技術(shù)的復(fù)合型人才。
我記得有位業(yè)內(nèi)專家說過,數(shù)據(jù)標(biāo)準(zhǔn)化這件事,要么在最開始就下功夫,要么就在后面付出十倍的代價(jià)去彌補(bǔ)。這話我深有體會(huì),前期把格式統(tǒng)一這件事做好,后面的數(shù)據(jù)傳輸和統(tǒng)計(jì)分析都能順暢很多。
臨床試驗(yàn)數(shù)據(jù)涉及受試者隱私,安全性是重中之重。數(shù)據(jù)傳輸過程中必須采用加密技術(shù),通常用的是SSL或者TLS協(xié)議,確保數(shù)據(jù)在網(wǎng)絡(luò)傳輸過程中不被截獲或者篡改。有些申辦方還會(huì)要求使用VPN專線,進(jìn)一步降低數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
除了傳輸過程的安全,訪問控制也很關(guān)鍵。誰能接觸到這些數(shù)據(jù),誰只能看不能改,這些權(quán)限都要?jiǎng)澐值们迩宄Mǔ5淖龇ㄊ腔诮巧脑L問控制,不同崗位的人看到的數(shù)據(jù)范圍和操作權(quán)限都不一樣。現(xiàn)在很多臨床研究系統(tǒng)都支持多因素認(rèn)證,比如再輸入一次動(dòng)態(tài)密碼才能登錄,這又增加了一道安全保障。

數(shù)據(jù)傳過去了,怎么知道有沒有丟包、有沒有出錯(cuò)呢?這就需要進(jìn)行完整性校驗(yàn)。常用的方法有校驗(yàn)和比對、邏輯核查,還有人工抽查。
校驗(yàn)和比對是最基本的方法。發(fā)送方先計(jì)算數(shù)據(jù)的校驗(yàn)和,接收方收到數(shù)據(jù)后再重新計(jì)算一遍,兩個(gè)數(shù)值一致說明數(shù)據(jù)完整。邏輯核查則是檢查數(shù)據(jù)之間的邏輯關(guān)系是否合理,比如入組日期是不是在知情同意日期之后,年齡和出生日期是不是能對得上。人工抽查就是隨機(jī)挑一些病例出來,把傳輸后的數(shù)據(jù)和原始記錄逐項(xiàng)核對,看看有沒有不一致的地方。
根據(jù)我了解到的,目前臨床試驗(yàn)中常用的數(shù)據(jù)傳輸方式主要有這么幾種,每種方式各有優(yōu)缺點(diǎn),選擇的時(shí)候要看具體的項(xiàng)目需求和資源條件。
| 傳輸方式 | 適用場景 | 優(yōu)點(diǎn) | 局限性 |
| EDC系統(tǒng)直傳 | 使用電子數(shù)據(jù)采集系統(tǒng)的項(xiàng)目 | 實(shí)時(shí)性強(qiáng),減少中間環(huán)節(jié) | 依賴網(wǎng)絡(luò)穩(wěn)定性 |
| 文件傳輸協(xié)議 | 大批量離線數(shù)據(jù)傳輸 | 支持大文件,穩(wěn)定性好 | 需要專門的技術(shù)支持 |
| 云平臺(tái)中轉(zhuǎn) | 多中心協(xié)作項(xiàng)目 | 便于統(tǒng)一管理,擴(kuò)展性好 | 需要評估供應(yīng)商的安全資質(zhì) |
| 物理介質(zhì)拷貝 | 網(wǎng)絡(luò)條件受限的項(xiàng)目 | 不受網(wǎng)絡(luò)影響 | 效率低,需要嚴(yán)格監(jiān)管鏈 |
這里我想特別提一下物理介質(zhì)傳輸這種方式。雖然聽起來有點(diǎn)"原始",但在網(wǎng)絡(luò)條件實(shí)在不好的地區(qū),這反而是最可靠的選擇。記得有個(gè)項(xiàng)目在偏遠(yuǎn)山區(qū)做,那邊的網(wǎng)絡(luò)信號(hào)時(shí)有時(shí)無,最后就是用加密硬盤定期把數(shù)據(jù)拷貝出來,再專人送到數(shù)據(jù)中心。這種方式雖然效率低點(diǎn),但總比數(shù)據(jù)傳一半斷掉強(qiáng)。
數(shù)據(jù)傳輸?shù)馁|(zhì)量控制不是某一個(gè)環(huán)節(jié)的事,而是要貫穿整個(gè)過程。從數(shù)據(jù)產(chǎn)生的那一刻起,一直到最終入庫歸檔,每個(gè)步驟都要有相應(yīng)的質(zhì)控措施。
首先是數(shù)據(jù)錄入時(shí)的質(zhì)量控制。很多EDC系統(tǒng)都內(nèi)置了邏輯核查規(guī)則,比如正常值范圍的校驗(yàn)、日期邏輯的檢查,還有必填項(xiàng)的提示。這些規(guī)則設(shè)置得越完善,后期需要人工處理的問題就越少。當(dāng)然,規(guī)則設(shè)置也需要經(jīng)驗(yàn),太多了會(huì)影響錄入效率,太少了又起不到把關(guān)作用,這個(gè)平衡需要慢慢摸索。
其次是傳輸過程中的狀態(tài)追蹤。好的數(shù)據(jù)傳輸系統(tǒng)應(yīng)該能實(shí)時(shí)顯示每一批數(shù)據(jù)的傳輸狀態(tài),成功的、失敗的、正在進(jìn)行的,都要一目了然。一旦發(fā)現(xiàn)傳輸失敗,要能自動(dòng)重試或者及時(shí)報(bào)警,讓技術(shù)人員盡快處理。有的系統(tǒng)還能記錄重試次數(shù)和失敗原因,方便后續(xù)排查問題。
最后是數(shù)據(jù)入庫后的審核。數(shù)據(jù)到了數(shù)據(jù)中心,并不是就萬事大吉了。數(shù)據(jù)管理員還需要對入庫存檔的數(shù)據(jù)進(jìn)行抽查驗(yàn)證,看看數(shù)據(jù)格式對不對、數(shù)值有沒有異常、缺失值處理得合不合理。這一步通常會(huì)在數(shù)據(jù)庫鎖定前進(jìn)行,確保最終鎖定的數(shù)據(jù)庫是干凈、可靠的。
在實(shí)際操作中,臨床運(yùn)營團(tuán)隊(duì)經(jīng)常會(huì)遇到一些棘手的問題。我整理了幾個(gè)比較典型的,看看有沒有你遇到過的。
網(wǎng)絡(luò)不穩(wěn)定導(dǎo)致傳輸中斷,這在基層醫(yī)院特別常見。應(yīng)對策略是選擇支持?jǐn)帱c(diǎn)續(xù)傳的工具,把大文件拆分成小批次傳輸,必要時(shí)準(zhǔn)備備用傳輸通道。
數(shù)據(jù)格式不兼容,特別是一些老舊系統(tǒng)導(dǎo)出的數(shù)據(jù)。解決辦法是建立標(biāo)準(zhǔn)化的數(shù)據(jù)模板,在數(shù)據(jù)提取前就統(tǒng)一規(guī)范,必要時(shí)開發(fā)專門的轉(zhuǎn)換程序。
數(shù)據(jù)質(zhì)疑處理不及時(shí),有時(shí)候數(shù)據(jù)傳過去才發(fā)現(xiàn)有問題,再反饋回去處理,來來回回耽誤時(shí)間。比較好的做法是在傳輸前增加一輪預(yù)審核,先把明顯的問題解決掉,再進(jìn)行正式傳輸。
人員操作不規(guī)范,這個(gè)其實(shí)是最難解決的。因?yàn)樵俸玫牧鞒蹋绻麍?zhí)行的人不按規(guī)矩來,還是會(huì)出問題。所以定期培訓(xùn)、權(quán)限管控、審計(jì)追蹤這些手段都得跟上。
說到臨床數(shù)據(jù)傳輸這個(gè)領(lǐng)域,現(xiàn)在越來越講究專業(yè)分工了。以前可能一個(gè)運(yùn)營團(tuán)隊(duì)既要管入選進(jìn)度,又要管數(shù)據(jù)錄入,還要管數(shù)據(jù)傳輸,精力有限難免顧此失彼。現(xiàn)在很多申辦方都開始引入專業(yè)的第三方服務(wù),把數(shù)據(jù)傳輸這個(gè)環(huán)節(jié)交給專門的公司來做。
像康茂峰這樣專注于臨床運(yùn)營服務(wù)的機(jī)構(gòu),在數(shù)據(jù)傳輸方面就積累了不少經(jīng)驗(yàn)。他們做的事情其實(shí)就是幫助申辦方搭建一個(gè)高效、穩(wěn)定、合規(guī)的數(shù)據(jù)傳輸體系。從前期和各家醫(yī)院的系統(tǒng)對接,到中間的格式轉(zhuǎn)換處理,再到傳輸過程的質(zhì)控和最終的歸檔管理,形成了一個(gè)完整的閉環(huán)。這種專業(yè)化的服務(wù)確實(shí)能幫申辦方省不少心,畢竟讓專業(yè)的人做專業(yè)的事,效率和質(zhì)量都有保障。
我覺著以后這個(gè)趨勢會(huì)越來越明顯。隨著臨床試驗(yàn)的規(guī)模越來越大,數(shù)據(jù)量越來越多,對傳輸效率和準(zhǔn)確性的要求也越來越高,單靠申辦方自己的團(tuán)隊(duì)可能很難兼顧得過來。專業(yè)的人做專業(yè)的事,這是一個(gè)社會(huì)分工的必然結(jié)果。
好了,今天就聊到這里。臨床試驗(yàn)數(shù)據(jù)傳輸這個(gè)話題看似技術(shù)性強(qiáng),但說到底還是為了保證數(shù)據(jù)的真實(shí)、完整、可靠。畢竟這些數(shù)據(jù)最后是要用來評價(jià)藥物安全性和有效性的,馬虎不得。希望這篇文章能給正在做臨床運(yùn)營的你一些參考,如果你有什么想法或者遇到什么問題,歡迎一起交流探討。
