
說實話,我在剛接觸臨床運營這個領(lǐng)域的時候,對"數(shù)據(jù)清理"這四個字是完全懵的。總覺得這是IT部門或者數(shù)據(jù)分析師才需要操心的事情,跟我們做現(xiàn)場運營的有什么關(guān)系?但后來慢慢發(fā)現(xiàn),臨床試驗的數(shù)據(jù)清理,簡直就是整個試驗的"地基工程"。地基不牢,后面蓋再多高樓都是白搭。今天就想用比較直白的方式,跟大家聊聊臨床運營服務里數(shù)據(jù)清理到底是怎么一回事。
臨床數(shù)據(jù)清理,簡單來說,就是把臨床試驗過程中采集到的各種數(shù)據(jù)進行"體檢"和"修正"的過程。你想啊,一個臨床試驗從篩選受試者開始,到隨訪結(jié)束,整個過程中會產(chǎn)生多少數(shù)據(jù)?受試者的基本信息、入組條件、每次訪視的檢查結(jié)果、不良事件的記錄、合并用藥的情況……這些數(shù)據(jù)由不同的人在不同的時間點錄入系統(tǒng),出錯幾乎是必然的事情。
我舉個例子你就明白了。比如某受試者的生日,錄入的時候可能少寫了一位數(shù)字;再比如某個實驗室指標,正常值范圍應該是0-100,錄入的時候?qū)懗闪?00;還有可能同一個不良事件,不同的研究護士用了不同的表述方式。這些看似不起眼的小問題,如果不在數(shù)據(jù)清理階段發(fā)現(xiàn)和解決,到最后統(tǒng)計分析的時候就會出大亂子。
所以數(shù)據(jù)清理不是簡單的"改錯字",而是一套系統(tǒng)化的流程,目的是確保最終用于分析的數(shù)據(jù)是準確、完整、一致的。這項工作通常從數(shù)據(jù)錄入就開始,一直持續(xù)到數(shù)據(jù)庫鎖定之前,是臨床運營中貫穿始終的一項工作。
你可能會想,數(shù)據(jù)有點小問題有那么嚴重嗎?我給你講個真實的場景你就知道了。
曾經(jīng)有一個臨床試驗,數(shù)據(jù)庫鎖定之后,統(tǒng)計師做分析的時候發(fā)現(xiàn)某中心的療效數(shù)據(jù)異常地好,好到有點不真實。后來一查才發(fā)現(xiàn),那里的研究人員把療效評估的分數(shù)算錯了,好幾個受試者的分數(shù)都被高估了。因為數(shù)據(jù)清理階段沒有及時發(fā)現(xiàn)這個問題,這個中心的數(shù)據(jù)不得不全部剔除,重新進行分析。這不僅浪費了大量的人力物力,還延誤了整個試驗的進度。
從更大的層面說,臨床試驗的數(shù)據(jù)是要提交給藥監(jiān)局審評的。如果數(shù)據(jù)質(zhì)量有問題,輕則要求補充資料,重則直接被否決。一個試驗的投入往往是幾千萬甚至上億,如果因為數(shù)據(jù)問題通不過審評,那損失可就太大了。
另外,數(shù)據(jù)清理也是對受試者負責的一種體現(xiàn)。受試者冒著風險參加臨床試驗,他們的數(shù)據(jù)必須被準確記錄和妥善處理。如果因為我們的疏忽導致數(shù)據(jù)錯誤,進而影響藥物的療效和安全性評估,那就太對不起這些受試者了。
臨床運營中的數(shù)據(jù)清理一般包括以下幾個環(huán)節(jié),我按自己的理解來拆解一下。
任何工作都一樣,事先有個計劃會事半功倍。數(shù)據(jù)清理計劃通常在試驗啟動階段就要制定,里面會明確規(guī)定要用什么樣的數(shù)據(jù)清理流程、誰來負責、怎么處理各類問題、什么時候完成哪些里程碑。這份計劃會根據(jù)試驗的具體情況進行調(diào)整,比如入組速度快的試驗,數(shù)據(jù)清理的壓力就會大一些,需要配置更多的人員和資源。
我記得有個項目,入組比預期快了一倍,結(jié)果數(shù)據(jù)清理的壓力驟增,團隊連續(xù)加班了好一陣子。從那以后,我們在制定計劃的時候都會留一些余量,不再把時間卡得那么死。

這一步是數(shù)據(jù)清理的核心環(huán)節(jié)。所謂數(shù)據(jù)驗證,就是檢查數(shù)據(jù)是否符合預設的規(guī)則和邏輯。比如年齡不能是負數(shù)、入組日期不能在篩選日期之前、實驗室數(shù)值必須在合理范圍內(nèi)等等。這些規(guī)則會被提前設置在電子數(shù)據(jù)采集系統(tǒng)(EDC)里,當研究人員錄入數(shù)據(jù)時,系統(tǒng)會自動進行一些基礎(chǔ)的校驗。
但系統(tǒng)只能檢查一些簡單的規(guī)則,更復雜的問題就需要人工核查了。比如某受試者的血壓在隨訪間突然飆升,這時候就要去看是不是真的有問題,還是測量錯誤。再比如某個受試者的用藥記錄顯示他在使用試驗藥物的同時還在使用違禁藥物,這時候就需要確認是不是錄入錯誤。
這里要提一下,臨床運營團隊在數(shù)據(jù)清理中扮演的角色非常重要。因為我們最了解試驗方案和實際操作情況,能夠判斷某個數(shù)據(jù)異常是真實發(fā)生的還是錄入錯誤。比如我們之前遇到過一個案例,受試者的心電圖顯示有異常,但查詢該受試者的既往病歷后發(fā)現(xiàn),這個異常一直存在,并不是試驗期間新發(fā)的。系統(tǒng)沒辦法自動識別這種背景信息,這就需要運營人員來做判斷。
當發(fā)現(xiàn)數(shù)據(jù)有問題時,數(shù)據(jù)管理員會向研究中心發(fā)出數(shù)據(jù)查詢(Query)。這個查詢會清楚地指出問題所在,要求研究中心進行澄清或修正。
發(fā)出查詢這個環(huán)節(jié)其實挺考驗溝通技巧的。查詢描述要準確、清晰,不要讓研究中心的同事看了一頭霧水。同時語氣也要友好,畢竟大家都是合作關(guān)系。我見過一些查詢寫得特別生硬,結(jié)果對方不愛回復,數(shù)據(jù)清理進度就被拖慢了。
研究中心收到查詢后,需要在規(guī)定的時間內(nèi)進行回復。回復的內(nèi)容可能是確認數(shù)據(jù)正確并提供解釋,也可能是修正原來的錄入錯誤。這個往返過程可能會持續(xù)好幾輪,直到所有問題都得到解決。
我自己的經(jīng)驗是,及時跟進查詢回復非常重要。有的研究中心事情多,可能會忘記回復查詢,這時候就需要定期去催一催。但催也要講究方法,不能讓人家覺得你在指責他們。通常我會先問一下有沒有什么困難需要幫助,然后再說查詢的事情,這樣大家心理上都更容易接受。
有些數(shù)據(jù)問題不是簡單的對錯問題,需要醫(yī)學背景的人員來進行判斷。比如不良事件與試驗藥物的關(guān)系判定、實驗室異常值是否有臨床意義、受試者的依從性評估等等。這些都需要醫(yī)學經(jīng)理或者醫(yī)學監(jiān)查員來參與審核。
醫(yī)學審核通常會在數(shù)據(jù)清理的后期進行,以確保所有的醫(yī)學判斷都是合理的。這個過程也需要和數(shù)據(jù)清理團隊密切配合,把醫(yī)學上的判斷轉(zhuǎn)化為具體的操作指令。
當所有的數(shù)據(jù)查詢都得到了回復、所有的質(zhì)疑都被解決之后,數(shù)據(jù)清理就進入了最后的沖刺階段。這時候要進行一輪全面的審查,確認沒有遺漏的問題。通常會生成一份數(shù)據(jù)清理報告,記錄在整個過程中發(fā)現(xiàn)了多少問題、解決了多少、還有多少懸而未決。
數(shù)據(jù)庫鎖定(Database Lock)是一個重要的里程碑。鎖定之后,數(shù)據(jù)就不能再修改了。所以在此之前,必須確保數(shù)據(jù)已經(jīng)達到了足夠的質(zhì)量水平。這個過程需要申辦方、監(jiān)查團隊、數(shù)據(jù)管理團隊等多方共同確認,大家都要簽字表示認可。
在臨床運營的數(shù)據(jù)清理過程中,我們遇到的數(shù)據(jù)問題大概可以分成幾類。
第一類是錄入錯誤,這是最常見的問題。比如把日期寫錯了、把數(shù)字的位置顛倒了、把文字輸錯了。這類問題通常比較容易被發(fā)現(xiàn)和修正,因為邏輯上就不通順。
第二類是邏輯不一致。比如受試者說自己沒有高血壓,但既往史里卻記錄了高血壓病史;再比如試驗藥物的發(fā)放記錄顯示發(fā)了三盒藥,但回收記錄只收回了兩盒。這類問題需要結(jié)合多方面的信息來判斷,不是看一眼就能解決的。
第三類是信息缺失。比如某個訪視的檢查結(jié)果沒有錄入、某個不良事件缺了結(jié)束日期、受試者的知情同意書沒有簽署日期。這類缺失可能會影響數(shù)據(jù)的完整性,需要及時補充。

第四類是理解偏差。不同的人對同一個問題可能有不同的理解。比如方案里寫的"既往用藥"到底包不包括保健品?維生素算不算合并用藥?這些問題如果不在方案里定義清楚,錄入的時候就會各行其是,后期清理起來特別麻煩。
干了這么多年臨床運營,我總結(jié)了一些提高數(shù)據(jù)清理效率的經(jīng)驗,跟大家分享一下。
首先是預防為主。與其等錯誤發(fā)生了再去改,不如在源頭就減少錯誤的發(fā)生。在啟動會上,要給研究中心的同事們把方案的要求講清楚,最好能舉一些具體的例子。在實際操作中,也要及時和研究中心溝通,發(fā)現(xiàn)苗頭不對的時候早點糾正,不要等問題積累成一大堆再來清理。
然后是及時跟進。數(shù)據(jù)清理最怕的就是拖延。今天能清的查詢不要留到明天,今天能解決的問題不要拖到下周。我習慣每周都看一下各個研究中心的查詢情況,對那些回復慢的中心重點關(guān)注一下,有時候一個電話打過去,比發(fā)十封郵件都管瑞。
還有就是善用工具。現(xiàn)在的EDC系統(tǒng)功能都很強大,有很多自動化的功能可以用。比如設置自動預警,當某個數(shù)據(jù)超過預設范圍時系統(tǒng)自動提醒;再比如定期生成數(shù)據(jù)質(zhì)量報告,讓你能清楚地看到整體的清理進度。另外,康茂峰這樣的專業(yè)服務商也有自己開發(fā)的數(shù)據(jù)清理工具和流程,能夠幫助提升效率。
最后是團隊協(xié)作。數(shù)據(jù)清理不是一個人或一個部門的事情,需要運營、醫(yī)學、統(tǒng)計、數(shù)據(jù)管理等多個角色共同努力。定期開開會,溝通一下進度和困難,大家一起想辦法,效率會高很多。
數(shù)據(jù)清理這項工作,做起來確實挺繁瑣的。有時候面對成百上千條查詢,感覺頭都大了。但轉(zhuǎn)念一想,我們做的這些工作,最終都是為了確保臨床試驗的結(jié)果真實可靠,讓患者能用上安全有效的藥物,這份成就感也是實實在在的。
臨床運營就是這樣一個需要細心和耐心的工作。數(shù)據(jù)清理可能不如入組、隨訪那些環(huán)節(jié)那么有存在感,但它就像人體的經(jīng)絡一樣,雖然看不見,卻不可或缺。把數(shù)據(jù)清理做好了,后面的分析、報告、審評才能順利進行,整個臨床試驗的質(zhì)量才能有保障。
如果你也在做臨床運營相關(guān)的工作,希望這篇文章能給你帶來一些啟發(fā)。咱們這行就是要不斷學習、不斷積累經(jīng)驗,才能把工作做得越來越好。
