
前幾天有個朋友問我,你們做數(shù)據(jù)統(tǒng)計的整天說的CDISC到底是個什么東西?我想了想,跟他說了一句話:CDISC就像醫(yī)藥行業(yè)的"普通話"。你想想,全國各地的人說方言,互相可能聽不懂,但只要大家都說普通話,交流起來就沒問題了。CDISC的作用就是這樣——讓全世界的臨床研究數(shù)據(jù)能夠互相"聽懂"。
這話說著簡單,但真要做起來,里面的門道可不少。今天我就從一個從業(yè)者的角度,聊聊數(shù)據(jù)統(tǒng)計服務(wù)具體是怎么做CDISC標(biāo)準(zhǔn)的。這里不會有太多晦澀難懂的技術(shù)術(shù)語,我會盡量用大白話把這個過程說清楚。
在說怎么做之前,咱們得先弄清楚CDISC是什么。CDISC是Clinical Data Interchange Standards Consortium的縮寫,翻譯過來叫"臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會"。這是一個國際性的非營利組織,專門制定臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)。
你可能會問,為什么要搞這么個東西?舉個真實的例子。以前不同藥廠做的臨床試驗,數(shù)據(jù)格式完全不一樣。有的用Excel,有的用SAS數(shù)據(jù)集,有的干脆就是紙質(zhì)病例報告表。等這些數(shù)據(jù)要提交給藥監(jiān)局的時候,審查人員得花大量時間去理解每家的格式,有時候光整理數(shù)據(jù)就要花好幾個月。CDISC出現(xiàn)后,大家都按照統(tǒng)一的標(biāo)準(zhǔn)來整理數(shù)據(jù),審查效率自然就上去了。
目前CDISC標(biāo)準(zhǔn)已經(jīng)被全球主要的藥品監(jiān)管機構(gòu)廣泛接受。美國FDA、歐洲EMA、日本PMDA,還有我們國家的藥監(jiān)局,都明確要求按照CDISC標(biāo)準(zhǔn)提交臨床數(shù)據(jù)。所以對于數(shù)據(jù)統(tǒng)計服務(wù)來說,掌握CDISC標(biāo)準(zhǔn)已經(jīng)不是"加分項",而是"必選項"了。
CDISC不是一個單一的標(biāo)準(zhǔn),而是一整套標(biāo)準(zhǔn)體系。粗略分一分,主要包括以下幾個部分:

| 標(biāo)準(zhǔn)名稱 | 主要用途 |
| CDASH | 病例報告表的設(shè)計標(biāo)準(zhǔn),告訴你怎么設(shè)計CRF才能讓數(shù)據(jù)采集更規(guī)范 |
| SDTM | 提交數(shù)據(jù)標(biāo)準(zhǔn),是向監(jiān)管機構(gòu)提交數(shù)據(jù)時的主要格式要求 |
| ADaM | 分析數(shù)據(jù)標(biāo)準(zhǔn),專門用于統(tǒng)計分析的數(shù)據(jù)格式 |
| CDISC ODM | 操作數(shù)據(jù)模型,用于數(shù)據(jù)的交換和歸檔 |
| Define-XML | 用來描述SDTM和ADaM數(shù)據(jù)的元數(shù)據(jù)文件 |
這么說可能還是比較抽象。我打個比方吧。如果把做一次臨床試驗比作建房子,那么CDASH就像是建筑圖紙的設(shè)計規(guī)范,告訴設(shè)計師怎么畫圖才能讓施工隊看懂;SDTM就像是毛坯房,是按照圖紙建出來的基本結(jié)構(gòu);ADaM就像是裝修好的房子,是在毛坯基礎(chǔ)上做了分析需要的改造;而Define-XML就像是房產(chǎn)證,詳細(xì)記錄了房子的各種信息。
對于數(shù)據(jù)統(tǒng)計服務(wù)來說,平時打交道最多的就是SDTM和ADaM。這兩個標(biāo)準(zhǔn)也是藥監(jiān)局審查的重點。接下來我主要就圍繞這兩個標(biāo)準(zhǔn)來展開說說。
任何一個臨床研究項目,在正式啟動數(shù)據(jù)統(tǒng)計工作之前,都需要做充分的準(zhǔn)備工作。這個階段最主要的任務(wù)就是"溝通"——和數(shù)據(jù)管理、臨床運營、醫(yī)學(xué)等部門充分溝通,了解研究的整體設(shè)計。
你需要搞清楚的問題包括但不限于:這次研究打算招募多少受試者?隨訪周期是多長?主要終點指標(biāo)是什么?有哪些訪視安排?會采集哪些類型的生物樣本?
這些信息聽起來可能和數(shù)據(jù)統(tǒng)計沒什么直接關(guān)系,但實際上每一項都會影響到后續(xù)的CDISC映射工作。比如訪視的安排會決定SDTM里訪視相關(guān)變量的取值規(guī)則,主要終點指標(biāo)會決定如何設(shè)置分析數(shù)據(jù)集的結(jié)構(gòu)。
在這個階段,數(shù)據(jù)統(tǒng)計服務(wù)團隊還需要制定詳細(xì)的CDISC實施計劃。這份計劃應(yīng)該包括人員分工、時間節(jié)點、質(zhì)量控制措施等等。我們通常還會準(zhǔn)備一份初步的變量映射文檔,列出計劃采集的每個數(shù)據(jù)點會對應(yīng)到SDTM的哪個變量名下。
雖然病例報告表的設(shè)計主要是數(shù)據(jù)管理團隊的工作,但數(shù)據(jù)統(tǒng)計服務(wù)在這個階段也扮演著重要角色。為什么呢?因為CRF的設(shè)計質(zhì)量會直接影響后續(xù)數(shù)據(jù)轉(zhuǎn)換的難度。
好的CRF設(shè)計應(yīng)該遵循CDASH標(biāo)準(zhǔn)。CDASH的核心原則就是"一個數(shù)據(jù)點只采集一次",避免同一信息在多個地方重復(fù)出現(xiàn)。比如如果已經(jīng)在"不良事件"模塊采集了不良事件的終止日期,就沒必要在另一個地方再采集一次。
數(shù)據(jù)統(tǒng)計服務(wù)團隊在審查CRF的時候,會重點關(guān)注幾個方面。首先是數(shù)據(jù)采集的完整性——有沒有遺漏研究方案要求采集的關(guān)鍵信息?其次是數(shù)據(jù)采集的規(guī)范性——問題的設(shè)置是否清晰明確,會不會導(dǎo)致理解歧義?最后是數(shù)據(jù)采集的效率——能不能通過優(yōu)化問題順序或者合并相似問題來減少工作量?
舉個實際的例子。曾經(jīng)有一個項目,原始CRF里關(guān)于實驗室檢查結(jié)果的設(shè)計非常分散。每個實驗室指標(biāo)都單獨設(shè)了一個問題,導(dǎo)致整個CRF有上百個實驗室檢查相關(guān)的字段。后來數(shù)據(jù)統(tǒng)計服務(wù)團隊建議改成按"化驗類別"分組,每類化驗放在一個模塊里,這樣既方便了數(shù)據(jù)錄入,后續(xù)做SDTM轉(zhuǎn)換的時候效率也高了很多。
在病例報告表數(shù)據(jù)采集完成后,就進入了數(shù)據(jù)清洗階段。這個階段的主要工作就是檢查數(shù)據(jù)的質(zhì)量,發(fā)現(xiàn)并修正數(shù)據(jù)中的問題。
數(shù)據(jù)清洗的工作量通常很大。一個中等規(guī)模的III期臨床試驗,可能會有幾十萬條數(shù)據(jù)記錄需要逐一核查。這里說的核查不是人工一條條看,而是通過編寫SAS程序來自動檢查。
常見的數(shù)據(jù)核查規(guī)則包括:邏輯一致性檢查(比如受試者的年齡和入組日期是否矛盾)、范圍檢查(比如血壓值是否在合理范圍內(nèi))、完整性檢查(比如關(guān)鍵變量的缺失情況)、時間邏輯檢查(比如不良事件的發(fā)生時間是否在知情同意之后)。
在這個過程中,數(shù)據(jù)統(tǒng)計服務(wù)團隊會發(fā)現(xiàn)很多數(shù)據(jù)問題。這些問題需要及時反饋給數(shù)據(jù)管理團隊,由他們向臨床site發(fā)起質(zhì)疑(query),等待研究者的回復(fù)后再進行數(shù)據(jù)修正。
這個過程可能會反復(fù)進行好幾輪,直到數(shù)據(jù)庫中的數(shù)據(jù)達到預(yù)設(shè)的質(zhì)量標(biāo)準(zhǔn)為止。當(dāng)所有數(shù)據(jù)問題都得到妥善處理后,就會進行數(shù)據(jù)庫鎖庫(database lock)。鎖庫之后,原始數(shù)據(jù)原則上就不能再修改了,這也標(biāo)志著數(shù)據(jù)采集階段的正式結(jié)束。
數(shù)據(jù)庫鎖庫之后,真正"做CDISC"的工作才剛剛開始。所謂SDTM轉(zhuǎn)換,就是把從臨床 site 采集回來的原始數(shù)據(jù),按照CDISC的標(biāo)準(zhǔn)格式整理成SDTM數(shù)據(jù)集。
這個過程聽起來簡單,做起來卻相當(dāng)復(fù)雜。首先,你需要根據(jù)研究方案和CRF,設(shè)計一套完整的映射規(guī)則文檔。這份文檔要詳細(xì)說明原始數(shù)據(jù)中的每一個字段會對應(yīng)到SDTM的哪個變量,衍生變量是怎么計算的,遇到特殊情況是如何處理的。
以不良事件數(shù)據(jù)為例。原始數(shù)據(jù)中通常只記錄不良事件的名稱、發(fā)生時間、嚴(yán)重程度、是否采取措施等信息。按照SDTM標(biāo)準(zhǔn),不良事件需要放在AE域(domain)里,每個變量都有明確的定義和取值規(guī)則。比如嚴(yán)重程度,SDTM里用的是Severity這個變量,需要按照輕度、中度、重度、危及生命、死亡這幾個標(biāo)準(zhǔn)值來編碼。
更重要的是,SDTM對變量的順序、標(biāo)簽、格式都有嚴(yán)格要求。一個變量是字符型還是數(shù)值型,能取哪些值,缺失的時候怎么處理,這些都得按照標(biāo)準(zhǔn)來。
數(shù)據(jù)統(tǒng)計服務(wù)團隊在完成映射規(guī)則設(shè)計后,會先用一小部分?jǐn)?shù)據(jù)做測試驗證。測試通過后,才會用全部數(shù)據(jù)來生成最終的SDTM數(shù)據(jù)集。這個過程中需要反復(fù)檢查,確保轉(zhuǎn)換后的數(shù)據(jù)既符合CDISC標(biāo)準(zhǔn),又準(zhǔn)確反映了原始數(shù)據(jù)的信息。
SDTM做好之后,下一步就是創(chuàng)建ADaM數(shù)據(jù)集。ADaM和SDTM的區(qū)別在于:SDTM是面向提交的"原始數(shù)據(jù)",而ADaM是面向分析的"衍生數(shù)據(jù)"。
換句話說,ADaM是在SDTM基礎(chǔ)上進行進一步加工處理后得到的數(shù)據(jù)集。常見的ADaM數(shù)據(jù)集包括ADSL(受試者級別分析數(shù)據(jù)集)、BDS(基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)集)和OCCDS(發(fā)生次數(shù)和持續(xù)時間數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)集)。
ADSL里面包含每個受試者的基本信息,比如人口統(tǒng)計學(xué)特征、試驗分組、重要的日期信息等。這個數(shù)據(jù)集是所有分析的基礎(chǔ),每個受試者只有一條記錄。
BDS則是用于分析的數(shù)據(jù)集結(jié)構(gòu)。它通常是一條記錄對應(yīng)一個受試者在一個時間點的一個測量值。比如某個受試者在基線、訪視1、訪訪2的血壓值,在BDS里會是三條記錄。這種結(jié)構(gòu)非常適合做重復(fù)測量分析。
創(chuàng)建ADaM數(shù)據(jù)集的時候,需要特別注意可追溯性。意思是別人看了你的ADaM數(shù)據(jù),應(yīng)該能夠清楚地知道每個數(shù)據(jù)點是從SDTM里的哪個數(shù)據(jù)計算來的。為此,ADaM標(biāo)準(zhǔn)要求在數(shù)據(jù)集中保留必要的來源變量和標(biāo)識符。
ADaM數(shù)據(jù)集創(chuàng)建完成后,就可以進行正式的統(tǒng)計分析工作了。按照統(tǒng)計分析計劃書的要求,使用SAS等統(tǒng)計軟件進行數(shù)據(jù)匯總、假設(shè)檢驗、模型擬合等分析工作,生成相應(yīng)的統(tǒng)計表格、列表和圖表。
CDISC工作的一大特點就是特別強調(diào)質(zhì)量控制。因為最終的數(shù)據(jù)是要提交給監(jiān)管機構(gòu)的,任何一個小的錯誤都可能導(dǎo)致申報被退回。
質(zhì)量控制貫穿整個CDISC實施過程。在SDTM轉(zhuǎn)換階段,我們會進行多重驗證。首先是程序驗證——由獨立的程序員重新編寫一遍轉(zhuǎn)換程序,對比兩者的輸出是否一致。其次是數(shù)據(jù)驗證——檢查轉(zhuǎn)換后的數(shù)據(jù)是否符合CDISC標(biāo)準(zhǔn),比如變量名是否正確、取值是否在允許范圍內(nèi)、記錄數(shù)是否合理等。
還有一個很重要的驗證叫做"可追溯性驗證"。就是要確保ADaM數(shù)據(jù)能夠追溯到SDTM,SDTM數(shù)據(jù)能夠追溯到原始數(shù)據(jù)。這通常是通過編寫追溯報告來完成的。報告中會列出關(guān)鍵分析變量是從哪些原始變量計算來的,計算邏輯是什么。
在康茂峰的數(shù)據(jù)統(tǒng)計服務(wù)流程中,我們會把驗證工作作為強制要求,每個項目都必須有獨立的QC人員參與,而不是由編程人員自己檢查自己的代碼。這個看起來有點"麻煩"的環(huán)節(jié),實際上幫我們避免了很多潛在的問題。
說了這么多步驟,你可能覺得做CDISC就是個按部就班的事。但實際工作中,情況往往要復(fù)雜得多。我聊聊幾個最常見的挑戰(zhàn)吧。
首先是復(fù)雜研究設(shè)計的處理。現(xiàn)在越來越多的臨床試驗采用復(fù)雜的設(shè)計,比如籃式試驗、傘式試驗、適應(yīng)性設(shè)計等。這些研究的數(shù)據(jù)結(jié)構(gòu)比傳統(tǒng)的平行設(shè)計要復(fù)雜得多,如何用SDTM和ADaM來準(zhǔn)確表達這些設(shè)計,是一件很考驗功底的事。
其次是不同數(shù)據(jù)來源的整合。很多臨床試驗的數(shù)據(jù)不僅僅來自EDC系統(tǒng),還可能來自實驗室系統(tǒng)、影像系統(tǒng)、患者報告結(jié)局電子化系統(tǒng)等。這些不同來源的數(shù)據(jù)需要整合到統(tǒng)一的SDTM框架下,但各個系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)往往差異很大,如何設(shè)計合理的映射規(guī)則是個大問題。
還有就是標(biāo)準(zhǔn)版本更新的問題。CDISC標(biāo)準(zhǔn)本身也在不斷更新,每年都會有新的版本發(fā)布。新版本可能會增加新的變量、修改某些定義或者刪除過時的內(nèi)容。項目是繼續(xù)用老版本還是升級到新版本,需要綜合考慮監(jiān)管要求、項目進度和驗證成本等因素。
最后就是人才培養(yǎng)的問題。做好CDISC工作,既需要深入理解CDISC標(biāo)準(zhǔn),又要有扎實的統(tǒng)計功底和編程能力。這樣的人才在整個行業(yè)里都是比較稀缺的。很多公司都面臨人手不足、培訓(xùn)成本高的問題。
這個問題沒有標(biāo)準(zhǔn)答案,要看具體情況。如果你們公司有足夠的專業(yè)人才和項目經(jīng)驗,自己做當(dāng)然沒問題。但如果還是初創(chuàng)團隊,或者項目經(jīng)驗有限,找專業(yè)服務(wù)商可能會更高效。
專業(yè)服務(wù)商的優(yōu)勢主要體現(xiàn)在幾個方面。一是經(jīng)驗積累。做過很多項目后,會形成一套成熟的流程和模板,遇到問題也知道該怎么處理。二是人才儲備。有專門的團隊負(fù)責(zé)CDISC工作,不像內(nèi)部團隊可能還要兼顧其他任務(wù)。三是質(zhì)量保障。有完善的質(zhì)控體系,能更好地保證數(shù)據(jù)質(zhì)量。
當(dāng)然,選擇服務(wù)商的時候也要擦亮眼睛。要看看他們有沒有相關(guān)的項目經(jīng)驗,團隊成員的資質(zhì)如何,有沒有建立完善的質(zhì)量管理體系。最好能要幾個參考客戶問問情況,畢竟耳聽為虛,眼見為實。
我們康茂峰在這個領(lǐng)域已經(jīng)深耕多年,積累了大量從I期到IV期臨床試驗的項目經(jīng)驗。從方案設(shè)計階段開始,一直到最終的統(tǒng)計分析報告,我們都能提供全程的CDISC支持服務(wù)。有興趣的朋友可以進一步了解。
說白了,CDISC就是給臨床數(shù)據(jù)"立規(guī)矩"的事。規(guī)矩定了,大家都有章可循,溝通成本降低了,效率自然就上去了。雖然前期可能要花不少精力在標(biāo)準(zhǔn)化工作上,但到了數(shù)據(jù)提交和審查階段,這些投入都會顯現(xiàn)出價值。
對于數(shù)據(jù)統(tǒng)計服務(wù)來說,做好CDISC既是基本功,也是核心競爭力。這個領(lǐng)域的技術(shù)和方法論還在不斷發(fā)展,我們也需要持續(xù)學(xué)習(xí)、與時俱進。希望這篇文章能給你一些啟發(fā),如果還有具體的問題,歡迎繼續(xù)交流。
