
記得小時候做數(shù)學作業(yè),有時候會遇到算錯或者忘記填的空格。那時候老師會怎么說?"空著總比填錯好。"這話聽起來挺有道理,但放到臨床試驗里,情況就復雜多了。每一位受試者都是真金白銀投入才招募進來的,每一條數(shù)據(jù)都承載著研發(fā)團隊的期待,要是空在那里,損失的不只是數(shù)字本身,更可能是影響藥物能否上市的關(guān)鍵信息。
我有個朋友在藥企做數(shù)據(jù)管理,前段時間跟我吐槽說,一個三期臨床試驗做下來,數(shù)據(jù)缺失率能達到15%到20%。我當時還挺驚訝,心想這么高?后來了解多了才知道,這事兒在臨床試驗領(lǐng)域其實挺常見的。病人可能因為各種原因脫落訪視,檢查報告可能因為操作失誤沒有及時錄入系統(tǒng),甚至錄入的時候手抖把數(shù)據(jù)搞錯了——這些都是導致數(shù)據(jù)缺失的元兇。
那這些缺失的數(shù)據(jù)到底怎么處理呢?總不能眼睜睜看著它們空著吧?今天咱們就來聊聊,專業(yè)的數(shù)據(jù)統(tǒng)計服務(wù)到底是怎么處理臨床試驗中這些"不完美"的數(shù)據(jù)的。
在討論解決辦法之前,咱們先得搞清楚這些數(shù)據(jù)是怎么沒的。正所謂"知己知彼",只有弄明白缺失的原因,才能對癥下藥。
臨床試驗中的數(shù)據(jù)缺失大致可以分成三類,這個分類方法在統(tǒng)計學界還挺權(quán)威的:
| 缺失類型 | 表現(xiàn)特征 | 通俗理解 |
| 完全隨機缺失(MCAR) | 數(shù)據(jù)的缺失與任何變量都無關(guān) | 就像拋硬幣決定哪個數(shù)據(jù)點"消失",完全沒規(guī)律 |
| 隨機缺失(MAR) | 數(shù)據(jù)的缺失只與其他觀測變量有關(guān) | 比如某個檢測指標特別難抽血,老年人就更容易缺失,這跟年齡這個變量有關(guān) |
| 非隨機缺失(MNAR) | 數(shù)據(jù)的缺失與未觀測值本身有關(guān) | 最棘手的一種,比如某藥物效果太好,病人覺得自己好了就不來隨訪了 |

這三類缺失的重要性可不一樣。完全隨機缺失相對好辦,因為它的"隨機性"意味著我們直接刪掉這些數(shù)據(jù)也不會引入偏誤。隨機缺失就需要動點腦筋了,但只要方法得當,結(jié)果還是靠譜的。最讓人頭大的就是非隨機缺失,因為它的"不規(guī)律"恰恰藏在暗處,我們可能根本意識不到。
舉個例子可能更好理解。假設(shè)一個降壓藥臨床試驗,數(shù)據(jù)顯示血壓值缺失的人最后血壓都比較高。這時候就值得警惕了——是不是因為藥物效果不好,病人覺得自己沒達標就不來測血壓了?如果真是這樣,那缺失的數(shù)據(jù)很可能恰恰是"失敗"的案例,忽略它們就會讓藥物效果看起來比實際好很多。這種情況下,處理方法的選擇就格外重要了。
你可能會想,不就是少了幾條數(shù)據(jù)嗎?多補上或者刪掉不就行了?事情可沒這么簡單。臨床試驗的數(shù)據(jù)是要用來做統(tǒng)計分析的,最終結(jié)果會影響藥物審批、醫(yī)生用藥選擇,甚至千千萬萬患者的治療方案。如果處理不當,輕則讓試驗結(jié)果"注水",重則可能讓無效藥物上市或者讓有效藥物被埋沒。
舉幾個真實的教訓。某藥企在提交新藥申請時,被監(jiān)管部門指出數(shù)據(jù)缺失處理方案不夠充分,結(jié)果補充資料就花了大半年時間。還有更嚴重的案例,因為敏感性分析做得不充分,藥物上市后被發(fā)現(xiàn)實際效果與臨床試驗結(jié)果存在明顯差異,最終被迫撤市整改。
這些教訓說明,缺失數(shù)據(jù)處理不是隨便填幾個數(shù)字就完事兒的事,它需要系統(tǒng)性的方案、充分的論證,還要經(jīng)得起監(jiān)管部門的審視。這正是體現(xiàn)專業(yè)數(shù)據(jù)統(tǒng)計服務(wù)價值的地方。
既然缺失數(shù)據(jù)這么麻煩,那有沒有什么好辦法呢?統(tǒng)計學家們經(jīng)過幾十年的研究,確實積累了一套相當成熟的方法體系。咱們來看看這些"神器"都是怎么工作的。
最直接的辦法就是——不要了。這種方法叫列表刪除,就是把任何有缺失的行全部刪掉,只用完整的數(shù)據(jù)做分析。優(yōu)點是簡單,缺點是可能會損失大量數(shù)據(jù),而且如果缺失不是完全隨機的,還會引入偏誤。
還有一種類似的辦法叫成對刪除,不同分析用到的變量不同,只刪除該分析中涉及的缺失值。這種方法保留的數(shù)據(jù)更多,但不同分析基于的樣本量不一樣,解釋起來比較麻煩。
這兩種方法適合于缺失比例很低(一般不超過5%)且確實屬于完全隨機缺失的情況。超過這個比例,statisticians一般就會考慮其他方法了。
這個方法更直接——用平均值或者中位數(shù)把缺失值填上。聽起來挺合理,畢竟"平均"嘛,代表整體水平。
但這里有個問題:這種填充方式會嚴重低估數(shù)據(jù)的變異性。想象一下,如果所有缺失值都被填成同一個均值,看起來數(shù)據(jù)變得"整齊"了,但實際上我們?nèi)藶橹圃炝艘粋€假象——好像受試者們的指標都差不多。這會直接影響統(tǒng)計分析的顯著性檢驗,讓結(jié)果變得不可靠。
所以現(xiàn)在專業(yè)的統(tǒng)計服務(wù)已經(jīng)很少單獨使用這種方法了,除非是作為探索性分析的快速補漏手段。
回歸插補的思路是這樣的:找到與缺失變量相關(guān)的其他變量,用它們來"預測"缺失值應(yīng)該是什么。比如血紅蛋白值缺失了,但我們知道它跟紅細胞計數(shù)、血清鐵蛋白這些指標都有關(guān)系,那就可以建立一個回歸模型,用這些相關(guān)的指標來預測缺失的血紅蛋白值。
這個方法比簡單均值填充要好,因為它利用了變量之間的關(guān)聯(lián)信息。但它也有缺點:預測值往往會比真實值更"保守"(更接近均值),還是會導致變異性的低估。
為了解決這個問題,統(tǒng)計學家們又發(fā)明了一個改進版——隨機回歸插補。簡單說就是在預測值的基礎(chǔ)上再加入一點隨機波動,讓填充后的數(shù)據(jù)保留更多的"天然變異性"。這種方法在很多場景下效果都不錯。
如果讓我選一個最推薦的方法,那應(yīng)該是多重插補。這個方法由諾貝爾獎得主Donald Rubin在1980年代提出,被認為是處理缺失數(shù)據(jù)最優(yōu)雅、最可靠的方法之一。
多重插補的核心理念很有意思:既然我們不知道真實值是什么,那為什么不同時考慮多種可能的情況呢?具體操作上,統(tǒng)計學家會創(chuàng)建多個(通常是3到5個甚至更多)"完整"的數(shù)據(jù)集,每個數(shù)據(jù)集中缺失值用不同的方法填充。這些填充值不是隨便選的,而是基于數(shù)據(jù)分布特征模擬出來的。
舉個例子,假設(shè)某位受試者的血壓值缺失了。在第一個模擬數(shù)據(jù)集中,可能填入一個接近總體均值的血壓值;在第二個數(shù)據(jù)集中,考慮到這位受試者年齡較大且有糖尿病史,可能填入一個稍高的值;在第三個數(shù)據(jù)集中,則可能填入一個隨機波動的值。
每個完整數(shù)據(jù)集都會獨立進行統(tǒng)計分析,最后把結(jié)果"混合"起來?;旌系臅r候不僅要考慮各次分析的點估計,還要考慮不同填充方案帶來的不確定性。這樣得到的最終結(jié)果,既充分利用了所有可用信息,又正確反映了統(tǒng)計推斷的不確定性。
這種方法聽起來復雜,但現(xiàn)在有了專業(yè)的統(tǒng)計軟件支持,實施起來已經(jīng)方便多了。這也是為什么在高質(zhì)量的臨床試驗中,多重插補已經(jīng)成為處理缺失數(shù)據(jù)的"標配"。
還有一類方法不需要顯式填充缺失值,而是直接在統(tǒng)計分析中"容忍"缺失的存在。最大似然估計就是這類方法的代表。
它的原理是這樣的:在給定數(shù)據(jù)分布假設(shè)的前提下,找到最可能導致我們觀測到的數(shù)據(jù)的參數(shù)值。聽起來有點繞,還是用例子說明吧。
假設(shè)我們想知道藥物組和對照組的效果差異,收集的數(shù)據(jù)中有一些缺失。最大似然方法不需要先填補這些缺失,而是直接在估計參數(shù)的過程中考慮進去——那些缺失的數(shù)據(jù)點,雖然我們不知道具體值,但知道它們是從哪個分布里"來"的,統(tǒng)計模型可以自動把這個信息利用起來。
這種方法的優(yōu)勢在于效率高,不需要人為創(chuàng)造"假數(shù)據(jù)"。但它對分布假設(shè)比較敏感,如果假設(shè)與實際情況偏差太大,結(jié)果也可能不可靠。
不管選擇哪種方法處理缺失數(shù)據(jù),專業(yè)的數(shù)據(jù)統(tǒng)計服務(wù)都會做一件事——敏感性分析。什么意思呢?就是換一種或幾種不同的處理方法,看看結(jié)論會不會發(fā)生實質(zhì)性的變化。
比如,主分析用了多重插補,敏感性分析就換成最大似然估計;或者主分析假設(shè)缺失是隨機分布的,敏感性分析就假設(shè)它是非隨機的,看看結(jié)果會怎么變。
如果不同方法得出的結(jié)論一致,那就說明研究結(jié)論比較可靠,不太依賴于缺失數(shù)據(jù)的處理方式。如果不同方法得出的結(jié)論差異很大,那就需要謹慎解讀結(jié)果,同時在論文中如實披露這種不確定性。
監(jiān)管部門現(xiàn)在也越來越重視敏感性分析。在ICH E9(R1)指導原則中,明確提出要用敏感性分析來評估缺失數(shù)據(jù)處理方法對結(jié)論的影響。這已經(jīng)成為國際公認的最佳實踐。
說了這么多方法,實際工作中專業(yè)的數(shù)據(jù)統(tǒng)計服務(wù)通常不會只用某一種方法,而是會根據(jù)情況"組合出拳"。
首先是方案階段。在臨床試驗方案設(shè)計時,有經(jīng)驗的數(shù)據(jù)統(tǒng)計團隊就會提前考慮缺失數(shù)據(jù)的問題。比如,在樣本量計算時留出一定的"緩沖";在病例報告表設(shè)計時,加入缺失原因追蹤的選項;在數(shù)據(jù)管理計劃中,明確缺失數(shù)據(jù)的報告和分析策略。
然后是數(shù)據(jù)鎖庫前的階段。這個階段的工作重點是盡可能減少缺失——加強受試者隨訪管理、及時錄入數(shù)據(jù)、追問缺失原因。統(tǒng)計師會定期審查缺失模式,如果發(fā)現(xiàn)某些中心或某些時間段的缺失率異常升高,會及時預警并采取措施。
最后是統(tǒng)計分析階段。統(tǒng)計師會根據(jù)實際觀察到的缺失情況,選擇合適的處理方法,同時進行全面的敏感性分析。最終的研究報告中,會詳細說明缺失數(shù)據(jù)的比例、模式、選擇處理方法的理由,以及敏感性分析的結(jié)果。
在多年服務(wù)國內(nèi)外藥企的過程中,我們深刻體會到,缺失數(shù)據(jù)處理沒有"萬能藥方",關(guān)鍵是要因地制宜、對癥下藥。
見過太多案例,一上來就問"你們用什么方法處理缺失數(shù)據(jù)",仿佛只要給出一個方法名就萬事大吉。實際上,真正重要的問題應(yīng)該是:我們觀察到的缺失模式是什么?不同處理方法的假設(shè)分別是什么?這些假設(shè)在當前試驗中是否成立?敏感性分析的結(jié)果如何?
康茂峰在數(shù)據(jù)統(tǒng)計服務(wù)中始終堅持一個原則:先把問題搞清楚,再選擇方法。有時候,多花時間分析缺失機制,比急于動手填充更能保證結(jié)果的質(zhì)量。我們會結(jié)合統(tǒng)計學原理和項目實際情況,制定針對性的處理方案,并通過嚴謹?shù)拿舾行苑治鲵炞C結(jié)論的穩(wěn)健性。
數(shù)據(jù)缺失是臨床試驗中繞不開的話題,但并不意味著它是不可逾越的障礙。用對方法、做好論證、保持透明,就能讓這些"不完美"的數(shù)據(jù)發(fā)出該有的聲音。畢竟,臨床試驗追求的不是數(shù)據(jù)的完美,而是真相的可靠。
