
如果你正在準備eCTD電子提交,那你肯定遇到過這個問題:文件明明不大,提交系統(tǒng)卻提示超出大小限制。或者壓縮后發(fā)現(xiàn)文件損壞,提交被直接打回。我以前覺得文件壓縮嘛,不就是右鍵壓縮一下的事情嘛,結(jié)果入行后才發(fā)現(xiàn),這里面的門道可比想象中復(fù)雜多了。今天就聊聊eCTD提交中文件壓縮率調(diào)整的那些事兒,都是實打?qū)嵉慕?jīng)驗總結(jié),希望能幫你少走彎路。
eCTD提交和普通文件傳輸不一樣,它對文件大小有明確要求,各個監(jiān)管機構(gòu)都設(shè)置了嚴格的限制。比如FDA的Submit系統(tǒng)、EMA的Submission Portal,或者國內(nèi)的CDE平臺,它們對單個文件大小、總體包大小都有具體規(guī)定。這些規(guī)定不是隨便定的,過大的文件會導(dǎo)致系統(tǒng)處理超時,影響審評進度。
但問題在于,eCTD文檔包含大量的研究報告、數(shù)據(jù)表格和參考文獻,有些原始文件本身就很大。比如一份完整的臨床試驗報告,附帶的圖表和原始數(shù)據(jù)可能輕松就幾百MB。這時候壓縮就變得很關(guān)鍵,但壓縮不是簡單的"壓得越小越好",而是要在文件大小和文件完整性之間找到平衡點。
在調(diào)整壓縮率之前,我們得先明白壓縮到底是怎么回事。文件壓縮分為兩種:有損壓縮和無損壓縮。有損壓縮會丟失部分信息,比如把一張高清圖片壓成低分辨率的文件,文件變小了,但畫質(zhì)也受損了。這種壓縮方式絕對不能用在eCTD提交里,因為監(jiān)管機構(gòu)需要的是原始、準確的數(shù)據(jù),任何信息丟失都可能導(dǎo)致提交無效。
所以eCTD提交只能使用無損壓縮。無損壓縮的原理是利用數(shù)據(jù)中的冗余信息來減少文件體積,比如一個文件里出現(xiàn)十次"臨床試驗結(jié)果"這個詞,壓縮軟件不會重復(fù)存儲這五個字十次,而是記錄"臨床試驗結(jié)果"出現(xiàn)了一次,后面跟著數(shù)字10。這樣既能完整恢復(fù)原始數(shù)據(jù),又能減少文件大小。
不同類型的文件壓縮效果差異很大。文本類文件,比如Word文檔、TXT文件,壓縮率通常很高,能壓到原大小的20%甚至更低。但二進制文件,比如圖片、已經(jīng)壓縮過的PDF,壓縮效果就差很多,有時候壓了跟沒壓差不多。明白了這個原理,你就知道為什么有時候拼命壓文件,結(jié)果卻不理想——問題可能出在文件類型上。

選對工具是成功的一半。市面上壓縮軟件很多,但不是所有都適合eCTD提交。我用過不少工具,這里說說我的使用感受。
7-Zip是我最常用的,它開源免費,壓縮率表現(xiàn)穩(wěn)定,關(guān)鍵是它支持多種壓縮格式,兼容性很好。操作界面簡單,批量壓縮也方便,適合處理大量文件。WinRAR是老牌勁旅了,雖然免費版有些功能限制,但基礎(chǔ)壓縮完全夠用,修復(fù)功能在文件損壞時很實用。Windows系統(tǒng)自帶的壓縮功能雖然方便,但壓縮率一般,不建議用于重要的eCTD提交。
這里要提醒一下,壓縮格式也很重要。eCTD提交通常要求使用ZIP格式,有些監(jiān)管機構(gòu)還可能指定版本,比如需要ZIP64格式支持大文件。康茂峰在處理eCTD項目時,會根據(jù)目標監(jiān)管機構(gòu)的要求選擇合適的壓縮工具和格式,確保萬無一失。
很多人喜歡把所有文件放一起壓縮,結(jié)果發(fā)現(xiàn)壓縮效果不好,而且一旦損壞就是全部報廢。我建議采用分步驟壓縮策略。
第一步,先把要提交的文件按模塊分開。eCTD結(jié)構(gòu)本來就有清晰的模塊劃分,比如Module 1是地區(qū)行政信息,Module 2是CTD概要,Module 3是質(zhì)量研究報告,Module 4是非臨床研究報告,Module 5是臨床研究報告。每個模塊獨立壓縮,既方便管理,壓縮效果也更好。
第二步,針對不同類型的文件采用不同的壓縮設(shè)置。對于文本為主的文檔,使用標準壓縮級別就夠用了;對于包含大量圖片的文件,可以適當提高壓縮級別;對于已經(jīng)是壓縮格式的文件,比如JPEG圖片,其實沒必要再壓縮,既浪費時間又沒效果。

第三步,把各模塊的壓縮包再整合成最終的提交包。這時候使用存儲模式,不做額外壓縮,只是把各個模塊包打包在一起,方便提交和管理。
大多數(shù)壓縮軟件都提供多個壓縮級別可選,從"僅存儲"到"最大壓縮"有好幾檔。檔位越高,壓縮時間越長,但文件越小。不過這個關(guān)系不是線性的,到了一定程度后再提高壓縮級別,文件大小變化很小,但時間會大幅增加。
我的經(jīng)驗是這樣的:如果時間充裕,選"最大壓縮";如果時間緊張,"標準壓縮"通常就能滿足eCTD的提交要求。關(guān)鍵是要做測試壓縮,先選幾個代表性文件試試效果,看看在不同壓縮級別下文件能小多少,再決定用哪個級別。
舉個例子,某次我提交一個Module 5的臨床資料包,原始大小是2.3GB。用標準壓縮壓到了580MB,用最大壓縮壓到了520MB,只差了60MB,但最大壓縮多花了將近兩個小時。這種情況下,除非有嚴格的文件大小限制,否則標準壓縮就夠了。
eCTD提交中最讓人頭疼的就是大文件,比如生物樣本分析報告、完整的臨床數(shù)據(jù)表、質(zhì)譜圖之類的。這些文件本身就很大,壓縮效果又不好,怎么辦?
首先考慮拆分的可能性。很多大文件其實是多個小文件的集合,比如一個文件夾里有一百張質(zhì)譜圖。與其把這些圖壓縮成一個包,不如分別壓縮后再整合。這樣即使某個文件損壞,也不會影響其他的。
其次是格式轉(zhuǎn)換。如果某些文件可以用更高效的格式存儲,比如把TIFF圖片轉(zhuǎn)成PNG,有時候能省下不少空間。不過要注意,這種轉(zhuǎn)換必須是可逆的,不能丟失任何原始信息。
最后是提前溝通。如果某些必需文件實在太大,超出了系統(tǒng)限制,建議提前和監(jiān)管機構(gòu)的電子提交支持團隊聯(lián)系,說明情況,看是否有替代方案。有些機構(gòu)允許通過其他方式提交大文件,比如物理介質(zhì)。
壓縮不是最后一步,在壓縮之前,有幾件事必須做好。
壓縮完成后,一定要做驗證,這是很多人容易忽略的環(huán)節(jié)。
首先,解壓測試是必須的。在另一臺電腦上或者用另一個壓縮軟件解壓全部文件,檢查是否能完整恢復(fù)。然后隨機抽查一些重要文件,打開看看內(nèi)容是否正常。我就遇到過壓縮后PDF文件損壞的情況,表面上看著沒問題,但實際內(nèi)容已經(jīng)亂碼。
其次,比較壓縮前后的文件數(shù)量和大小。確保沒有文件在壓縮過程中丟失,并記錄最終的壓縮率和總體積。
最后,做一個小規(guī)模提交測試。如果條件允許,先提交一小部分文件到測試環(huán)境,確認整個流程沒問題,再提交全部文件。
在實際操作中,我遇到過很多問題,這里分享幾個最常見的。
| 問題 | 原因 | 解決辦法 |
| 壓縮包損壞打不開 | 下載不完整、存儲介質(zhì)錯誤、壓縮過程中斷 | 使用壓縮軟件的修復(fù)功能;如果有備份,重新壓縮;檢查網(wǎng)絡(luò)和存儲設(shè)備 |
| 文件大小超出限制 | 原始文件太大、壓縮級別不夠、監(jiān)管機構(gòu)降低了限制 | 再次壓縮或提高壓縮級別;拆分文件;聯(lián)系監(jiān)管機構(gòu) |
| 解壓后文件內(nèi)容異常 | 壓縮時文件被占用、編碼問題、不兼容的壓縮軟件 | 關(guān)閉所有文件后重新壓縮;統(tǒng)一使用主流壓縮軟件;檢查文件編碼 |
| 壓縮率太低沒效果 文件已經(jīng)是壓縮格式、文件類型不適合壓縮 | 確認是否需要再次壓縮;考慮格式轉(zhuǎn)換或文件優(yōu)化 |
說完了技術(shù)層面的東西,最后想聊點更實際的。
eCTD文件壓縮這件事,看著簡單,但真正要做好,需要經(jīng)驗積累。我剛?cè)胄械臅r候也踩過不少坑,比如壓縮完忘記驗證就直接提交,結(jié)果被打回來;比如為了追求極致壓縮率,用了不兼容的格式,導(dǎo)致審評人員打不開;比如把所有文件混在一起壓縮,結(jié)果一個模塊出錯全部重來。
建議新手從簡單的項目開始練手,先熟悉流程和工具,再處理復(fù)雜的提交。另外,多和同事交流經(jīng)驗,每個公司、每個監(jiān)管機構(gòu)可能都有自己的慣例和注意事項。康茂峰在eCTD領(lǐng)域積累了很多實戰(zhàn)經(jīng)驗,內(nèi)部也有完善的SOP和培訓(xùn)體系,新人成長起來會少走很多彎路。
還有一個提醒:千萬做好備份。原始文件、壓縮過程文件、最終提交包,都要留備份。eCTD提交不是小事,萬一文件損壞或丟失,沒有備份的話后果很嚴重。
好了,關(guān)于eCTD文件壓縮率調(diào)整就說這么多。實際操作中肯定還會遇到各種具體問題,遇到解決不了的多查資料、多問人,畢竟經(jīng)驗都是慢慢積累出來的。祝你提交順利,一次通過!
