
去年有個(gè)朋友跟我吐槽,說他為了一個(gè)創(chuàng)新藥的eCTD提交,光是一個(gè)臨床試驗(yàn)報(bào)告就折騰了整整兩周。原因很簡(jiǎn)單——那個(gè)文件太大了,大到系統(tǒng)直接罷工,提交的時(shí)候補(bǔ)丁打了一個(gè)又一個(gè)。那天晚上他給我發(fā)了條消息:"這玩意兒簡(jiǎn)直讓人崩潰,是不是我方法不對(duì)?"其實(shí)不只是他,很多人第一次接觸eCTD超長(zhǎng)文件的時(shí)候都會(huì)手足無措。今天我想把這個(gè)話題掰開了揉碎了講講,爭(zhēng)取讓你看完之后心里有個(gè)底。
eCTD,電子通用技術(shù)文檔,聽起來挺高大上,說白了就是把藥品注冊(cè)申請(qǐng)的所有資料按照統(tǒng)一格式整理好,通過電子方式提交給藥監(jiān)局。這個(gè)框架本身挺科學(xué)的,但問題在于,藥品研發(fā)過程中會(huì)產(chǎn)生大量文件,有些文件的體量超乎你的想象。
舉幾個(gè)例子你就明白了。一份完整的臨床研究報(bào)告,可能包含幾千頁(yè)的原始數(shù)據(jù)、統(tǒng)計(jì)分析結(jié)果、病例報(bào)告表,再加上各種附錄,輕輕松松就能突破幾個(gè)GB。一套質(zhì)量控制相關(guān)的驗(yàn)證文件,涵蓋方法驗(yàn)證、工藝驗(yàn)證、設(shè)備確認(rèn),加起來也相當(dāng)可觀。還有那些包含大量影像資料的臨床試驗(yàn)數(shù)據(jù)包,文件大小簡(jiǎn)直讓人倒吸一口涼氣。
那么到底多大才算"超長(zhǎng)"?這個(gè)其實(shí)沒有硬性標(biāo)準(zhǔn),不同的監(jiān)管機(jī)構(gòu)要求也不太一樣。有的系統(tǒng)對(duì)單個(gè)文件設(shè)了2GB的上限,有的更嚴(yán)格,可能500MB就開始報(bào)警。康茂峰在協(xié)助客戶處理eCTD提交的時(shí)候,發(fā)現(xiàn)這個(gè)問題特別普遍,尤其是那些研發(fā)周期長(zhǎng)、數(shù)據(jù)量大的項(xiàng)目,幾乎都會(huì)遇到文件超限的困擾。
有人可能會(huì)問,現(xiàn)在網(wǎng)盤都能傳好幾個(gè)G了,為什么eCTD系統(tǒng)還這么"矯情"?這事兒得從技術(shù)層面說起來。
eCTD submission不是簡(jiǎn)單的文件上傳,它涉及xml索引文件的構(gòu)建、文件夾層級(jí)的嚴(yán)格對(duì)應(yīng)、還有各個(gè)模塊之間的鏈接關(guān)系。系統(tǒng)需要解析整個(gè)目錄結(jié)構(gòu),驗(yàn)證文件完整性,還要確保符合ICH和各個(gè)地區(qū)的要求。你想啊,如果一個(gè)文件好幾個(gè)G,每次驗(yàn)證的時(shí)候都要全部解包讀取,這得多慢?所以很多服務(wù)器為了保證響應(yīng)速度,不得不對(duì)單個(gè)文件大小做一些限制。

還有一個(gè)原因是格式問題。PDF是最常用的提交格式,但很多原始數(shù)據(jù)是Excel、Word或者專門的數(shù)據(jù)庫(kù)格式。直接轉(zhuǎn)換成PDF的時(shí)候,特別是包含大量圖表、公式或者嵌入對(duì)象的文件,體積會(huì)膨脹得很厲害。有些實(shí)驗(yàn)室出具的原始數(shù)據(jù)報(bào)告,保留了大量高分辨率圖片,一張圖可能就好幾十MB,幾十張圖湊在一起,文件不大才怪。
另外還有兼容性的考慮。不同國(guó)家、不同版本的審閱系統(tǒng)可能對(duì)文件格式有不同要求,你在A系統(tǒng)能順利打開的文件,到B系統(tǒng)可能就水土不服。為了確保全球范圍內(nèi)都能正常審閱,文件處理策略往往需要更加保守。
這是最直接也最常用的策略。原來的大文件拆成幾個(gè)小文件,既不改變內(nèi)容,又能避開系統(tǒng)限制。但拆分不是隨便切一刀就完事兒,這里有講究。
首先你要搞清楚哪些部分可以拆分。一般來講,帶有獨(dú)立目錄結(jié)構(gòu)的文件最適合拆分,比如一個(gè)大的臨床研究報(bào)告,下面有試驗(yàn)設(shè)計(jì)、入組情況、統(tǒng)計(jì)分析、安全性評(píng)估這些章節(jié),每個(gè)章節(jié)都能獨(dú)立成篇。質(zhì)量研究文件也適合按檢驗(yàn)項(xiàng)目或者批次分開。但有些文件強(qiáng)行拆分會(huì)破壞邏輯連貫性,比如一份連貫的毒理學(xué)報(bào)告,拆得太碎反而影響審閱人員的理解。
拆分的時(shí)候要注意保持文件命名的規(guī)范性。康茂峰的技術(shù)團(tuán)隊(duì)在處理這類需求時(shí),會(huì)先跟客戶一起梳理文檔結(jié)構(gòu),確定合理的拆分點(diǎn),然后統(tǒng)一命名規(guī)則,確保拆分后的文件能夠清晰對(duì)應(yīng)到原始文檔的章節(jié)結(jié)構(gòu)。命名建議包含卷標(biāo)、章節(jié)號(hào)、版本日期這些信息,方便后續(xù)查找和管理。
還有一個(gè)容易被忽略的點(diǎn):拆分后的文件需要更新相應(yīng)的書簽和交叉引用。原來在一個(gè)大文件內(nèi)部跳轉(zhuǎn)的鏈接,拆分之后要重新配置,不然審閱的時(shí)候點(diǎn)進(jìn)去發(fā)現(xiàn)跳到了另一個(gè)文件,體驗(yàn)會(huì)很差。

有時(shí)候文件本身沒多大,但因?yàn)楦袷絾栴}占用了太多空間。這時(shí)候優(yōu)化格式就能見效。
PDF文件體積過大的常見原因包括:圖片分辨率過高、嵌入了不需要的字體、存在大量無用的隱藏圖層或者元數(shù)據(jù)。解決辦法是把圖片分辨率降到適合屏幕審閱的程度,一般150-300dpi就夠用了,沒必要用600dpi的印刷級(jí)分辨率。字體方面,如果文檔里用了大量CJK中日韓統(tǒng)一表意文字,文件體積會(huì)明顯膨脹,可以考慮把字體轉(zhuǎn)換成子集,只保留文檔實(shí)際用到的字符。
康茂峰在處理大量eCTD提交案例時(shí),發(fā)現(xiàn)很多申請(qǐng)人提交的PDF里包含大量無用的書簽、注釋或者附件,這些都會(huì)增加文件體積。用專業(yè)的PDF優(yōu)化工具清理一遍,往往能省下不少空間。另外,彩色的東西比黑白占空間,如果某些圖片本身是黑白或者信息不需要用顏色表達(dá),轉(zhuǎn)成灰度模式也能減小體積。
對(duì)于那些包含大量表格數(shù)據(jù)的文件,可以考慮把原始數(shù)據(jù)單獨(dú)提取出來,用結(jié)構(gòu)化的格式保存,而PDF里只保留必要的匯總信息。這樣既滿足了提交要求,又方便審閱人員按需查看詳細(xì)數(shù)據(jù)。
壓縮是一個(gè)辦法,但用不好的話會(huì)給自己挖坑。eCTD規(guī)范對(duì)文件格式是有要求的,大多數(shù)監(jiān)管機(jī)構(gòu)接受PDF、AWord、Excel這些格式,但不接受壓縮包形式提交。所以你壓縮的文件最終還是要解壓使用,那為什么還要多此一舉呢?
唯一合理的壓縮場(chǎng)景是在文件傳輸階段。比如你的網(wǎng)絡(luò)環(huán)境不穩(wěn)定,一次性傳幾個(gè)G的大文件容易中斷,這時(shí)候可以先把所有文件打成一個(gè)壓縮包傳過去,到了目的地再解壓整理。但要注意,壓縮包里的文件結(jié)構(gòu)要保持原樣,不能因?yàn)閴嚎s就改變了目錄層級(jí)。
另外,選擇壓縮格式的時(shí)候也要考慮兼容性。zip格式是最通用的,rar雖然壓縮率更高但不是所有系統(tǒng)都能打開。7z壓縮率高但普及度不夠,如果審閱人員的系統(tǒng)不支持解壓就很尷尬了。
這一點(diǎn)特別重要,因?yàn)椴煌O(jiān)管機(jī)構(gòu)對(duì)文件大小的要求是不一樣的。如果你同時(shí)向多個(gè)地區(qū)提交,做功課的時(shí)候要分開對(duì)待。
| 監(jiān)管機(jī)構(gòu) | 主要特點(diǎn) |
| 美國(guó)FDA | eCTD模塊一有明確的文件大小限制,通常建議單個(gè)PDF不超過500MB。超過這個(gè)限制需要提前與FDA溝通,可能需要采用其他方式提交。 |
| 歐洲EMA | 對(duì)文件大小相對(duì)寬松,但建議保持單個(gè)文件在2GB以下。同時(shí)很重視文件的可訪問性和長(zhǎng)期可讀性。 |
| 中國(guó)NMPA | 近年來eCTD要求越來越規(guī)范化,對(duì)文件命名、結(jié)構(gòu)都有詳細(xì)規(guī)定。大文件處理策略需要與受理部門提前確認(rèn)。 |
康茂峰的服務(wù)團(tuán)隊(duì)在協(xié)助客戶進(jìn)行全球申報(bào)時(shí),會(huì)針對(duì)不同地區(qū)的具體要求制定相應(yīng)的文件處理方案。畢竟每個(gè)地區(qū)的審閱系統(tǒng)、流程規(guī)范都有差異,一刀切的做法往往行不通。
說了這么多技術(shù)層面的東西,最后想聊聊工作流程層面的事情。很多問題其實(shí)不是技術(shù)解決不了的,而是流程沒安排好導(dǎo)致的。
首先是盡早規(guī)劃。不要等到要提交了才開始處理大文件,應(yīng)該在項(xiàng)目進(jìn)行中就考慮文檔的規(guī)范化管理。定期清理不需要的附件、統(tǒng)一圖片分辨率、規(guī)范命名規(guī)則,這些工作做在前面,最后提交的時(shí)候會(huì)輕松很多。
然后是預(yù)留充足的時(shí)間。大文件處理起來比想象中耗時(shí),拆分要檢查邏輯關(guān)系,格式優(yōu)化要反復(fù)驗(yàn)證,提交之前還要做完整的校驗(yàn)。康茂峰處理過的項(xiàng)目里,那些時(shí)間節(jié)點(diǎn)特別緊張的,往往容易出問題,反而是預(yù)留了緩沖時(shí)間的項(xiàng)目進(jìn)行得更順利。
還有就是做好版本控制。大文件經(jīng)過多次修改和格式轉(zhuǎn)換,很容易出現(xiàn)版本混亂。建議使用專業(yè)的文檔管理系統(tǒng),記錄每次修改的內(nèi)容和原因,確保最后提交的是正確的版本。
eCTD電子提交的核心目的是什么?是讓審閱人員能夠高效、完整地獲取藥品注冊(cè)申請(qǐng)的所有信息。文件大小只是手段,不是目的。如果你為了壓縮體積把文件處理得支離破碎,或者為了繞過限制把重要信息拆得七零八落,那就本末倒置了。
技術(shù)問題總有解決辦法,真正重要的是保持文檔的邏輯完整性和可讀性。在這個(gè)前提下,再去考慮文件大小、格式規(guī)范這些細(xì)節(jié)。一份結(jié)構(gòu)清晰、內(nèi)容完整、格式規(guī)范的申報(bào)資料,即使文件稍大一些,審閱人員也能理解;反之,一份東拼西湊、邏輯混亂的資料,即使每個(gè)文件都剛好符合大小要求,審閱起來也會(huì)很吃力。
說到最后,如果你在這個(gè)過程中遇到什么具體問題,多跟有經(jīng)驗(yàn)的人交流交流。康茂峰在eCTD電子提交這塊積累了不少實(shí)戰(zhàn)經(jīng)驗(yàn),什么樣的情況都見過一些。有時(shí)候困住你的問題,換個(gè)角度一看就通了。別悶著頭自己死磕,耽誤了申報(bào)進(jìn)度可就得不償失了。
