
說到eCTD電子提交,我想先聊一個(gè)很多人可能不太注意,但實(shí)際上特別關(guān)鍵的問題——文件壓縮率。這事兒聽起來挺技術(shù)化的,但其實(shí)就是關(guān)系到你的申報(bào)資料能不能順利通過驗(yàn)證、能不能在規(guī)定時(shí)間內(nèi)完成上傳。我記得第一次接觸eCTD壓縮的時(shí)候,覺得這玩意兒挺玄乎的,后來折騰多了才發(fā)現(xiàn),它其實(shí)有章可循。今天就把這些年在康茂峰積累的一些經(jīng)驗(yàn)分享出來,希望能給正在摸索的朋友們一點(diǎn)參考。
eCTD提交跟普通文件上傳不太一樣,它對文件大小有明確要求,而且這個(gè)要求還不是死的,會(huì)根據(jù)不同地區(qū)的監(jiān)管機(jī)構(gòu)有所差異。就拿我們國內(nèi)來說,NMPA對單個(gè)文件的大小限制相對寬松一些,但如果你申報(bào)美國FDA或者歐洲EMA,那限制就嚴(yán)格多了。文件超大的話,系統(tǒng)直接給你打回來,連審核的機(jī)會(huì)都沒有。
我見過不少團(tuán)隊(duì)在申報(bào)截止日期前幾天才開始處理這個(gè)問題,然后發(fā)現(xiàn)有些PDF文件怎么壓都壓不到目標(biāo)大小,或者勉強(qiáng)壓進(jìn)去了但文件損壞打不開。這種情況真的很讓人崩潰,因?yàn)闀r(shí)間已經(jīng)不允許你重新做方案了。所以我覺得,與其等到火燒眉毛才開始著急,不如一開始就把壓縮率這件事考慮進(jìn)去。
另外還有一個(gè)點(diǎn)可能很多人沒想到——壓縮率其實(shí)跟文件質(zhì)量是掛鉤的。壓得太狠,文字模糊了,審批老師看不清楚你的資料內(nèi)容;壓得太松,文件傳不上去,同樣是問題。這里頭有個(gè)平衡點(diǎn),找到了就一帆風(fēng)順,找不到就處處碰壁。
在聊具體怎么調(diào)整壓縮率之前,咱們先來搞清楚它到底是怎么工作的。我盡量用大白話解釋,不說那些太專業(yè)的術(shù)語。
文件壓縮的核心原理其實(shí)挺簡單的——去除冗余信息。舉個(gè)例子,你有一個(gè)全是白色的頁面,其實(shí)只需要記錄"這里是白色"就行了,不用把每個(gè)像素點(diǎn)都存一遍。壓縮算法就是干這個(gè)的,它會(huì)分析文件里的重復(fù)模式,然后把相同的東西合并起來記錄,這樣文件體積就變小了。

eCTD資料包里最常見的文件類型是PDF,這個(gè)大家應(yīng)該都知道。PDF的壓縮主要分幾種方式:一種是無損壓縮,就是壓縮前后文件內(nèi)容完全一樣,只是體積變小了;另一種是有損壓縮,會(huì)有一定程度的畫質(zhì)損失,但壓縮比可以做得更高。
對于申報(bào)資料這種需要保持原始性的文件,我們原則上應(yīng)該優(yōu)先使用無損壓縮。但問題在于,有時(shí)候純無損壓縮達(dá)不到理想的壓縮效果,這時(shí)候就不得不在可接受的范圍內(nèi)做一些妥協(xié)。這就是為什么壓縮率調(diào)整是個(gè)技術(shù)活兒,不是簡單地點(diǎn)個(gè)按鈕就能搞定的。
知道了基本原理,接下來我們來看看哪些因素會(huì)影響最終的壓縮效果。了解這些,你就能更有針對性地去調(diào)整,而不是瞎嘗試。
這是一個(gè)很現(xiàn)實(shí)的問題——同樣是PDF,有的天生就好壓,有的天生就難壓。比如一個(gè)純文字的文檔,壓縮率可以做到很高,因?yàn)槲淖值闹貜?fù)模式很多,算法很容易找到優(yōu)化空間。但如果你一個(gè)文件里全是高精度掃描的彩頁圖片,那壓縮起來就費(fèi)勁了,因?yàn)閳D片本身已經(jīng)接近最優(yōu)存儲狀態(tài),再壓就容易出波紋或者色塊。
我有個(gè)建議,在制作原始文件的時(shí)候就開始考慮壓縮問題。比如,掃描件沒必要用600dpi的分辨率,300dpi對于大多數(shù)審批場景已經(jīng)足夠了。這樣從源頭上就能避免后續(xù)壓縮的困難。當(dāng)然,這話說著簡單,真正執(zhí)行的時(shí)候往往會(huì)遇到各種挑戰(zhàn),畢竟不是所有資料都能重新制作。
eCTD資料里最占空間的一般都是圖片和表格。表格相對好辦一些,能用文本形式展示的就別用截圖形式。文本表格不僅可以調(diào)整大小,還能被復(fù)制和檢索,壓縮效果也比圖片好得多。

圖片的處理就更有講究了。首先是格式選擇,對于線條圖、流程圖這類內(nèi)容,PNG格式通常比JPEG更合適,因?yàn)镻NG是無損的而且對這種色塊簡單的圖壓縮效果好;對于照片類的內(nèi)容,JPEG則是更好的選擇。其次是分辨率,我個(gè)人經(jīng)驗(yàn)是,用于屏幕查看的資料,72-150dpi就夠了;需要打印閱讀的,200-300dpi足夠。再高的話,實(shí)際意義不大,白白增加文件大小。
PDF文件里嵌入的字體也是占用空間的一個(gè)大戶。有些單位做資料的時(shí)候喜歡嵌入一堆特殊字體,覺得這樣顯得專業(yè)。殊不知每個(gè)字體文件可能就幾百KB甚至幾MB,積少成多就很可觀了。
我的建議是,如果沒有特殊需要,盡量使用系統(tǒng)自帶的通用字體,比如宋體、微軟雅黑這些。這些字體大部分電腦都有,PDF里不需要額外嵌入,自然就不占空間。如果確實(shí)需要用到特殊字體,那也要評估一下是否值得為了美觀犧牲壓縮率。
鋪墊了這么多,終于到了大家最關(guān)心的部分——具體怎么調(diào)整壓縮率。這部分我會(huì)介紹幾種常用的方法,從簡單到復(fù)雜,大家可以根據(jù)自己的情況選擇。
如果你日常工作中接觸PDF比較多,Adobe Acrobat應(yīng)該是你的老朋友了。它自帶的PDF優(yōu)化器是個(gè)很實(shí)用的工具,用起來也不復(fù)雜。
操作路徑大概是:打開PDF文件后,點(diǎn)擊"工具"-"掃描和OCR",然后找到"優(yōu)化掃描的PDF"這個(gè)選項(xiàng)。進(jìn)去之后你會(huì)看到好幾個(gè)設(shè)置項(xiàng),包括圖像壓縮、合并重復(fù)圖像、移除無用對象等等。對于eCTD提交來說,我通常會(huì)這樣調(diào)整——把彩色和灰度圖像的分辨率限制在150dpi,壓縮方式選擇自動(dòng),品質(zhì)選擇中等等。
這里有個(gè)小技巧你可以試試:先不要急著保存,用"另存為"的功能,在保存對話框里有一個(gè)"減少文件大小"的選項(xiàng),這個(gè)方法更快,適合批量處理。但要注意,這種快速壓縮是"一刀切"的,可能不會(huì)針對每個(gè)文件做最優(yōu)化處理。
有時(shí)候我們面對的不是一兩個(gè)文件,而是一個(gè)完整的eCTD資料包,上百個(gè)PDF需要統(tǒng)一處理。這種情況下,逐個(gè)手動(dòng)調(diào)整就太慢了,批量處理工具就派上用場了。
市面上的PDF處理工具很多,功能大同小異,主要看你的使用習(xí)慣。需要提醒的是,涉及到申報(bào)資料這種敏感信息,最好選擇本地化部署的方案,避免把機(jī)密文件傳到云端服務(wù)器去。康茂峰在處理這類需求的時(shí)候,通常會(huì)建立一套標(biāo)準(zhǔn)化的批量處理流程,既保證效率,又確保安全性。
批量處理的關(guān)鍵是設(shè)置統(tǒng)一的壓縮策略。比如規(guī)定所有產(chǎn)品圖片統(tǒng)一壓縮到指定分辨率,所有文檔統(tǒng)一使用某種壓縮級別。這樣既能保證壓縮效果的一致性,又能大大提高工作效率。當(dāng)然,統(tǒng)一的策略不可能照顧到所有特殊情況,所以處理完之后最好再抽查幾個(gè)重點(diǎn)文件,確認(rèn)壓縮質(zhì)量沒有問題。
有些文件比較特殊,用常規(guī)方法壓縮效果不佳,需要單獨(dú)處理。我列舉幾個(gè)常見的情況,看看有沒有你遇到過的。
第一種是掃描版文件。很多企業(yè)的歷史資料是掃描成PDF保存的,這類文件通常比較大,因?yàn)閽呙杓举|(zhì)上是圖片。壓縮的時(shí)候要注意平衡清晰度和文件大小。我的經(jīng)驗(yàn)是,先嘗試降低分辨率,如果效果不好,可以考慮轉(zhuǎn)換為黑白模式——因?yàn)榇蠖鄶?shù)申報(bào)資料里的掃描件都是文字類內(nèi)容,黑白模式完全夠用,而且壓縮比可以做得非常高。
第二種是包含復(fù)雜表格的PDF。表格里的線條和文字混在一起,壓縮算法有時(shí)候處理不好,會(huì)出現(xiàn)表格線斷裂或者文字模糊的情況。對于這類文件,我會(huì)建議先把表格部分截圖保存為圖片,然后用圖片編輯器適當(dāng)壓縮后再插回去。雖然麻煩一點(diǎn),但效果通常比直接壓縮整個(gè)PDF要好。
壓縮完成了并不等于就完事了,你還得驗(yàn)證一下效果怎么樣。這里說的驗(yàn)證不僅僅是確認(rèn)文件大小達(dá)標(biāo)了,更重要的是確認(rèn)文件內(nèi)容沒有受到影響。
首先要做的是功能性檢查——打開壓縮后的PDF,看看能不能正常瀏覽、搜索、復(fù)制內(nèi)容。我見過有些文件壓縮過度,導(dǎo)致文字變成了圖片格式,無法復(fù)制也無法搜索,這種情況在eCTD提交中是可以接受的,但如果表格數(shù)據(jù)無法復(fù)制,可能會(huì)給審批老師帶來不便。
檢查的時(shí)候要注意幾個(gè)重點(diǎn)頁面:封面、目錄、關(guān)鍵圖表、重要數(shù)據(jù)的表格。這些頁面如果出了問題,很容易被發(fā)現(xiàn)。如果是批量處理的文件,建議隨機(jī)抽取幾個(gè)不同類型的文件檢查一下,確保整體質(zhì)量沒問題。
如果有條件的話,把壓縮后的文件和原始文件放在一起對比一下。尤其是那些包含重要信息的頁面,看看文字是否清晰可讀、圖片是否還能準(zhǔn)確傳達(dá)內(nèi)容、表格數(shù)據(jù)是否完整。
這個(gè)對比工作看似繁瑣,其實(shí)很有必要。我就遇到過一件事:某個(gè)文件壓縮后大小確實(shí)達(dá)標(biāo)了,但有一張關(guān)鍵的質(zhì)量標(biāo)準(zhǔn)圖變得模糊不清,上面的小字完全看不清。還好在提交前發(fā)現(xiàn)了這個(gè)問題,及時(shí)做了處理。試想一下,如果這份資料到了審批老師手里,關(guān)鍵信息卻看不清,那麻煩可就大了。
聊了這么多方法,最后來說說實(shí)際工作中經(jīng)常遇到的問題和應(yīng)對思路。
這事兒聽起來奇怪,但確實(shí)會(huì)發(fā)生。原因通常是原始文件已經(jīng)經(jīng)過很好的優(yōu)化了,再次壓縮不僅沒有去除冗余,反而因?yàn)閴嚎s算法添加的元數(shù)據(jù)而變大了。遇到這種情況,我的建議是不要重復(fù)壓縮,直接使用原始文件。
如果某個(gè)文件特別頑固,怎么調(diào)整參數(shù)都達(dá)不到目標(biāo)大小,那就得從根本上想辦法了。最直接的方法是拆分——把這個(gè)大文件拆成幾個(gè)小文件分別處理。在eCTD結(jié)構(gòu)中,這種拆分是被允許的,只要在目錄和鏈接中做好對應(yīng)就行。
另一個(gè)思路是重新制作原始文件。比如原本是高分辨率的掃描件,可以考慮用較低的分辨率重新掃描;原本是嵌入字體的特殊排版,可以改成通用字體。這些方法可能需要花費(fèi)更多時(shí)間,但能從源頭上解決問題。
用批量工具處理大量文件時(shí),偶爾會(huì)出現(xiàn)質(zhì)量不穩(wěn)定的情況,有的文件壓縮效果好,有的就不太理想。解決這個(gè)問題的方法是建立質(zhì)量抽查機(jī)制——每批處理完后,隨機(jī)抽取一定比例的文件檢查,發(fā)現(xiàn)問題及時(shí)調(diào)整壓縮策略。
另外,批量處理的參數(shù)設(shè)置要留有余地。不要把參數(shù)設(shè)置得太激進(jìn),否則容易出現(xiàn)批量翻車的情況。寧可多花點(diǎn)時(shí)間處理,也不要為了趕進(jìn)度而冒險(xiǎn)。
eCTD文件壓縮這事兒,說難不難,說簡單也不簡單。關(guān)鍵在于理解它的原理,然后根據(jù)自己的實(shí)際情況選擇合適的方法。我這些年在康茂峰接觸了大量的申報(bào)項(xiàng)目,有一個(gè)很深的體會(huì):很多問題如果能在前期做好準(zhǔn)備,后面就會(huì)少很多麻煩。
比如說,在制作原始文件的時(shí)候就考慮壓縮的需求,在提交前預(yù)留充足的時(shí)間進(jìn)行檢查和調(diào)整,這些看似不起眼的準(zhǔn)備工作,往往能讓你在最后階段從容很多。相反,如果總是臨時(shí)抱佛腳,就容易手忙腳亂,出錯(cuò)的概率也會(huì)增加。
希望這篇文章能給你帶來一些啟發(fā)。如果你有什么經(jīng)驗(yàn)或者疑問,歡迎一起交流。申報(bào)這條路,大家一起走,才能走得更穩(wěn)當(dāng)。
