
做過醫藥注冊的朋友應該都有過這樣的經歷:精心準備好的中文PDF文檔,在自己電腦上打開明明一切正常,結果提交到eCTD系統后,審評人員打開看到的卻是一堆亂碼。那種心情,大概就像考試前檢查了三遍準考證,結果出門還是忘帶了。
亂碼這個問題,說大不大,說小不小,但一旦在正式提交時出現,往往意味著返工、延期,甚至可能影響注冊進度。我自己第一次遇到這個問題的時候也是一臉懵,后來接觸多了,發現這事兒其實有章可循。今天就把這些年積累的一些經驗分享出來,希望能幫到正在這條路上摸索的朋友。
要解決問題,首先得理解問題是怎么來的。PDF亂碼看起來是文件的問題,但根源往往在更早的環節。
最常見的原因是字體嵌入失敗。什么意思呢?PDF文件里顯示的字體其實不是內置在文件里的,而是引用了系統安裝的字體。如果制作PDF的時候沒有把中文字體"嵌入"進去,那么在另一臺沒有安裝相同字體的電腦上打開,操作系統就會用默認字體替換,而默認字體顯然不支持中文,結果就是滿眼的方塊和問號。這就好比你寫了一封中文信寄到國外,收信人不懂中文,只能根據自己的理解來猜內容,猜錯了也就亂了。
另一個常見原因是編碼方式不匹配。計算機里的文字都是用特定的編碼存儲的,比如UTF-8、GB2312、GBK這些。如果PDF里的文字在存儲時用了一種編碼,但閱讀軟件在解析時用了另一種編碼,那顯示出來的東西就完全對不上了。這種情況在跨平臺傳輸的時候特別常見,比如在Windows系統上生成的PDF傳到Mac上,或者在不同地區的服務器之間流轉。
還有一種情況是版本兼容問題。PDF這個格式經過了很多次版本更新,不同版本的閱讀器對特殊字符的處理方式可能存在差異。如果你的PDF是用新版本的標準制作的,但審評人員用的老版本閱讀器,可能就無法正確解析某些中文字符。

既然知道了原因,預防工作就有方向了。比起出了問題再補救,在源頭就把事情做好顯然更省心。
制作PDF的時候,一定要注意把字體嵌入進去。不同軟件的操作方式不太一樣,但核心邏輯是相似的。
用Adobe Acrobat Pro來做最終文件的話,在"文件"菜單里找到"屬性",然后在"字體"標簽頁下能看到當前文檔使用了哪些字體。如果發現有些字體后面沒有"已嵌入"的標記,那就得注意了。正確的做法是在生成PDF的時候就在軟件設置里勾選"嵌入所有字體"之類的選項。對于中文文檔,常用的宋體、黑體、楷體、仿宋這些系統自帶字體一般問題不大,但如果你用了某些特殊字體,比如方正或者漢儀的字體,就更得多留個心眼。
用Word轉PDF的話,Word 2010及以后的版本在另存為PDF時有個選項叫"符合ISO 19005-1標準(PDF/A)",勾選這個有助于解決兼容性問題。另外在"選項"->"保存"里也有"將字體嵌入文件"的選項,建議檢查一下是否選中。
這里要提醒一點,字體文件本身是有版權的,有些商業字體雖然你的電腦上安裝了,但并不一定允許嵌入到發布的PDF里。如果你的文檔會用于商業提交,最好確認一下所用字體的授權情況。這一點康茂峰在服務客戶的時候也會特別強調,合規不只是內容合規,細節同樣要注意。
對于需要從其他格式轉換來的PDF,比如從Excel或者PPT轉過來的,編碼設置就更重要了。轉換軟件通常會有編碼選項,務必確保選擇了正確的編碼方式。如果你的源文件是GBK編碼的,轉換時就得告訴軟件用同樣的編碼來解析,不然出來的文件肯定亂。
還有一種情況是源文件本身就存在問題。比如有些歷史遺留的文檔,當年是用很老的軟件做的,編碼方式可能不太規范。這種文件就算轉成PDF也可能留下隱患,如果時間允許的話,最好重新整理一遍源文件。

文件做好之后,不要急著提交,先在別的機器上測試一下效果。找一臺沒有安裝你電腦上那些字體的電腦,打開PDF看看顯示是否正常。如果條件允許,多試幾種不同的操作系統和閱讀器版本,畢竟審評人員用什么設備你無法控制。
Acrobat Pro有個預檢功能,可以用來檢查PDF文件的各種屬性,包括字體嵌入情況、編碼方式等。定期用這個功能過一遍,能發現不少潛在問題。
即便預防工作做得再好,有時候還是可能會遇到亂碼。這時候怎么辦?別慌,有幾種方法可以嘗試。
這是最直接也最有效的方法。如果你能找到原始的源文件,重新導出一次PDF,這次特別注意一下字體嵌入和編碼設置。如果原來的源文件有問題,那就先修復源文件再導出。
有些情況下,亂碼是因為PDF生成過程中的臨時故障導致的,重新生成一次可能就解決了。這就好比打印機卡紙了,重打一遍往往就正常了。
Adobe Acrobat Pro自帶一些修復功能。在"工具"->"印前檢查"里,可以找到修復PDF的選項。雖然不是所有問題都能靠這個解決,但有些輕微的編碼或字體問題可以被自動修復。
如果 Acrobat 不行,還可以考慮一些專門的PDF處理軟件,市面上有不少工具聲稱能修復亂碼問題。不過使用第三方工具的時候要注意數據安全,畢竟你的文檔可能涉及敏感信息。
有時候把PDF轉成其他格式,再轉回PDF,可能陰差陽錯地修復亂碼。比如先把PDF轉成Word格式(保留原格式),檢查一下文字是否正確顯示,然后再從Word轉回PDF。這個方法有點"以毒攻毒"的意思,成功率不是百分之百,但值得一試。
eCTD(Electronic Common Technical Document)電子提交相比普通PDF文件有更多要求,因為它是直接面向監管機構的正式文檔。在亂碼這個問題上,eCTD提交有一些額外的坑需要注意。
各個地區的監管機構對eCTD提交格式都有詳細的規定,比如FDA、EMA、NMPA等。里面的技術要求部分通常會明確說明PDF的版本要求、字體要求、頁面設置等。在準備文件之前,先把這些規范文件找出來讀一遍,確保你的文件從一開始就符合要求。
比如NMPA對電子申報的PDF文檔就有具體的技術規范,提到字體嵌入、文件大小、頁面尺寸等多項要求。不符合規范的文件可能被直接退回,這可比亂碼嚴重多了。
eCTD的結構里有模塊一、模塊二、模塊三等不同部分,其中模塊三是質量研究資料,通常是中文內容最集中的部分,也是最容易出現亂碼的部分。建議在提交前專門對模塊三的PDF文件進行逐一檢查,不要遺漏任何一個。
如果你的產品需要向多個地區提交,同一份中文資料可能需要轉換成不同語言的版本。翻譯過程中要特別注意保持格式的一致性,有時候翻譯軟件會把原文的編碼搞亂,導致最終PDF出現亂碼。
提交前,監管機構的系統通常會有驗證工具讓你先自檢一下。雖然這些工具主要檢查的是結構、命名規范等,但有時候也能發現一些顯示相關的問題。如果驗證工具給出了警告,不要輕易忽略,仔細排查一下原因。
關于PDF亂碼,坊間流傳著一些似是而非的說法,這里也順便澄清一下。
| 誤區 | 真相 |
| 把文件后綴名改成.txt就能看到原文 | PDF是二進制格式,不是簡單改后綴就能讀取的。這個操作不僅看不到原文,還可能損壞文件。 |
| 亂碼是因為文件被加密了 | 加密可能限制編輯和打印,但不影響正常顯示。如果能看到文字卻都是亂碼,一般不是加密的問題。 |
| 閱讀器只能正確解析它支持的編碼和字體,如果文件本身有問題,再好的閱讀器也無力回天。 | |
| 文件越小越不容易亂碼 | 文件大小和亂碼沒有直接關系。有些為了壓縮體積而過度優化的文件反而更容易出問題。 |
做醫藥注冊這些年,我越來越覺得這份工作需要的不僅是專業知識,更是一種細致入微的心態。一個小小的亂碼,表面上看起來是技術問題,深層次反映的是流程管理和質量控制的漏洞。
每次提交之前,我都會習慣性地把文件在不同的設備上打開看看,不只是為了檢查亂碼,也是檢查整體的顯示效果。這個習慣幫我規避過不少麻煩。雖然多花了幾分鐘時間,但比起被退回重來的代價,這幾分鐘真的太值了。
遇到問題的時候,也別太焦慮。亂碼雖然討厭,但總能找到解決辦法。重要的是從每次問題中積累經驗,下次做得更好。畢竟在這個領域,沒有誰能保證一次做到完美,但我們可以通過規范的操作把出錯的概率降到最低。
希望這篇文章對你有幫助。如果你也在做eCTD提交相關的工作,祝你每次提交都順利,少一點亂碼,多一點安心。
