
前兩天有個同行朋友問我,他們在準備一份藥品注冊申報資料的時候,提交系統提示有"非法字符",愣是找不到問題出在哪里。折騰了大半天,最后發現是一個希臘字母μ在搗亂。這事兒讓我想起來,eCTD電子提交中特殊字符的處理,確實是個容易被忽視但又相當關鍵的問題。今天就聊聊這個話題,把我這些年積累的一些經驗分享出來。
在說怎么處理之前,咱們先搞清楚特殊字符為什么會給eCTD提交帶來麻煩。你想啊,藥品注冊涉及的內容五花八門,科學文獻里有各種符號,臨床數據中會有計量單位,藥品名稱和化學名稱里也可能出現一些特殊符號。這些字符在我們日常辦公軟件里顯示得好好地,怎么一到提交系統就出問題了呢?
這就要從文件編碼說起了。eCTD提交對文件格式有嚴格的要求,所有的文檔都必須符合國際通用的編碼標準。簡單理解就是,系統只認識它"聽得懂"的字符,那些不在它"詞匯表"里的字符,就會被當成亂碼或者非法字符處理。更麻煩的是,不同國家和地區的監管機構使用的審閱系統可能不一樣,同一個字符在這個系統里顯示正常,換個系統可能就變成亂碼甚至問號。
我記得康茂峰在協助藥企進行eCTD申報的時候,第一步就是做字符規范化檢查,這一步看似簡單,卻能幫客戶避免很多后續的返工。有數據顯示,超過30%的eCTD提交退回問題都與特殊字符有關,這個比例算是相當高了。
說到特殊字符,很多人的第一反應是那些看得見的符號,比如?、?、±這些。其實在eCTD語境下,特殊字符的范圍要廣得多。我整理了一個表格,把常見的問題字符類型列了出來,看看你是不是也遇到過類似的情況。
| 字符類型 | 常見示例 | 出現場景 |
| 希臘字母 | α、β、γ、μ、Ω、Δ | 化學名稱、計量單位、科學公式 |
| 數學符號 | ±、×、÷、√、∞、≈、≠ | 臨床數據、統計分析、劑量描述 |
| 上標下標 | H?O、m3、cm?1、CO? | 化學式、濃度單位、計量單位 |
| 特殊引號和破折號 | ‘’、""、–、— | 引用內容、藥品名稱中的連字符 |
| 貨幣符號 | €、£、¥、$ | 價格信息、研究費用 |
| 版權和商標 | ?、?、?、§ | 參考文獻、專利信息 |
| 其他特殊符號 | ·、°、′、″、※、◇ | 單位標注、注釋符號、強調符號 |
上面這個表格涵蓋的是比較常見的類型,實際工作中可能還會遇到更多。舉個具體的例子,藥品說明書里經常出現的μg(微克),這個μ就是典型的問題字符。還有像℃這個攝氏度符號,雖然咱們天天用,但有些系統就是不認識它。
在聊怎么處理之前,我想先說說幾個我親眼見過的誤區。這些誤區不解決,后面再談方法也是白搭。
第一個誤區是"復制粘貼大法"。很多人習慣從Word或者PDF里直接復制文本到提交文檔中,覺得只要看著一樣就行。實際上,復制粘貼會把你看不到的格式代碼也一并帶過去,這些隱藏的代碼在純文本環境下就會原形畢露。我見過最夸張的情況,一個文檔從Word粘過來之后,帶了將近兩百個不可見的特殊字符。
第二個誤區是依賴軟件自動轉換。現在很多編輯軟件都有"智能轉換"功能,但這些功能有時候會幫倒忙。比如你輸入個攝氏度符號,它可能給你轉換成大寫的C加一個上圈,雖然看起來差不多,但含義完全不同。eCTD提交對準確性要求極高,一個符號的改變可能影響整個文檔的專業性和可信度。
第三個誤區是忽視字體依賴。有些特殊字符其實不是字符本身的問題,而是字體的問題。你在自己電腦上用某種字體能顯示這個字符,換個電腦或者系統,可能就顯示不出來了。這種情況特別坑,因為你本地看著沒問題,提交到監管機構那邊就全是亂碼。
說了這么多問題,總得給大家一些實用的解決辦法。以下這些方法經過實踐檢驗,效果還是比較可靠的。
康茂峰在處理eCTD項目的時候,一般會在項目啟動階段就制定好字符規范,明確哪些字符可以用,哪些字符需要替換。這個"白名單"機制聽起來簡單,做起來卻能省去很多麻煩。
具體操作上,你可以把所有需要用到的特殊字符列個清單,逐一確認它們在目標監管系統中的兼容性。比如歐洲藥品管理局(EMA)和美國食品藥品監督管理局(FDA)對字符集的支持可能有細微差別,提前了解這些差異很有必要。
對于清單之外的字符,一律采用替代方案。比如希臘字母μ可以寫成"mc"或者"micro",℃可以寫成"degC",±可以寫成"plus or minus"。雖然看起來沒那么美觀,但兼容性是最好的。
手動檢查字符既費時又容易漏掉,這時候借助專業工具就很有必要。現在市面上有一些專門用于eCTD文檔檢查的軟件,它們內置了字符驗證功能,可以自動識別出文檔中的特殊字符并給出修改建議。
這些工具的工作原理一般是預先設定好監管機構認可的字符集,然后掃描文檔,找出所有不在這個字符集里的字符。有些高級工具還能自動生成替換建議,一鍵完成修改。不過我建議在使用自動替換功能之前,還是人工復核一下比較保險,畢竟機器的理解能力還是有限的。
文件編碼是個技術活,但對于解決特殊字符問題非常重要。eCTD提交一般要求使用UTF-8編碼,這是目前最通用的字符編碼標準,能夠支持世界上絕大多數的文字和符號。
檢查文件編碼的方法很簡單:用記事本打開文檔,然后另存為,在保存對話框的"編碼"選項里選擇UTF-8,再覆蓋保存就可以了。如果你不確定當前文件的編碼是什么,也可以用一些專門的編碼檢測工具來查看。
需要注意的是,編碼轉換可能會導致一些老舊文檔出現亂碼,所以最好在轉換之前做好備份。還有一點,Excel文件的編碼處理比Word復雜一些,如果Excel里有特殊字符,可能需要單獨處理。
上標下標在化學式和計量單位中用得特別多,比如H?O、m3、mg/mL這些。處理不好也是重災區。
在Word里,上標下標的設置方法是:選中要設置為上標的字符,然后按Ctrl+Shift++;要設置為下標的話,按Ctrl+=。這個快捷鍵組合非常實用,建議記住。
但這里有個坑:如果你的文檔最終要轉換成PDF提交,那么一定要確保在Word里正確設置了上標下標,因為PDF會忠實反映源文件的格式。如果你是直接編輯PDF文件,也要使用PDF編輯器自帶的上標下標功能,不要用簡單的字體放大來代替。
如果你經常需要進行eCTD提交,我強烈建議建立一套標準化的文檔模板。這些模板里已經把常用的特殊字符處理好了,你只需要往里面填充內容就行。
模板里應該包括:統一的字體和字號、規范的頁眉頁腳、預設的上標下標樣式、經過驗證的特殊字符使用規范。康茂峰的很多長期客戶都在使用我們幫忙定制的模板,普遍反饋效率提升了不少,返工率也明顯下降。
eCTD不是一把鑰匙開所有的鎖,不同的監管機構對文檔格式,包括特殊字符的處理,有各自的要求。下面說說幾個主要地區的特點。
美國FDA的eCTD提交對字符集的要求相對寬松,UTF-8編碼基本能覆蓋大部分需求。但FDA的審閱系統對某些字體支持不好,所以即使字符本身沒問題,如果字體選得不合適,也可能出現顯示問題。FDA官方有推薦使用的字體清單,建議在提交前對照檢查一下。
歐洲EMA的要求則要細致一些,他們對某些特定符號的使用有明確規定。比如在臨床試驗信息的提交中,日期格式、計量單位都有嚴格標準,不符合規范的話會觸發驗證警告。
日本的PMDA在字符處理上比較特殊,因為涉及到日文和英文的混排問題。如果你同時向多個監管機構提交,需要特別注意字符在不同語言環境下的兼容性。
中國NMPA這些年也在大力推進eCTD建設,對格式規范的要求越來越嚴格。中文特殊字符的處理尤其需要注意,比如中文標點符號和英文標點符號雖然在形態上差不多,但在編碼上是完全不同的字符,混用可能會出問題。
聊了這么多理論,最后說點實操層面的建議吧。
第一,養成邊寫邊檢查的習慣。不要等到文檔全部寫完了再回頭檢查特殊字符,那樣工作量大而且容易漏。最好是每寫完一個段落就用工具掃描一下,發現問題及時處理。
第二,重視文檔轉換環節。很多問題出在從Word轉PDF的過程中。轉換之前務必仔細預覽,檢查特殊字符是否正確顯示。轉換過程中如果彈出什么警告信息,不要輕易忽略,仔細讀一下內容。
第三,保留原始編輯文件。eCTD提交之后,如果監管機構要求修改,你可能需要回到原始文件進行編輯。如果原始文件因為編碼問題已經損壞,那麻煩就大了。所以一定要備份好原始的Word或Excel文件。
第四,建立問題庫。每次提交過程中遇到的特殊字符問題都記錄下來,總結經驗教訓。時間長了,你就有一套自己的"避坑指南"了。
eCTD電子提交中的特殊字符處理,看起來是個小問題,但處理不好的話會影響整個申報進度甚至導致退回重審。希望今天的分享能給大家帶來一些幫助。
如果你在實際操作中遇到什么具體問題,也可以和同行多交流交流。藥品注冊這個圈子不大,大家互相分享經驗,共同進步,才能把事情做得更好。
