2020年1月8日 星期三

PDF格式在網路上的演化故事


我們都知道PDF是個非常適合保存與列印的文件格式,但隨著電子化及環保觀念的普及,用於列印的紙張用量可望變少,但PDF會就此消失嗎?答案是相反。網路上的PDF文件與日俱增,即使是HTML也無法取代它的地位,兩者形成了共生關係。

這個現象有兩個原因,一是網路世界比起HTML5釋出的2014年已經有了許多變化,時至今日超過50%的網路流量都來自移動裝置、應用軟體開始往雲端遷徙、網站功能也變得更加強大,所以對於使用者來說,網路瀏覽器就是他們唯一需要的軟體。

另一方面,Adobe2008年將PDF規範轉交給ISO(國際標準組織)之後,PDF格式日益成熟,諸如PDF/APDF/UAPDF/X等皆已被業界認為是用來歸檔(archive)、確保文件易用性即數位出版的標準格式,使得PDF超脫了傳統的列印用途,迎向了全新的紀元。


PDF的今生


閱讀PDF文件已然是任何作業系統上的必備功能,包括iOSAndroid也一樣,這一點從主流網路瀏覽器皆擁有內建PDF閱讀器這一點即可見一斑,而古早的PDF閱讀器插件則是一去不復返。

事實是:時下熱門的「數位轉型」的核心議題之一就是電子文件格式,PDF在其中尤其有舉足輕重的地位,許多軟體公司都提供了針對協作、歸檔、簽名、索引、搜尋、加密等等的特化工作流,由此可知,PDF其實是現代網路世界中的核心技術之一。

話雖然這樣講,PDF並不是完美的存在,甚至還離完美有不小的一段距離。為何這麼說呢?因為PDF的易用性仍是個可觀的障礙。一旦文件釋出,無論是作者或是網站管理員都無法控制一般用戶對文件使用方式,甚至每個網路瀏覽器所採用的PDF科技也都不盡相同(不同開發者的產物)。讓我們面對現實吧:PDFHTML是不同世界的產物,這使得PDF無法成為理想網站使用者體驗的一份子,然而無論HTML如何嘗試,也沒辦法做到PDF所能做到的事情,例如包裝功能(packaging)、歸檔功能、可靠度、保真度、密文功能(redaction)、註解(annotation)等等。基於以上原因,我們可以用一句成語來形容HTMLPDF在網路上的關係──同床異夢。

PDF標籤範例

所以真的問題是,我們要如何幫助PDF在網路上更加好用?經過多年來業界人士的努力,已經能夠用演算法從標籤式PDF(tagged PDF)中取出有用的資訊,並轉換成HTML語法。

PDF轉換成HTML的基本概念


PDF「所見如所得」的特性,可以想像為將各種元素一個一個地描繪到空白畫布上,而其他的屬性(色彩、字型、透明度等)則是由數學計算出的圖形狀態和位置所定。PDF的作者們能夠藉著結構資訊來使得文件內容更加豐富,並決定那些文字構成一個段落,或是表格中的一個儲存格。

標籤式PDF不是個嶄新的概念,而是決定PDF易用性的基礎。像是螢幕閱讀器這類的輔助科技,就能夠利用文件的結構樹來解譯文件內容。隨著業界引頸期盼的PDF2.0於2017年到來,作者還可以直接掌握PDF轉為HTML或其他格式的過程。這個過程長什麼樣子呢?簡單來說,就是映射PDF標籤(或稱結構元素)HTML標籤的過程。由於兩種語法先天上的差異,兩組標籤彼此理應是水火不容,但只要演算法能描述出所有差異以及極端案例,產生的HTML就是有效的結果,理想中也能完整傳達原作者的主旨。

舉幾個例子來說,PDF語法能夠透過結構屬性或相關檔案夾帶樣式資訊,文件本身也能作為嵌入資訊至標籤式PDF的指南。受標記為段落結構元素的文字元素,則可以被解譯為可自動重排的HTML,而不會影響作者的本意。

結論


如果想要重新利用PDF文件,標籤式PDF除了是個好方式之外,更還能讓作者控制不同環境中的使用者經驗。只用虛擬印表機方式列印為PDF的人,其實是浪費了讓PDF具永續價值的機會,導致諸如標題、欄位、閱讀順序等等的重要資訊無用武之地,也無法在後續開啟文件的軟體上獲得更多的發揮空間。

文電通(Gaaiho)轉換器裡面的PDF標籤功能
PDF文電通轉換器(Right PDF Converter)裡面的PDF標籤功能

所以我們建議所有人都應該產生標籤式PDF,而不是單純地轉換檔案。標籤式PDF的應用場景也遠遠不止如此──放在企業環境中來看,所有內部產生的PDF文件都應該含有標籤,以利於後續歸檔和使用,或是和其他網路瀏覽器的應用結合。

詳情可以參考我們的這篇文章:https://blog.rightpdf.com/2019/12/archive-without-pdf-is-problematic.html

沒有留言:

張貼留言