5月11日至14日,中國圖象圖形大會(CCIG 2023)在蘇州召開,大會以“圖象圖形·向未來”為主題,邀請了眾多國內外院士、專家進行高水平學術、技術報告,共同探討圖像圖形相關行業的發展趨勢、創新研究成果、關鍵技術探索,為行業提供前瞻性視角。金山辦公技術總監熊龍飛出席大會“圖象圖形賦能產業論壇”,分享了金山辦公在文檔識別與技術領域的最新成果。

金山辦公技術總監熊龍飛在大會上進行主題分享
熊龍飛表示,目前用戶的PDF編輯需求中大約有35%是掃描件,如何讓編輯“掃描件PDF”更方便,是許多公司正在攻克的難題。作為其中的參與方之一,金山辦公內部研發的通用圖像文檔識別與理解引擎系統——朱墨,已能夠解析彎曲變形、要素豐富、排版復雜、污染等挑戰下的圖像文檔,并可將版式和內容信息解析成結構化的文檔數據,供給下游PDF編輯模塊使用。據悉,朱墨系統目前已上線WPS內的PDF編輯功能,可讓用戶在編輯“掃描件PDF”時獲得幾乎與編輯Word文檔一樣的體驗。
“‘掃描件PDF’本質上是純圖片,其中的排版信息、字體信息均已丟失,因此想要編輯‘掃描件PDF’會面臨兩類挑戰?!毙荦堬w介紹,一類是由于PDF版式復雜,對象豐富,或文檔污染、變形、朝向錯誤等導致的整體版式挑戰;另一類則是保持字體、字號、字色及文字風格統一,段落關系清晰,刪除文字后背景自然等在內的細節保持挑戰。
熊龍飛還指出,朱墨系統在文檔識別過程中,會經過前處理、版面分析、OCR識別、文字屬性識別、表格還原等多個環節,首先把不標準的、變形的樣張進行校正,把污染痕跡及摩爾紋等進行去除;然后再通過版面分析,識別掃描件中的文字、圖像、段落等;之后再對文字部分進行OCR識別以及識別文字的字體、字號、字色等,最后還會對表格等其他對象進行結構化識別。在經過文檔識別后,朱墨系統還會通過大模型進行信息及信息關系抽取,理解文字之間的關聯,最終將一份掃描文件轉化為結構化的文檔數據。

CCIG 2023展會現場
相關功能背后涉及的眾多算法模型,是金山辦公在文檔識別與技術領域的長期積累。以文字與背景分離為例,金山辦公技術團隊經過多次實踐,最終采用了圖像分割的算法,該算法相較于常規二值化算法,能夠更好地在背景色復雜、分辨率較低、彩色文字等場景中準確拆分掃描件PDF的文字與背景。
此外,在文字顏色識別中,金山辦公技術團隊會先通過顏色增強,再通過圖像識別,更加精準識別掃描PDF中的字體顏色。為了更加方便PDF的后續編輯,金山辦公技術團隊還通過OCR的CTC定位結果與單字檢測模型結果進行結合,得到精確定位的單字位置框,使用戶在增加或刪除文字時,文字與原始圖像位置仍能一一對應。
而在文檔識別過程中,一旦發現PDF已經被嚴重污染,系統便會重新生成一個新的PDF,以保證文件的編輯性及美觀性,而如果需要重新生成PDF文件,便會涉及到字體模仿、轉化、生成等技術路線。
熊龍飛表示,金山辦公始終秉持“技術立業”,不斷推動相關技術的應用落地,致力為用戶帶來更良好的辦公體驗。在文檔識別與技術領域,目前金山辦公已解決掃描件PDF編輯難題,面向未來,金山辦公還將不斷深入文檔識別與技術研發,幫助更多用戶實現對海報,截圖,甚至網圖等在內的任意圖片的內容編輯。