12月31日,在第十九屆中國圖像圖形學(xué)會青年科學(xué)家會議上,金山辦公技術(shù)總監(jiān)熊龍飛受邀發(fā)表主題演講,分享了金山辦公在辦公領(lǐng)域大模型應(yīng)用的技術(shù)路線與形態(tài)。

“2023年初大模型火了起來,金山辦公內(nèi)部經(jīng)過觀察與討論之后,迅速確定了WPS要做‘大模型應(yīng)用方’的定位。”熊飛龍表示,成立35年以來,金山辦公一直堅持技術(shù)立業(yè),對于文檔底層技術(shù),如排版技術(shù)、渲染技術(shù),還有文檔格式解析等形成了深入的理解和技術(shù)沉淀,構(gòu)建了以WPS為代表的一系列辦公產(chǎn)品生態(tài)。在大模型時代到來之際, 金山辦公直接選擇與國內(nèi)優(yōu)秀的大模型廠商合作,既能避免精力分散,又將發(fā)揮自己在辦公領(lǐng)域應(yīng)用上多年沉淀的優(yōu)勢,將用戶體驗做得更好。
35年技術(shù)沉淀“卷”起大模型應(yīng)用落地
早在2017年,金山辦公就已經(jīng)組建了AI團隊,并在CV和NLP兩個方向進行人工智能技術(shù)的探索和落地。其中,金山辦公通用圖像文檔識別與理解引擎系統(tǒng)——朱墨,已經(jīng)在PDF識別、PDF轉(zhuǎn)word,拍照掃描,文字圖片提取文字,掃描件編輯等線上業(yè)務(wù)上得到應(yīng)用。此外WPS也在文檔翻譯、智能輔助寫作和PPT AI模版工廠等方面,早早開啟了探索。
而在確定“大模型應(yīng)用方“的定位之后,在23年4月份金山辦公首次公布旗下具備大語言模型能力的人工智能應(yīng)用WPS AI,23年11月WPS AI開啟公測,該應(yīng)用提供AIGC內(nèi)容創(chuàng)作、Copilot智慧助理和Insight智慧洞察三大AI能力。
例如,在智能寫作中,WPS AI不僅支持文生文的能力,可以根據(jù)用戶需求直接生成文檔內(nèi)容,還可以生成帶版式的文檔?!癆IGC文生文是大模型原生的能力,每家創(chuàng)業(yè)公司都可以做,門檻不是很高,WPS的競爭力就在于我們對于word文檔的格式理解,包括版式,排版相關(guān)的技術(shù)積累更深。”熊飛龍表示。此外,在辦公領(lǐng)域常用的PPT、表格等方面,WPS AI也可以在大模型的加持下,根據(jù)用戶需求自動生成素材、PPT內(nèi)容、演講備注、表格數(shù)據(jù)公式等。

在PDF文件方面,金山辦公也有自己的差異性優(yōu)勢,能夠掃描識別用戶受污染的、變形的文件。對于超長文檔,WPS也可以利用文檔識別與理解方面的技術(shù)優(yōu)勢,針對大篇幅的PDF先做文檔的結(jié)構(gòu)化分析,再把相應(yīng)的內(nèi)容進行摘取,然后再做后續(xù)的功能輸出。

金山辦公之所以能夠快速將自己產(chǎn)品接入大模型,并形成獨特優(yōu)勢,與長期的文檔技術(shù)沉淀與探索是分不開的。熊飛龍舉例,金山辦公利用自己原有的文檔識別與理解的技術(shù),只需要再新增chat engine和向量化數(shù)據(jù)庫兩個新模塊,就可以快速實現(xiàn)一個基于檢索召回增強的文檔問答系統(tǒng),大大降低了整體開發(fā)工作量。同時,為了應(yīng)對企業(yè)當(dāng)中文檔形式復(fù)雜化、文檔數(shù)據(jù)海量化、提問方式差異化等復(fù)雜情況,金山辦公還可以通過文檔引擎去做文檔解析理解,做到智能切段、切片,打破文件格式的差異化,做到文檔數(shù)據(jù)的歸一化,再通過意圖識別、關(guān)鍵詞識別等技術(shù),幫助企業(yè)實現(xiàn)文檔庫問答的需求。
未來屬于多模態(tài),探索更高效交互方式
關(guān)于金山辦公未來AI的規(guī)劃與想法上,熊飛龍表示,金山辦公堅信未來一定是屬于多模態(tài)的?!稗k公場景下一般不是純文本,不能通過文字對話的方式解決用戶所有的需求,所以多模態(tài)技術(shù)在辦公領(lǐng)域是更原生的解決方案?!?/p>
目前,金山辦公已經(jīng)在利用現(xiàn)有技術(shù),疊加實現(xiàn)了類似多模態(tài)的能力。例如,移動端“隨手拍”功能可以對著投影屏幕中報告的PPT、紙質(zhì)合同、書籍等進行拍攝,拍完之后用戶可以讓AI去進行內(nèi)容總結(jié),也可以對它進行提問。這正是通過已有的技術(shù)與LLM的結(jié)合,從文檔檢測獲取、文檔矯正、識別解析、切片儲存、文檔問答等流程當(dāng)中實現(xiàn)最終功能。
但熊飛龍也指出,目前多模態(tài)解決方案還處在初級階段,不能解決密集文本和復(fù)雜排版問題。對此,金山辦公的關(guān)鍵技術(shù)思路是利用多年積累的API做好文檔數(shù)據(jù)的規(guī)范化管理,讓數(shù)據(jù)更便于給大模型理解和使用,這種技術(shù)路線現(xiàn)在也更可控和可用。金山辦公多年來積累的版式識別和文檔理解技術(shù)依然具有強大的技術(shù)價值,尤其是版式識別技術(shù)的積累,可以讓其在新的多模態(tài)文檔大模型領(lǐng)域具備明顯的底層競爭力。
“現(xiàn)階段許多大模型應(yīng)用在采用對話框輸入和輸出的交互方式,但是辦公領(lǐng)域好的AI助手一定不是一問一答的,更自然、原生,輕量的交互才會讓大家不厭惡工作?!毙茱w龍表示,WPS AI正在進行積極主動探索,盡可能讓AI知道用戶想要干什么,然后用點擊和選擇的方式來代替輸入?!拔磥斫鹕睫k公也還會再挖掘更多、更高效的交互方式,把多模態(tài)和更聰明的文檔Al用更自然的方法交付給用戶?!?/p>