在2022年3月公布的場景解析及語義分割技術國際榜單ADE20K上,網商銀行以0.6730的新高排名總分第一,這是繼去年斬獲并保持cityscapes語義分割榜冠軍后,在又一個計算機視覺領域權威榜單上取得的佳績。
ADE20K 是麻省理工學院(MIT)于2017年發布的一個可用于場景感知、分割和多物體識別等多種任務的數據集, 包含150多種室內外不同場景的2萬張多張照片,參賽者需要通過算法準確分割和標記其中諸如建筑、樹、人、玻璃窗等物件,準確率越高則得分越高。相比于同類型的cityscapes,ADE 20K設置的環境和場景更為復雜,對算法適應性的挑戰也更大,是世界計算機視覺三大頂級會議(CVPR、ICCV和ECCV)語義分割論文權威基準數據集。
針對ADE20K數據集的特點,網商提出BKSeg算法,在優化網絡結構、改進訓練策略后,測試集上 Pixel Accuracy 達到 0.8158,mIoU 達到 0.5301,最終得分為0.6730,排名第一。
BKSeg算法基于Mask2Former算法框架進行優化。具體來說,首先采用了基于CNN與Transformer結合的骨干神經網絡進行特征學習;其次結合Multi-scale FAPN策略,以提升不同大小物體的分割效果;此外,BKSeg算法還增加了OHEM模塊以提升難識別物體的分割效果;最后,結合Semi-SupervisedLearning技術完成對模型效果的進一步優化
據了解,網商銀行是目前唯一一家同時在兩個國際榜單上均保持領先的機構,同時在榜的還有華為、商湯科技、微軟、谷歌、亞馬遜等全球科技企業和研究機構。

場景解析和語義分割是計算機視覺的重要技術,能夠幫助計算機準確感知和理解平面照片上的物體,從而將非結構化的圖像轉化為可以被計算的數據,為還原和理解真實世界場景提供基礎。大多數場景中的物體多樣且復雜,同一類物體在不同場景中的顏色、形狀、大小、姿態也不盡相同,因此如何通過優化算法對不同物體進行分割和準確識別,是此類技術的難點。
計算機視覺的不斷發展也為金融服務帶來了新的方法和模式。作為螞蟻集團成立發起的專注于服務小微的科技銀行,網商銀行已經在農村金融和小微金融風控等領域廣泛應用了此類技術。
在農村金融領域,網商銀行率先引入了衛星遙感圖像識別技術,在中低分辨率衛星圖像上通過計算機視覺進行10X10米的像素級作物識別,實現了對于玉米、水稻、小麥等20多種主糧作物和蘋果、獼猴桃、柑橘等十多種經濟作物的識別,并達到了以往用高分辨率衛星圖像才能實現的93%識別準確率。基于這項技術,網商銀行“大山雀”衛星遙感風控系統,目前已覆蓋全國超過1000個縣域,服務幾十萬種植大戶。
同時,通過視覺圖像識別分割算法的持續優化,也可以對農房、大棚等設施進行自動提取,快速識別設施分布類型、數量、面積等信息,從而可以獲取農村經濟活動區域分布信息,指導信貸層面提供更好的區域服務。
如下圖所示,底圖是天地圖區域公開影像,紅色(農房)、綠色(大棚)分別標記識別出的設施。

此外,在線下實體店的場景中,圖像感知技術也能用于對店鋪的行業和經營行為的識別、理解和刻畫。例如,通過識別用戶拍攝上傳的店鋪門頭照,貨架甚至進銷獲合同和發票,并結合多維度交叉驗真技術,網商銀行便能夠更準確刻畫小微經營者所處的行業、上下游關系和真實經營面貌,從而為經營性貸款授信提供依據。
圖例:通過解析照片,可以準確識別商超貨架的貨品情況,從而為分析銷售情況提供參照
