信息論創始人克勞德·艾爾伍德·香農提出,信息是對不確定性的消除。香農開創了用數學描述信息的先河,讓信息變得可測。
香農提出的信息熵成為如今機器學習的一大理論基礎。
超兔CRM一直致力于研究用AI打單,本質上是用機器學習處理信息,通過算法解析數據,最終幫助銷售削弱跟單過程中的不確定性。下面,與您分享一下超兔CRM正在使用的算法。純干貨!兩大主題:1.LSTM 詳解;2.傳統機器學習與深度學習對比。
LSTM 詳解
1.RNN(循環神經網絡):在介紹LSTM之前,先介紹RNN
a) 普通神經網絡:
圖為:神經網絡的結構圖
神經網絡可以當做是能夠擬合任意函數的黑盒子,只要訓練數據足夠,給定特定的x,就能得到希望的y。
舉一個情感分析的例子,輸入一句話,判斷這句話的的情感是正向的還是負向的。
其中x就是輸入層,如上圖有3個輸入,比如為 “我”,”喜歡”,”你”。經過隱藏層的計算,輸出兩個值:正向的概率和負向的概率。(在XTool中的客戶意向,會設置三個輸出)。
那么既然普通的神經網絡(如上)已經可以完成意向判斷的功能,為什么還要循環神經網絡呢?
他們都只能單獨的去處理一個個的輸入,前一個輸入和后一個輸入是完全沒有關系的。但是,某些任務需要能夠更好的處理序列的信息,即前面的輸入和后面的輸入是有關系的。
比如,當我們在理解一句話意思時,孤立的理解這句話的每個詞是不夠的,我們需要處理這些詞連接起來的整個序列
所以為了解決一些這樣類似的問題,能夠更好的處理序列的信息,就有了RNN:
b) 循環神經網絡:
圖為:循環神經網絡結構圖
但看上圖左邊部分可能有點暈,右邊為左邊按序列展開的樣式:
還拿上邊情感分析為例:
以此往后推。
這樣當輸入完這句話時,最后的結果會把整個句子的信息都帶上。
但是這樣還不完美,為什么呢?上邊的舉的例子”我”,”喜歡”,”你”只有三個詞,但在實際運用中一句話可能會很長,幾十個詞。
如果把每個詞的信息都記錄下來,數據會很大,而且最前邊的詞對最后邊的詞的意思可能也沒影響。還有就是從算法上,返向求導時,可能會造成梯度消失或梯度爆炸。
這里簡單介紹一下梯度問題:機器學習都是靠梯度來找最優模型的,剃度越小,模型越好。
為什么梯度會消失或爆炸呢,如果一句話很長,系數很小的話(比如0.002),一直相乘,會越來越接近0,最后消失,如果系數很大,一直相乘結果會越來越大,造成梯度爆炸。
2.LSTM:
圖為:長短期記憶網
從上圖和RNN對比發現,每個隱藏層內又做了許多的運算
1)第1個運算為忘記門:
就是決定什么信息應該被神經元遺忘。它會輸出 “0”或”1″,”1″表示”完全保留這個”,”0″表示”完全遺忘這個”。
2)第2個就是輸入門
就是決定我們要在神經元細胞中保存什么信息
3)然后就是輸出門
決定哪一部分的神經元狀態需要被輸出
3.LSTM在思想上是與RNN相通的,不同之處都在算法上。
傳統機器學習與深度學習對比
一、理論對比:
首先,深度學習是機器學習的一種
1. 數據:
a) 隨著數據的增加,相比機器學習深度學習的性能會越來越好。
b) 深度學習不需要對數據處理,會自動學習提取特征,而機器學習需要先對數據進行 格式轉化,數據清洗,壓縮緯度等操作。
2. 規則:
a) 具有特定規則的數據,使用機器學習比較好。一些簡單的場景沒必要使用深度學習
3. 硬件
a) 深度學習需要進行大量的矩陣計算,對硬件要求比較高。
4. 執行時間
a) 深度學習訓練模型需要的時間較長。
二、實踐對比:
分別使用貝葉斯算法及深度學習算法進行文本分類預測:
圖為:神經網絡與貝葉斯算法對意向分析對比圖
實例1:
分析:從結果可以看出,不同的數據順序,預測的結果會不同。
實例2:
分析:結果可以看出,神經網絡對消極的判斷的概率更高一些。
實例3:
分析:結果可以看出,神經網絡對積極的判斷的概率更高一些。
如上,”LSTM 詳解””傳統機器學習與深度學習對比”,非專業人士理解起來或許還有一定難度。不過,各位老板與管理者不用著急,以上純干貨理論知識,超兔已經將理論逐步落地實踐,成為超兔CRM系統中的一部分功能,有「AI潛客意向判斷」、「猛犸微助」,更多好功能持續開發中。