信息論創始人克勞德·艾爾伍德·香農提出，信息是對不確定性的消除。香農開創了用數學描述信息的先河，讓信息變得可測。

香農提出的信息熵成為如今機器學習的一大理論基礎。

超兔CRM一直致力于研究用AI打單，本質上是用機器學習處理信息，通過算法解析數據，最終幫助銷售削弱跟單過程中的不確定性。下面，與您分享一下超兔CRM正在使用的算法。純干貨！兩大主題：1.LSTM 詳解；2.傳統機器學習與深度學習對比。

LSTM 詳解

1.RNN（循環神經網絡）：在介紹LSTM之前，先介紹RNN

a) 普通神經網絡：

圖為：神經網絡的結構圖

神經網絡可以當做是能夠擬合任意函數的黑盒子，只要訓練數據足夠，給定特定的x，就能得到希望的y。

舉一個情感分析的例子，輸入一句話，判斷這句話的的情感是正向的還是負向的。

其中x就是輸入層，如上圖有3個輸入，比如為 “我”，”喜歡”，”你”。經過隱藏層的計算，輸出兩個值：正向的概率和負向的概率。（在XTool中的客戶意向，會設置三個輸出）。

那么既然普通的神經網絡（如上）已經可以完成意向判斷的功能，為什么還要循環神經網絡呢？

他們都只能單獨的去處理一個個的輸入，前一個輸入和后一個輸入是完全沒有關系的。但是，某些任務需要能夠更好的處理序列的信息，即前面的輸入和后面的輸入是有關系的。

比如，當我們在理解一句話意思時，孤立的理解這句話的每個詞是不夠的，我們需要處理這些詞連接起來的整個序列

所以為了解決一些這樣類似的問題，能夠更好的處理序列的信息，就有了RNN：

b) 循環神經網絡：

圖為：循環神經網絡結構圖

但看上圖左邊部分可能有點暈，右邊為左邊按序列展開的樣式：

還拿上邊情感分析為例：

以此往后推。

這樣當輸入完這句話時，最后的結果會把整個句子的信息都帶上。

但是這樣還不完美，為什么呢？上邊的舉的例子”我”，”喜歡”，”你”只有三個詞，但在實際運用中一句話可能會很長，幾十個詞。

如果把每個詞的信息都記錄下來，數據會很大，而且最前邊的詞對最后邊的詞的意思可能也沒影響。還有就是從算法上，返向求導時，可能會造成梯度消失或梯度爆炸。

這里簡單介紹一下梯度問題：機器學習都是靠梯度來找最優模型的，剃度越小，模型越好。

為什么梯度會消失或爆炸呢，如果一句話很長，系數很小的話（比如0.002），一直相乘，會越來越接近0，最后消失，如果系數很大，一直相乘結果會越來越大，造成梯度爆炸。

2.LSTM：

圖為：長短期記憶網

從上圖和RNN對比發現，每個隱藏層內又做了許多的運算

1）第1個運算為忘記門：

就是決定什么信息應該被神經元遺忘。它會輸出 “0”或”1″，”1″表示”完全保留這個”，”0″表示”完全遺忘這個”。

2）第2個就是輸入門

就是決定我們要在神經元細胞中保存什么信息

3）然后就是輸出門

決定哪一部分的神經元狀態需要被輸出

3.LSTM在思想上是與RNN相通的，不同之處都在算法上。

傳統機器學習與深度學習對比

一、理論對比：

首先，深度學習是機器學習的一種

1. 數據：

a) 隨著數據的增加，相比機器學習深度學習的性能會越來越好。

b) 深度學習不需要對數據處理，會自動學習提取特征，而機器學習需要先對數據進行格式轉化，數據清洗，壓縮緯度等操作。

2. 規則：

a) 具有特定規則的數據，使用機器學習比較好。一些簡單的場景沒必要使用深度學習

3. 硬件

a) 深度學習需要進行大量的矩陣計算，對硬件要求比較高。

4. 執行時間

a) 深度學習訓練模型需要的時間較長。

二、實踐對比：

分別使用貝葉斯算法及深度學習算法進行文本分類預測：

圖為：神經網絡與貝葉斯算法對意向分析對比圖

實例1：

分析：從結果可以看出，不同的數據順序，預測的結果會不同。

實例2：

分析：結果可以看出，神經網絡對消極的判斷的概率更高一些。

實例3：

分析：結果可以看出，神經網絡對積極的判斷的概率更高一些。

如上，”LSTM 詳解””傳統機器學習與深度學習對比”，非專業人士理解起來或許還有一定難度。不過，各位老板與管理者不用著急，以上純干貨理論知識，超兔已經將理論逐步落地實踐，成為超兔CRM系統中的一部分功能，有「AI潛客意向判斷」、「猛犸微助」，更多好功能持續開發中。

用AI削弱跟單不確定性，深挖超兔CRM背后算法

LSTM 詳解

傳統機器學習與深度學習對比