網盛創新研究院 - AI、區塊鏈、am8亞美、大am8技術的研究與應用交流平台!

網盛創新研究院/大講堂/正文

乐橙lc8官网

地址︰HZ

2019-05-10

1、歐氏距離(Euclidean Distance)

歐氏距離是最容易直觀理解的距離度量方法,我們小學、初中和高中接觸到的兩個點在空間中的距離一般都是指歐氏距離。

blob.png


(1) 二維平面上點a(x1,y1)與b(x2,y2)間的歐氏距離:

blob.png


(2) 三維空間點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離:

blob.png


(3) n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的歐氏距離(兩個n維向量)︰

blob.png

2、曼哈頓距離(Manhattan Distance)

顧名思義,在曼哈頓街區要從一個十字路口開車到另一個十字路口,駕駛距離顯然不是兩點間的直線距離。這個實際駕駛距離就是“曼哈頓距離”。曼哈頓距離也稱為“城市街區距離”(City Block distance)。

blob.png


(1) 二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離︰

blob.png


(2) n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的曼哈頓距離︰

blob.png

3、切比雪夫距離 (Chebyshev Distance)

國際象棋中,國王可以直行、橫行、斜行,所以國王走一步可以移動到相鄰8個方格中的任意一個。國王從格子(x1,y1)走到格子(x2,y2)最少需要多少步?這個距離就叫切比雪夫距離。

blob.png


(1) 二維平面兩點a(x1,y1)與b(x2,y2)間的切比雪夫距離︰

blob.png


(2) n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的切比雪夫距離︰

blob.png

4、閔可夫斯基距離(Minkowski Distance)

閔氏距離不是一種距離,而是一組距離的定義,是對多個距離度量公式的概括性的表述。

  • 閔氏距離定義︰

  • 兩個n維變量a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的閔可夫斯基距離定義為︰

blob.png

閔式距離n維


其中p是一個變參數︰
當p=1時,就是曼哈頓距離;
當p=2時,就是歐氏距離;
當p→∞時,就是切比雪夫距離。

因此,根據變參數的不同,閔氏距離可以表示某一類/種的距離。

  • 閔氏距離,包括曼哈頓距離、歐氏距離和切比雪夫距離都存在明顯的缺點。

  • e.g. 二維樣本(身高[單位:cm],體重[單位:kg]),現有三個樣本︰a(180,50),b(190,50),c(180,60)。那麼a與b的閔氏距離(無論是曼哈頓距離、歐氏距離或切比雪夫距離)等于a與c的閔氏距離。但實際上身高的10cm並不能和體重的10kg劃等號。

  • 閔氏距離的缺點

  • (1)將各個分量的量綱(scale),也就是“單位”相同的看待了;

  • (2)未考慮各個分量的分布(期望,方差等)可能是不同的。

5、標準化歐氏距離 (Standardized Euclidean Distance)

定義︰ 標準化歐氏距離是針對歐氏距離的缺點而作的一種改進。標準歐氏距離的思路︰既然am8各維分量的分布不一樣,那先將各個分量都“標準化”到均值、方差相等。假設樣本集X的均值(mean)為m,標準差(standard deviation)為s,X的“標準化變量”表示為︰

blob.png

標準化歐氏距離

  • 標準化歐氏距離公式︰

blob.png

標準化歐氏距離公式

如果將方差的倒數看成一個權重,也可稱之為加權歐氏距離(Weighted Euclidean distance)

6、馬氏距離(Mahalanobis Distance)

馬氏距離的引出︰

blob.png

馬氏距離來源

上圖有兩個正態分布的總體,它們的均值分別為a和b,但方差不一樣,則圖中的A點離哪個總體更近?或者說A有更大的概率屬于誰?顯然,A離左邊的更近,A屬于左邊總體的概率更大,盡管A與a的歐式距離遠一些。這就是馬氏距離的直觀解釋。

  • 概念︰馬氏距離是基于樣本分布的一種距離。物理意義就是在規範化的主成分空間中的歐氏距離。所謂規範化的主成分空間就是利用主成分分析對一些am8進行主成分分解。再對所有主成分分解軸做歸一化,形成新的坐標軸。由這些坐標軸張成的空間就是規範化的主成分空間。

blob.png

馬氏距離概念

  • 定義︰有M個樣本向量X1~Xm,協方差矩陣記為S,均值記為向量μ,則其中樣本向量X到μ的馬氏距離表示為︰

blob.png

馬氏距離公式

向量Xi與Xj之間的馬氏距離定義為︰

blob.png

馬氏距離公式

若協方差矩陣是單位矩陣(各個樣本向量之間獨立同分布),則Xi與Xj之間的馬氏距離等于他們的歐氏距離︰

blob.png

馬氏距離公式

若協方差矩陣是對角矩陣,則就是標準化歐氏距離。

  • 歐式距離&馬氏距離︰

blob.png

歐式距離&馬氏距離

blob.png

歐式距離&馬氏距離

  • 馬氏距離的特點

  • 量綱無關,排除變量之間的相關性的干擾;

  • 馬氏距離的計算是建立在總體樣本的基礎上的,如果拿同樣的兩個樣本,放入兩個不同的總體中,最後計算得出的兩個樣本間的馬氏距離通常是不相同的,除非這兩個總體的協方差矩陣踫巧相同;

  • 計算馬氏距離過程中,要求總體樣本數大于樣本的維數,否則得到的總體樣本協方差矩陣逆矩陣不存在,這種情況下,用歐式距離計算即可。

7、余弦距離(Cosine Distance)

幾何中,夾角余弦可用來衡量兩個向量方向的差異;機器學習中,借用這一概念來衡量樣本向量之間的差異。

  • 二維空間中向量A(x1,y1)與向量B(x2,y2)的夾角余弦公式︰

blob.png

余弦距離

  • 兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夾角余弦為︰

blob.png

余弦距離

即︰

blob.png

余弦距離

夾角余弦取值範圍為[-1,1]。余弦越大表示兩個向量的夾角越小,余弦越小表示兩向量的夾角越大。當兩個向量的方向重合時余弦取最大值1,當兩個向量的方向完全相反余弦取最小值-1。

8、漢明距離(Hamming Distance)

blob.png

漢明距離

  • 定義︰兩個等長字符串s1與s2的漢明距離為︰將其中一個變為另外一個所需要作的最小字符替換次數。例如:

      The Hamming distance between "1011101" and "1001001" is 2. 
      The Hamming distance between "2143896" and "2233796" is 3. 
      The Hamming distance between "toned" and "roses" is 3.
  • 漢明重量︰是字符串相對于同樣長度的零字符串的漢明距離,也就是說,它是字符串中非零的元素個數︰對于二進制字符串來說,就是 1 的個數,所以 11101 的漢明重量是 4。因此,如果向量空間中的元素a和b之間的漢明距離等于它們漢明重量的差a-b。

  • 應用︰漢明重量分析在包括信息論、編碼理論、密碼學等領域都有應用。比如在信息編碼過程中,為了增強容錯性,應使得編碼間的最小漢明距離盡可能大。但是,如果要比較兩個不同長度的字符串,不僅要進行替換,而且要進行插入與刪除的運算,在這種場合下,通常使用更加復雜的編輯距離等算法。

9、杰卡德距離(Jaccard Distance)

杰卡德相似系數(Jaccard similarity coefficient)︰兩個集合A和B的交集元素在A,B的並集中所佔的比例,稱為兩個集合的杰卡德相似系數,用符號J(A,B)表示︰

blob.png

杰卡德相似系數

  • 杰卡德距離(Jaccard Distance)︰與杰卡德相似系數相反,用兩個集合中不同元素佔所有元素的比例來衡量兩個集合的區分度︰

blob.png

杰卡德距離

  • 杰卡德相似系數與杰卡德距離的應用

可將杰卡德相似系數用在衡量樣本的相似度上。

樣本A與樣本B是兩個n維向量,而且所有維度的取值都是0或1。例如︰A(0111)和B(1011)。我們將樣本看成是一個集合,1表示集合包含該元素,0表示集合不包含該元素。

P︰樣本A與B都是1的維度的個數

q︰樣本A是1,樣本B是0的維度的個數

r︰樣本A是0,樣本B是1的維度的個數

s︰樣本A與B都是0的維度的個數

那麼樣本A與B的杰卡德相似系數可以表示為︰

這里p+q+r可理解為A與B的並集的元素個數,而p是A與B的交集的元素個數。

而樣本A與B的杰卡德距離表示為︰

blob.png

10、相關距離(Correlation distance)

blob.png

相關系數示意圖

  • 相關系數︰是衡量隨機變量X與Y相關程度的一種方法,相關系數的取值範圍是[-1,1]。相關系數的絕對值越大,則表明X與Y相關度越高。當X與Y線性相關時,相關系數取值為1(正線性相關)或-1(負線性相關)︰

blob.png

  • 相關距離︰

blob.png

11、信息熵(Information Entropy)

以上的距離度量方法度量的皆為兩個樣本(向量)之間的距離,而信息熵描述的是整個系統內部樣本之間的一個距離,或者稱之為系統內樣本分布的集中程度(一致程度)、分散程度、混亂程度(不一致程度)。系統內樣本分布越分散(或者說分布越平均),信息熵就越大。分布越有序(或者說分布越集中),信息熵就越小。

blob.png

  • 計算給定的樣本集X的信息熵的公式︰


blob.png


  • 參數的含義︰
    n︰樣本集X的分類數
    pi︰X中第 i 類元素出現的概率

信息熵越大表明樣本集S的分布越分散(分布均衡),信息熵越小則表明樣本集X的分布越集中(分布不均衡)。當S中n個分類出現的概率一樣大時(都是1/n),信息熵取最大值log2(n)。當X只有一個分類時,信息熵取最小值0。




【版權提示】網盛創新研究院網倡導尊重與保護知識產權。未經許可,任何人不得復制、轉載、或以其他方式使用本網站的內容。如發現本站文章存在版權問題,煩請提供版權疑問、身份證明、版權證明、聯系方式等發郵件至,我們將及時溝通與處理。
關于我們創新研究院大講堂服務介紹
? 生意寶(002095) 版權所有    網絡工商