K-近邻算法

模式识别领域中,最近鄰居法KNN算法,又譯K-近邻算法)是一种用于分类回归無母數統計方法[1],由美国统计学家伊芙琳·费克斯小約瑟夫·霍奇斯于1951年首次提出,后来由托馬斯·寇弗英语Thomas M. Cover扩展。在这两种情况下,输入包含特徵空間中的k个最接近的训练样本。

  • k-NN分类中,输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的,k个最近邻居(k为正整数,通常较小)中最常见的分类决定了赋予该对象的类别。若k = 1,则该对象的类别直接由最近的一个节点赋予。
  • k-NN回归中,输出是该对象的属性值。该值是其k个最近邻居的值的平均值。

最近鄰居法採用向量空間模型來分類,概念為相同類別的案例,彼此的相似度高,而可以藉由計算與已知類別案例之相似度,來評估未知類別案例可能的分類。

K-NN是一种循例學習,或者是局部近似和将所有计算推迟到分类之后的惰性学习英语lazy learning。k-近邻算法是所有的机器学习算法中最简单的之一。

无论是分类还是回归,衡量邻居的权重都非常有用,使较近邻居的权重比较远邻居的权重大。例如,一种常见的加权方案是给每个邻居权重赋值为1/ d,其中d是到邻居的距离。[註 1]

邻居都取自一组已经正确分类(在回归的情况下,指属性值正确)的对象。虽然没要求明确的训练步骤,但这也可以当作是此算法的一个训练样本集。

k-近邻算法的缺点是对数据的局部结构非常敏感。

K-平均算法也是流行的机器学习技术,其名稱和k-近邻算法相近,但兩者没有关系。数据标准化可以大大提高该算法的准确性[2][3]

算法

k近邻算法例子。测试样本(绿色圆形)应归入要么是第一类的蓝色方形或是第二类的红色三角形。如果k=3(实线圆圈)它被分配给第二类,因为有2个三角形和只有1个正方形在内侧圆圈之内。如果k=5(虚线圆圈)它被分配到第一类(3个正方形与2个三角形在外侧圆圈之内)。

训练样本是多维特征空间向量,其中每个训练样本带有一个类别标签。算法的训练阶段只包含存储的特征向量和训练样本的标签。

在分类阶段,k是一个用户定义的常数。一个没有类别标签的向量(查询或测试点)将被归类为最接近该点的k个样本点中最频繁使用的一类。

一般情况下,将欧氏距离作为距离度量,但是这是只适用于连续变量。在文本分类这种离散变量情况下,另一个度量——“重叠度量”(或海明距离)可以用来作为度量。例如对于基因表达微阵列数据,k-NN也与Pearson和Spearman相关系数结合起来使用。[4]通常情况下,如果运用一些特殊的算法来计算度量的话,k近邻分类精度可显著提高,如运用大间隔最近邻居或者邻里成分分析法。

“多数表决”分类会在类别分布偏斜时出现缺陷。也就是说,出现频率较多的样本将会主导测试点的预测结果,因为他们比较大可能出现在测试点的K邻域而测试点的属性又是通过k邻域内的样本计算出来的。[5]解决这个缺点的方法之一是在进行分类时将样本到k个近邻点的距离考虑进去。k近邻点中每一个的分类(对于回归问题来说,是数值)都乘以与测试点之间距离的成反比的权重。另一种克服偏斜的方式是通过数据表示形式的抽象。例如,在自组织映射(SOM)中,每个节点是相似的点的一个集群的代表(中心),而与它们在原始训练数据的密度无关。K-NN可以应用到SOM中。

参数选择

如何选择一个最佳的K值取决于数据。一般情况下,在分类时较大的K值能够减小雜訊的影响,[6] 但会使类别之间的界限变得模糊。一个较好的K值能通过各种启发式技术(见超参数优化)来获取。

噪声和非相关性特征的存在,或特徵尺度与它们的重要性不一致会使K近邻算法的准确性严重降低。对于选取和缩放特征来改善分类已经作了很多研究。一个普遍的做法是利用进化算法优化功能扩展[7],还有一种较普遍的方法是利用训练样本的互信息进行选择特征。

在二元(两类)分类问题中,选取k为奇数有助于避免两个分类平票的情形。在此问题下,选取最佳经验k值的方法是自助法[8]

加权最近邻分类器

k- 最近邻分类器可以被视为为 k最近邻居分配权重以及为所有其他邻居分配 0权重。这可以推广到加权最近邻分类器。也就是说,第 i近的邻居被赋予权重,其中。关于加权最近邻分类器的强一致性的类似结果也成立。[9]

表示权重为的加权最近邻分类器。根据类别分布的规律性条件,超额风险具有以下渐近展开[10]

对常数 and 并且

最佳加权方案用于平衡上面显示中的两个项,如下所示:令

并且
.

利用最优权重,超额风险的渐近展开中的主项是。当使用bagged 最近邻分类器英语bootstrap aggregating时,类似的结果也是如此。

属性

原始朴素的算法通过計算测试点到存储样本点的距离是比较容易实现的,但它属于计算密集型的,特别是当训练样本集变大时,计算量也会跟着增大。多年来,许多用来减少不必要距离评价的近邻搜索算法已经被提出来。使用一种合适的近邻搜索算法能使K近邻算法的计算变得简单许多。

近邻算法具有较强的一致性结果。随着数据趋于无限,算法保证错误率不会超过贝叶斯算法错误率的两倍[11]。对于一些K值,K近邻保证错误率不会超过贝叶斯的。

决策边界

近邻算法能用一种有效的方式隐含的计算决策边界。另外,它也可以显式的计算决策边界,以及有效率的这样做计算,使得计算复杂度是边界复杂度的函数。[12]

连续变量估计

K近邻算法也适用于连续变量估计,比如适用反距离加权平均多个K近邻点确定测试点的值。该算法的功能有:

  1. 从目标区域抽样计算欧式或马氏距离;
  2. 在交叉验证后的RMSE基础上选择启发式最优的K邻域;
  3. 计算多元k-最近邻居的距离倒数加权平均。

發展

然而k最近鄰居法因為計算量相當的大,所以相當的耗時,Ko與Seo提出一演算法TCFPtext categorization using feature projection),嘗試利用特徵投影法英语feature projection來降低與分類無關的特徵對於系統的影響,並藉此提昇系統效能,其實驗結果顯示其分類效果與k最近鄰居法相近,但其運算所需時間僅需k最近鄰居法運算時間的五十分之一。

除了針對文件分類的效率,尚有研究針對如何促進k最近鄰居法在文件分類方面的效果,如Han等人於2002年嘗試利用貪心法,針對文件分類實做可調整權重的k最近鄰居法WAkNNweighted adjusted k nearest neighbor),以促進分類效果;而Li等人於2004年提出由於不同分類的文件本身有數量上有差異,因此也應該依照訓練集合中各種分類的文件數量,選取不同數目的最近鄰居,來參與分類。

参见

注释

  1. ^ 这个方案是一个线性插值的推广。

參考文獻

引用

  1. ^ Altman, N. S. An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician. 1992, 46 (3): 175–185. doi:10.1080/00031305.1992.10475879. 
  2. ^ Piryonesi S. Madeh; El-Diraby Tamer E. Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems. Journal of Transportation Engineering, Part B: Pavements. 2020-06-01, 146 (2): 04020022. doi:10.1061/JPEODX.0000175. 
  3. ^ Hastie, Trevor. The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations. Tibshirani, Robert., Friedman, J. H. (Jerome H.). New York: Springer. 2001. ISBN 0-387-95284-5. OCLC 46809224. 
  4. ^ Jaskowiak, P. A.; Campello, R. J. G. B. Comparing Correlation Coefficients as Dissimilarity Measures for Cancer Classification in Gene Expression Data. Brazilian Symposium on Bioinformatics (BSB 2011): 1–8. CiteSeerX 10.1.1.208.993可免费查阅. 
  5. ^ D. Coomans; D.L. Massart. Alternative k-nearest neighbour rules in supervised pattern recognition: Part 1. k-Nearest neighbour classification by using alternative voting rules. Analytica Chimica Acta. 1982, 136: 15–27. doi:10.1016/S0003-2670(01)95359-0. 
  6. ^ Everitt, B. S., Landau, S., Leese, M. and Stahl, D.(2011)Miscellaneous Clustering Methods, in Cluster Analysis, 5th Edition, John Wiley & Sons, Ltd, Chichester, UK.
  7. ^ Nigsch F, Bender A, van Buuren B, Tissen J, Nigsch E, Mitchell JB (2006). "Melting point prediction employing k-nearest neighbor algorithms and genetic parameter optimization". Journal of Chemical Information and Modeling 46 (6): 2412–2422. doi:10.1021/ci060149f. PMID 17125183.
  8. ^ Hall P, Park BU, Samworth RJ. Choice of neighbor order in nearest-neighbor classification. Annals of Statistics. 2008, 36 (5): 2135–2152. doi:10.1214/07-AOS537. 
  9. ^ Stone C. J. Consistent nonparametric regression. Annals of Statistics. 1977, 5 (4): 595–620. doi:10.1214/aos/1176343886. 
  10. ^ Samworth R. J. Optimal weighted nearest neighbour classifiers. Annals of Statistics. 2012, 40 (5): 2733–2763. arXiv:1101.5783可免费查阅. doi:10.1214/12-AOS1049. 
  11. ^ Cover TM, Hart PE (1967). "Nearest neighbor pattern classification". IEEE Transactions on Information Theory 13 (1): 21–27. doi:10.1109/TIT.1967.1053964.
  12. ^ Bremner D, Demaine E, Erickson J, Iacono J, Langerman S, Morin P, Toussaint G (2005). "Output-sensitive algorithms for computing nearest-neighbor decision boundaries". Discrete and Computational Geometry 33 (4): 593–604. doi:10.1007/s00454-004-1152-0

来源

  • E. H. Han, G. Karypis and V. Kumar, Text categorization using weight adjusted k-Nearest Neighbor classification, Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp. 53–65, 2001.
  • Y. J. Ko and Y. J. Seo, Text categorization using feature projections, Proceedings of the Nineteenth international conference on Computational linguistics, Volume 1, pp. 1–7, 2002.
  • B. L. Li, Q. Lu and S. W. Yu, An adaptive k-nearest neighbor text categorization strategy, ACM Transactions on Asian Language Information Processing, Volume 3 , Issue 4, pp. 215–226, 2004.

}}

拓展阅读

Read other articles:

Lithography using 13.5 nm UV light Extreme ultraviolet lithography (EUVL, also known simply as EUV) is a cutting-edge technology used in the semiconductor industry for manufacturing integrated circuits (ICs). It is a type of photolithography that uses extreme ultraviolet (EUV) light to create intricate patterns on silicon wafers. As of 2023[update], ASML Holding is the only company that produces and sells EUV systems for chip production, targeting 5 nanometer (nm) and 3 nm process nod...

 

جزء من سلسلة مقالات حولقوائم رموز العناصر الإلكترونية الصف العلوي: مقاومة كهربائية، مكثفالصف السفلي: ثنائي مساري، ترانزستور ثنائي القطب الظرفيّة الأساسيّة مسارات النقل المفاتيح أشباه المُوصِلات  بوابة إلكترونياتعنت هذه قائمة للرموز الظرفية الرسومية لمخططات الدار�...

 

Cet article est une ébauche concernant les États-Unis. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. La résolution pour l'indépendance approuvée le 2 juillet 1776. Les coches, à droite du document, décomptent les 12 colonies qui votèrent pour l'indépendance. La treizième, New York, s'était abstenue. Richard Henry Lee déposa la résolution le 7 juin 1776. La Lee Resolution, connue également sous le...

2015 Polish presidential election ← 2010 10 May 2015 (first round)24 May 2015 (second round) 2020 → Turnout48.96% (first round) 55.34% (second round)   Nominee Andrzej Duda Bronisław Komorowski Party PiS Independent[a] Popular vote 8,630,627 8,112,311 Percentage 51.55% 48.45% Results of the second round President before election Bronisław Komorowski Independent Elected President Andrzej Duda PiS Presidential elections were held in Poland on 10 and 24...

 

This article contains wording that promotes the subject in a subjective manner without imparting real information. Please remove or replace such wording and instead of making proclamations about a subject's importance, use facts and attribution to demonstrate that importance. (September 2017) (Learn how and when to remove this template message) Art museum, Sculpture park in Florida, United StatesThe Patricia & Phillip Frost Art MuseumFrost Art MuseumInteractive fullscreen mapEstablished19...

 

Mosque in Kukherd city, Iran For the administrative subdivisions, see Kukherd District and Kukherd Rural District. You can help expand this article with text translated from the corresponding article in Persian. (September 2014) Click [show] for important translation instructions. View a machine-translated version of the Persian article. Machine translation, like DeepL or Google Translate, is a useful starting point for translations, but translators must revise errors as necessary and co...

МифологияРитуально-мифологическийкомплекс Система ценностей Сакральное Миф Мономиф Теория основного мифа Ритуал Обряд Праздник Жречество Мифологическое сознание Магическое мышление Низшая мифология Модель мира Цикличность Сотворение мира Мировое яйцо Мифическое �...

 

Tiling Wayland compositor This article relies excessively on references to primary sources. Please improve this article by adding secondary or tertiary sources. Find sources: Sway window manager – news · newspapers · books · scholar · JSTOR (August 2019) (Learn how and when to remove this message) SwayOriginal author(s)Drew DeVault (SirCmpwn)Initial releaseMarch 24, 2016; 8 years ago (2016-03-24)[1]Stable release1.9 / Feb...

 

Transmission of information electromagnetically Telecommunication redirects here. For the A Flock of Seagulls song, see Telecommunication (song). Earth station at the satellite communication facility Raisting Earth Station in Raisting, Bavaria, Germany Telecommunication, often used in its plural form, is the transmission of information with an immediacy comparable to face-to-face communication. As such, slow communications technologies like postal mail and pneumatic tubes are excluded from th...

2020年夏季奥林匹克运动会波兰代表團波兰国旗IOC編碼POLNOC波蘭奧林匹克委員會網站olimpijski.pl(英文)(波兰文)2020年夏季奥林匹克运动会(東京)2021年7月23日至8月8日(受2019冠状病毒病疫情影响推迟,但仍保留原定名称)運動員206參賽項目24个大项旗手开幕式:帕维尔·科热尼奥夫斯基(游泳)和马娅·沃什乔夫斯卡(自行车)[1]闭幕式:卡罗利娜·纳亚(皮划艇)&#...

 

Stadtteil of Berga-Wünschendorf in Thuringia, GermanyBerga Stadtteil of Berga-Wünschendorf Coat of armsLocation of Berga Berga Show map of GermanyBerga Show map of ThuringiaCoordinates: 50°45′N 12°10′E / 50.750°N 12.167°E / 50.750; 12.167CountryGermanyStateThuringiaDistrictGreiz TownBerga-WünschendorfArea • Total43.49 km2 (16.79 sq mi)Elevation229 m (751 ft)Population (2022-12-31) • Total3,218 •...

 

Stepmother of Abraham Lincoln (1788–1869) Sarah Bush LincolnBornSarah Bush(1788-12-13)December 13, 1788Elizabethtown, KentuckyDiedApril 12, 1869(1869-04-12) (aged 80)Coles County, IllinoisResting placeShiloh Cemetery, Lerna, IllinoisKnown forstepmother of Abraham LincolnSpouse(s)Daniel JohnstonThomas LincolnChildren3 + 2 stepchildren Sarah Bush Lincoln (December 13, 1788 – April 12, 1869) was the second wife of Thomas Lincoln and stepmother of Abraham Lincoln. She was born in Ke...

Il Canale dell'Acqua Morta di Verona raffigurata da Vittorio Avanzi. Olio su tela. Museo di Castelvecchio. Vittorio Avanzi (Verona, 21 febbraio 1850 – Campofontana, 7 agosto 1913) è stato un pittore italiano. Indice 1 Biografia 2 Alcune opere 3 Bibliografia 4 Voci correlate 5 Altri progetti 6 Collegamenti esterni Biografia A Verona, Vittorio Avanzi, fece i primi studi e in seguito passò all'Accademia di Monaco di Baviera per specializzarsi. Fu un pittore di natura prevalentemente paesaggi...

 

6°16′15.16″S 106°52′5.86″E / 6.2708778°S 106.8682944°E / -6.2708778; 106.8682944 Lippo Plaza Kramat JatiLokasiJakarta Timur, DKI JakartaAlamatJl. Raya Bogor KM. 19, Kramat Jati, Kramat Jati,Jakarta Timur 13510, IndonesiaTanggal dibuka1988 (sebagai Kramat Jati Indah Plaza)2013 (sebagai Lippo Plaza Kramat Jati)PengembangLippo MallsPemilikPT. Lippo Karawaci TbkTotal luas pertokoan2,9 HektarJumlah lantai5 Lantai (4 lantai, 1 basement)Akses transportasi umu...

 

Football League Cup 1994-1995The Coca-Cola Cup 1994-1995 Competizione Football League Cup Sport Calcio Edizione 35º Organizzatore Football League Date dal 15 agosto 1994al 2 aprile 1995 Luogo  Inghilterra Galles Partecipanti 92 Formula Eliminazione diretta Risultati Vincitore  Liverpool(5º titolo) Secondo  Bolton Semi-finalisti  Crystal Palace Swindon Town Statistiche Miglior marcatore Jan Åge Fjørtoft (9) Cronologia della competizione 1993-1994...

Louis Leroy Louis Leroy (Parigi, 11 luglio 1812 – Parigi, 30 luglio 1885) è stato un giornalista, drammaturgo e pittore francese, noto soprattutto per aver coniato il termine impressionismo al fine di deridere i pittori appartenenti a questo movimento artistico. Indice 1 Carriera 2 Note 3 Voci correlate 4 Altri progetti 5 Collegamenti esterni Carriera Giornalista e critico d'arte, collaborò per trent'anni al Journal Amusing, al Charivari e al Le Gaulois. Allo stesso tempo, scrisse brani g...

 

For other uses, see Como (disambiguation). Comune in Lombardy, ItalyComo Còmm (Lombard)ComuneCittà di ComoView of Como from Baradello Castle FlagCoat of armsLocation of Como ComoLocation of Como in LombardyShow map of ItalyComoComo (Lombardy)Show map of LombardyCoordinates: 45°49′0″N 9°5′0″E / 45.81667°N 9.08333°E / 45.81667; 9.08333CountryItalyRegionLombardyProvinceComo (CO)Roman foundation196 BCFrazioniAlbate, Borghi, Breccia, Camerlata, Camnago Vo...

 

  لمعانٍ أخرى، طالع قطر الندى (توضيح). قطر الندىملصق الفيلممعلومات عامةتاريخ الصدور 17 ديسمبر 1951مدة العرض 110 دقيقةاللغة الأصلية لغة عربيةالعرض أبيض وأسود البلد  مصرالطاقمالمخرج أنور وجديالكاتب أبو السعود الإبياري (سيناريو وحوار)أنور وجدي (قصة وسيناريو وحوار)البطول�...

AllsvenskanSäsong1973VinnareÅtvidabergs FF(2:a allsvenska titeln)(2:a SM-titeln)NedflyttadeÖrgryte ISIF SaabEuropacupenÅtvidabergs FFUefacupenÖsters IF Djurgårdens IFCupvinnarcupenMalmö FFStatistikBästa målgörareJan Mattsson, Östers IF (20)Största hemmavinstNorrköping 6–0 Sirius(16 maj 1973)Malmö FF 6–0 Örebro(8 augusti 1973)Örebro 6–0 Sirius(21 oktober 1973)Största bortavinstSaab 0–6 Djurgården(21 oktober 1973)Målrikaste matchElfsborg 5–2 Norrköping(20...

 

Nerida GregoryNazionalità Australia Tennis Carriera Singolare1 Vittorie/sconfitte 22-46 Titoli vinti 0 Miglior ranking Risultati nei tornei del Grande Slam  Australian Open 3T (1975)  Roland Garros 1T (1976, 1978, 1981)  Wimbledon 2T (1974, 1980)  US Open 1T (1981) Doppio1 Vittorie/sconfitte 36-79 Titoli vinti 0 Miglior ranking Risultati nei tornei del Grande Slam  Australian Open QF (1977 (gennaio), 1977 (dicembre))  Roland Garros 3T (1981)  Wimbledon...