GeeksforGeeks (Français)

K-Nearest Neighbours est lun des algorithmes de classification les plus basiques mais essentiels du Machine Learning. Il appartient au domaine de lapprentissage supervisé et trouve une application intense dans la reconnaissance de formes, lexploration de données et la détection dintrusions.

Il est largement jetable dans les scénarios de la vie réelle car il est non paramétrique, ce qui signifie quil ne fait pas toute hypothèse sous-jacente sur la distribution des données (par opposition à dautres algorithmes tels que GMM, qui supposent une distribution gaussienne des données données).

On nous donne des données antérieures (également appelées données dapprentissage), qui classe les coordonnées en groupes identifiés par un attribut.

À titre dexemple, considérons le tableau suivant de points de données contenant deux entités:

Maintenant, étant donné un autre ensemble de points de données ( également appelées données de test), attribuez ces points à un groupe en analysant lensemble dapprentissage. Notez que les points non classés sont marqués comme «Blancs».

Intuition
Si nous traçons ces points sur un graphique, nous pourrons peut-être localiser certains clusters ou groupes. Maintenant, étant donné un point non classé, nous pouvons lassigner à un groupe en observant à quel groupe appartiennent ses voisins les plus proches. Cela signifie quun point proche dun groupe de points classés comme Rouge a une probabilité plus élevée dêtre classé comme Rouge.

Intuitivement, nous pouvons voir que le premier point (2,5, 7) devrait être classifié comme «vert» et le deuxième point (5.5, 4.5) devrait être classé comme «rouge».

Algorithme
Soit m le nombre déchantillons de données dapprentissage. Soit p un point inconnu.

  1. Stocke les échantillons dapprentissage dans un tableau de points de données arr. Cela signifie que chaque élément de ce tableau représente un tuple (x, y).
  2. for i=0 to m: Calculate Euclidean distance d(arr, p).
  3. Rendre lensemble S des K plus petites distances obtenues . Chacune de ces distances correspond à un point de données déjà classé.
  4. Renvoie le libellé majoritaire parmi S.

K peut être conservé comme un nombre impair afin de pouvoir calculer une nette majorité dans le cas où seuls deux groupes sont possibles (par exemple Rouge / Bleu). Avec laugmentation de K, nous obtenons des limites plus lisses et plus définies à travers différentes classifications. De plus, la précision du classificateur ci-dessus augmente à mesure que nous augmentons le nombre de points de données dans lensemble dapprentissage.

Exemple de programme
Supposons que 0 et 1 sont les deux classificateurs (groupes).

Sortie:

The value classified to unknown point is 0.

Cet article a été rédigé par Anannya Uberoi. Si vous aimez GeeksforGeeks et que vous souhaitez contribuer, vous pouvez également écrire un article en utilisant contrib.geeksforgeeks.org ou envoyer votre article à [email protected]. Consultez votre article sur la page principale de GeeksforGeeks et aidez dautres Geeks.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *