Les 10 meilleurs algorithmes en data mining

Arbres de décision

Les algorithmes d’arbre de décision consistent à organiser les données lors d’élections en concurrence, formant des branches d’influence après une décision initiale. Le tronc de l'arbre représente la décision initiale et commence par une question oui ou non, comment prendre son petit-déjeuner ou non. Prendre le petit-déjeuner et ne pas le faire serait les deux branches divergentes de l'arbre, et chaque choix ultérieur aurait ses propres branches divergentes menant à un point final.

L'algorithme K-means

L'algorithme K-means est basé sur l'analyse de groupe. Essayez de diviser les données collectées en "blocs" séparés (grappes) regroupés par caractéristiques communes.

Machines à vecteurs de support

Les algorithmes de machine à vecteurs de support prennent les données en entrée et prédisent laquelle des deux catégories possibles comprend les données en entrée. Un exemple serait de collecter les codes postaux d'un groupe d'électeurs et d'essayer de prédire si un électeur est un démocrate ou un républicain.

L'algorithme apriori

L'algorithme apriori contrôle normalement les données de transaction. Par exemple, dans un magasin de vêtements, l’algorithme peut contrôler les chemises que les clients achètent généralement ensemble.

Algorithme EM

Cet algorithme définit les paramètres en analysant les données et prédit la possibilité d’une sortie future ou d’un événement aléatoire au sein des paramètres de données. Par exemple, l'algorithme EM pourrait tenter de prédire le moment d'une prochaine éruption d'un geyser en fonction des données temporelles des éruptions passées.

Algorithme PageRank

L'algorithme PageRank est un algorithme de base pour les moteurs de recherche. Evaluez et estimez la pertinence d'un élément de données particulier dans un grand ensemble, tel qu'un seul site Web dans un plus grand ensemble de tous les sites Web.

Algorithme AdaBoost

L'algorithme AdaBoost fonctionne avec d'autres algorithmes d'apprentissage qui anticipent un comportement en fonction des données observées, de sorte qu'ils soient sensibles aux extrêmes statistiques. Bien que l'algorithme EM puisse être biaisé en raison d'un geyser qui a deux éruptions en moins d'une minute lorsqu'il a normalement une éruption une fois par jour, l'algorithme AdaBoost modifierait la sortie de l'algorithme EM en analysant la pertinence de la fin.

Algorithme k du voisin le plus proche

Cet algorithme reconnaît les modèles dans l'emplacement des données et les associe aux données avec un identificateur plus grand. Par exemple, si vous souhaitez affecter un bureau de poste à chaque emplacement géographique du domicile et que vous disposez d'un ensemble de données pour chaque emplacement géographique du domicile, l'algorithme du plus proche voisin k affectera les logements au bureau de poste le plus proche en fonction de leur proximité.

Naive Baye

L'algorithme Naive Baye prédit la sortie d'une identité sur la base des données d'observations connues. Par exemple, si une personne mesure 1, 97 m et mesure 14 chaussures, l'algorithme Naive Baye pourrait prédire avec une certaine probabilité que cette personne est un homme.

Algorithme CART

"CART" est un acronyme en anglais qui signifie analyse d'arbre de régression et de classification. Comme les analyses d'arbres de décision, il organise les données en fonction des options en concurrence, comme si une personne avait survécu à un séisme. Contrairement aux algorithmes d'arbre de décision, qui ne peuvent classer qu'une sortie ou une sortie numérique en fonction de la régression, l'algorithme CART peut utiliser les deux pour prédire la probabilité d'un événement.

Des Articles Intéressants