Projet d’Innovation Industrielle d’année 5 (PI²5) du cycle ingénieur ESILV, 2023-2024
CyberShen est une startup qui souhaite proposer des solutions afin de protéger l’ensemble des acteurs de l’économie sans distinction de taille et de nature et plus précisément les PME qui n’ont pas nécessairement les moyens ou l’expertise pour se prémunir des menaces. Le projet qui nous a été confié est le projet de clustering: identifier des patterns de comportements dans les données utilisateur grâce au machine learning pour éventuellement mettre en place des politiques de sécurité de façon automatique, par exemple attributer automatiquement les droits et les accès à certains logiciels en fonction des besoins de l’utilisateur. Le but de ce projet est l’écriture d’un article scientifique en LaTeX sur les méthodes de clustering existantes, leur comparaison en fonction de critères à définir (comme la facilité d’utilisation, la rapidité de calcul…) et l’implémentation d’un modèle simple sur les données qui nous ont été fournies après quelques mois. Les différentes méthodes de clustering qui peuvent être décrites selon deux grandes familles : le clustering conventionnel et le deep clustering (utilisation conjointe d’algorithme de clustering conventionnel et d’un réseau de neurones). Afin de pouvoir établir des critères de sélection d’algorithme, nous avons choisi d’étudier seulement les algorithmes de clustering conventionnel, qui peuvent être décrits selons 3 grandes approches : le clustering hiérarchique, le clustering de paritionnement et le clustering basé sur la densité. Etant donné le volume de données à prendre en compte, nous avons établi que le clustering hiérarchique serait trop coûteux en termes de calcul. Egalement, nous avons déterminé que les algorithmes du clustering de partitonnement (K-Means, Fuzzy C-Means) ne pourraient pas être sélectionnés car il faudrait un algorithme qui ne nécessite pas de spécifier le nombre de clusters à l’avance. C’est pour cette raison que nous nous sommes penchés sur les algorithmes de clustering basés sur la densité, et plus spécifiquement DBSCAN. L’efficacité du modèle ne repose pas uniquement sur le choix de l’algorithme ni l’affinage des hyperparamètres mais également, et surtout, sur le traitemant préalable fait sur les données que l’on va donner à l’algorithme. La colonne qui a le plus d’information dans le dataset fourni est la colonne « domain » qui correspond à un URL visité par un utilisateur. Pour cela, nous avons pensé à plusieurs représentations possibles de ces URLs: la première serait une représentation basée sur la fréquence d’apparition du domaine, et la seconde sertait un module d’embedding des URLs basé sur URLNet (un réseau de neurones de convolution qui possède déjà un modèle de représentation des URLs) et enfin un dernier basé sur une autre base de données qui catégorise les URLs directement.
Retrouvez l’ESILV sur :
Facebook : http://facebook.com/esilvparis
Instagram : https://www.instagram.com/esilv_paris/?hl=fr
Twitter : http://twitter.com/esilvparis
Linkedin : http://bit.ly/25WVOCa
TikTok : https://www.tiktok.com/@esilv.ingenieurs
http://www.esilv.fr