Depuis 2020, le projet R&D « Big data & Tourisme » porté par la Métropole Européenne de Lille en collaboration avec De Vinci Research Center s’intéresse à l’analyse des comportements et des flux touristiques afin d’améliorer l’attractivité du territoire.
Pour faire parler les données, les chercheurs du Groupe Digital mettent au point de nouveaux algorithmes et méthodologies dédiés aux métiers du tourisme pour mieux appréhender le comportement des touristes au contact de l’agglomération lilloise.
Ces objectifs rentrent dans le cadre du Contrat R&D – Big Data & Tourisme , un partenariat entre De Vinci Research Center, la Métropole Européenne de Lille (MEL), l’Agence d’attractivité Hello Lille et l’Agence de Développement et d’Urbanisme Lille Métropole (ADULM).
Forts de leurs précédents travaux (circulation touristique, place embeddings, prédictions de circuits touristiques), les chercheurs du groupe d’informatique du laboratoire de recherche du Pôle Léonard de Vinci ont développé 4 nouvelles directions de recherche : le résumé automatique des commentaires, la propagation touristique, la recommandation de spots photographiques et la fouille de paniers de visites.
Résumé automatique de commentaires touristiques
Une des problématiques de recherche en apprentissage automatique de la langue est de pouvoir traiter de larges corpus textuels. Avec la croissance du nombre de contributions disponibles en ligne, de nouvelles solutions sont nécessaires afin d’en faire le tri rapidement et efficacement. En effet, il est très intéressant d’avoir 3 000 critiques pour un restaurant ou un établissement touristique pour faire son choix, mais qui va réellement les lire ?
Nous avons proposé un modèle original permettant de résumer du texte automatiquement. Notre système, contrairement aux approches existantes, est capable de passer à l’échelle (sa complexité croît linéairement avec le nombre de mots à traiter), permettant de traiter rapidement des grands volumes de texte.
Pour ce faire, nous avons utilisé des représentations vectorielles (embeddings) issues d’apprentissages profonds et utilisé des techniques de réduction de dimensions non-supervisées.
Dans le cadre du projet de R&D, nous pouvons ainsi résumer l’ensemble des commentaires des touristes de la métropole Lilloise en prenant plusieurs angles d’analyse : restaurants d’un quartier, attractions visitées par les Anglais, différence de commentaires entre des visites pré et post COVID…
Les résultats ont été publiés à deux conférences (nationale et internationale). Les expériences ont été menées par Gabriel Shenouda, promo 2023, majeure Data et Intelligence Artificielle, qui a suivi le Parcours Recherche sous la direction de Christophe Rodrigues.
Propagation touristique
Une autre approche s’intéresse cette fois à l’analyse de la propagation des touristiques sur le territoire. L’idée est de pouvoir comprendre la manière dont un flux de population circule globalement sur une zone, et ainsi d’adapter l’urbanisme (transports, restauration, etc.) sur une compréhension profonde du territoire.
Les touristes laissent souvent une trace numérique sur les réseaux sociaux tels que Tripadvisor, Instagram ou Twitter. Ces traces numériques, une fois agrégées forment un graphe de circulation (WISE20). Notre travail consiste à créer une mesure pour évaluer la propagation touristique sur ce graphe. Nous tirons parti des méthodes existantes sur la topologie des graphes en les améliorant avec la distance géodésique. Ainsi, cette mesure analyse l’effet de propagation à la fois dans le temps et dans l’espace.
Nous avons mis en place une mesure nommée Facteur d’Influence et d’Éloignement (FIE). Ce facteur calcule la corrélation entre les poids des liens du graphe et les distances entre les nœuds du graphe. L’application du FIE à un graphe de circulation comportant des milliers de nœuds et de liens est complexe et demande un temps de calcul exponentiel.
Pour réduire la complexité temporelle, nous extrayant des sous-graphes. Les sous-graphes, comme les arbres couvrants, sont des solutions idéales pour analyser d’énormes graphes. Les arbres couvrants ne considèrent qu’un sous-ensemble du graphe global sans perdre leurs propriétés essentielles.
La figure ci-dessous illustre la propagation touristique pour différentes populations. Le FIE caractérise bien la différence de comportement, allant de l’exploratoire (Français, Anglais) aux city-break (Américains).
Dans le cadre d’une collaboration avec la ville de Lille, notre mesure est appliquée à des graphes multiéchelle de l’ordre du département, région ou de la cité. Des comportements type long séjour, courts séjours, excursionniste sont détectés. Cela permettra à la ville de s’adapter à la demande des touristes selon les besoins, les nationalités, des âges, etc.
Les expériences ont été menées par Hugo Prevoteau, promo 2021, étudiant de la majeure Informatique, Objets Connectés et Sécurité, qui a fait partie du Parcours Recherche sous la direction de Sonia Djebali et Nicolas Travers. Ces travaux sont présentés dans le cadre de l’article « Propagation Measure on Circulation Graphs for Tourism Behavior Analysis »
La recommandation de spots photographiques
Avec l’émergence des réseaux sociaux, le tourisme s’est lié à la photographie de masse [1]. Les touristes ont tendance à partager de plus en plus les photos de leurs vacances et des lieux visités. Que ce soit sur Instagram, Flickr, Panoramio, ou des sites professionnels tels que TripAdvisor, les photos capturent l’expérience et partagent leurs souvenirs [2].
Cet e-Tourisme a redéfini la façon de voyager. De surcroît, les acteurs du tourisme doivent s’adapter aux nouvelles tendances. De ce fait, le tourisme photographique est un outil de promotion de grande échelle, gratuit et s’autoalimentant grâce aux réseaux sociaux.
D’après une étude de 2020 de TripAdvisor, 52 % des touristes se décident sur une destination après avoir visionné des photos attrayantes. Cette recherche de photos peut être volontaire afin de prendre connaissance de la destination ou par simple navigation sur Internet sans objectifs précis. Les photos sont souvent mises en avant par des influenceurs ou partagées par des proches. Cependant, trouver les meilleurs spots pour prendre des photos est une tâche fastidieuse, en particulier pour les touristes qui sont en recherche permanente de nouveaux lieux à visiter [3].
Notre travail consiste à développer des méthodes pour favoriser l’essor du tourisme photographique, et le tourisme via la profusion de photographies attrayantes. Pour cela, nous identifions des spots photographiques touristiques à partir de photos géolocalisées à l’aide d’une hybridation d’algorithmes de partitionnement de données.
Le choix d’algorithmes doit tenir compte à la fois de la densité et de la proximité des données géographiques et photographiques. Grâce aux métadonnées des caméras, nous calculons pour chaque spot photographique des connaissances telles que sa popularité, le meilleur moment de la journée pour prendre des photos ou sa mise au point. Nous pouvons aussi déterminer le type de photos (panorama, grand-angle, selfie, etc.).
Cette caractérisation fine des spots touristiques permet aux touristes de prendre des photos de grande qualité offrant une vitrine favorable du lieu visité sur les réseaux sociaux.
Les expériences ont été menées par Quentin Gabot, promo 2022, majeure Data et intelligence artificielle, qui a fait partie du Parcours Recherche sous la direction de Sonia Djebali et Guillaume Guérard. Les résultats de ces travaux ont été publiés dans le cadre de l’article « Clustering Method for Touristic Photographic Spots Recommendation ».
La fouille de paniers de visites
Le problème de l’extraction motifs ensemblistes fréquents ou « paniers de visites », parmi l’ensemble des visites effectuées est un problème complexe en analyse de données. L’idée est de pouvoir identifier les ensembles de lieux fréquemment visités ensemble par les touristes. Ainsi, une telle étude aidera les acteurs du tourisme à comprendre les interconnexions entre les destinations fréquentes.
Les données touristiques provenant de sites prescripteurs d’expérience tels que TripAdvisor sont d’un volume difficile à intégrer dans les techniques traditionnelles de fouille de données. Malheureusement, les approches traditionnelles montrent rapidement leurs limites lorsque la quantité de données explose.
Afin de pallier ce problème, nous avons proposé une stratégie de décomposition de l’espace de recherche des visites des touristes. Cette stratégie utilise un paradigme de distribution de calcul sur plusieurs serveurs (cf. Figure 2) pour énumérer efficacement l’ensemble des motifs fréquents, en réduisant le temps de traitement.
Notre approche est précurseur dans le contexte de distribution basée sur l’intelligence artificielle symbolique (SAT) pour l’énumération des motifs fréquents à partir des bases de données transactionnelles. Une évaluation empirique approfondie sur les données touristiques montre l’efficacité de notre approche. Les expériences ont été menées par Julien Martin-Prin, promo 2021, majeure informatique, objects connectés et sécurité, qui a fait partie du Parcours Recherche sous la direction de Imen Ouled Dlala et Nicolas Travers.
Deux de ces dernières contributions – « A Distributed SAT-based Framework for Closed Frequent Itemset Mining » et « Clustering Method for Touristic Photographic Spots Recommendation » – ont été acceptées pour publication dans la conférence 18th International Conference on Advanced Data Mining and Applications 2022 (ADMA).
This post was last modified on %s = human-readable time difference 12:08 pm