Au premier abord, la question énoncée en titre de ce billet semble quelque peu absurde : Roger Federer est né en 1981, peu importe la manière de prononcer cette date. Cependant, pour des assistants virtuels et pour celles et ceux qui les étudient, ce genre de détail a toute son importance. Lisez la suite de ce billet, vous allez comprendre !

Dans le cadre de notre Master en Sciences de l’information, nous devons réaliser un projet de recherche d’une année. Ce dernier est l’opportunité d’approfondir une thématique en menant des recherches d’information et parfois, en faisant des tests sur le terrain. Le projet de recherche que notre groupe a choisi porte sur les assistants virtuels et leurs pratiques en matière de recherche d’information. Nous avons choisi de nous intéresser à trois assistants virtuels parmi les plus répandus sur le marché, à savoir Siri (Apple), Alexa (Amazon) et l’Assistant Google. Ce billet de blog a pour objectif de présenter notre travail, ses enjeux et ses défis, ainsi que de vous initier brièvement aux thématiques qui jalonneront notre projet durant les prochains mois.

Apple Homepod (Siri), Amazon Echo (Alexa) et Google Home (l’Assistant Google) (source)

Ok Google, pourquoi s’intéresser aux assistants virtuels ?

Les objets connectés sont de plus en plus présents dans notre quotidien. Les assistants virtuels, disponibles en version enceintes connectées ou sur nos smartphones, sont un marché en pleine croissance. En effet, “[d]ébut 2018, 39 millions d’Américains possédaient une enceinte connectée. D’ici 2020, 50% des recherches sur mobile devraient se faire en vocal (20% des recherches depuis un mobile se font en vocal aujourd’hui et les recherches depuis un appareil mobile totalisent 50% des recherches sur Google).” (Martin 2019). Dans le cadre des sciences de l’information, il est important d’étudier ce nouveau mode de recherche d’information. En effet, une recherche d’information sur un moteur de recherche (Google, Duck Duck Go ou Bing) fournit une grande liste de résultats dans laquelle on juge par nous-même de la réponse la plus pertinente à notre demande. La même recherche d’information mais avec Alexa, l’Assistant Google ou Siri ne nous retourne qu’une seule réponse, rarement accompagnée de son contexte ou d’une indication de sa source. Comment savoir si la réponse que l’assistant virtuel nous donne est la bonne ? Pourquoi Siri nous indique que le meilleur hamburger de Genève se mange chez Migros Restaurant et non chez Inglewood ? Notre recherche sur les assistants virtuels a pour objectif général de comprendre comment ces enceintes connectées recherchent l’information lorsqu’on leur pose une question. Dans une perspective plus large, notre projet de recherche cherche à entamer une réflexion sur l’offre des assistants virtuels dans le contexte suisse.

Alexa, que va-t-on explorer durant ce projet de recherche ?

Ce projet de recherche s’articule en deux parties distinctes : la première, et la plus conséquente également, consiste à étudier le fonctionnement des assistants virtuels lors de la recherche d’information. Nous allons tenter de définir quelles sont les sources utilisées en priorité par Siri, Alexa et l’Assistant Google, mais également de comprendre comment ces derniers sélectionnent une source plutôt qu’une autre. Est-ce le fabricant qui met en place une liste de sources fiables parmi lesquelles l’assistant peut chercher de l’information, ou la source est-elle choisie parce qu’elle se trouve être en première place sur la page de résultats du moteur de recherche utilisé par l’assistant ? Est-ce qu’Alexa utilise Wikipédia pour répondre à la question « Alexa, quelle est la hauteur du Jet d’eau de Genève ? » ou a-t-elle construit sa propre base de connaissances ? Autrement dit, si l’on modifie la page Wikipédia du Jet d’eau de Genève pour faire passer ce dernier d’une hauteur de 140m à 900m, quelle hauteur Alexa nous indiquera ?

Le Jet d’eau de Genève mesure-t-il 140m ou 900m ? (source)

Nous nous interrogerons aussi sur la possibilité de demander à un assistant virtuel de rechercher une information à partir d’une source spécifique, plutôt que celles qu’il a été programmé pour utiliser. Par la suite, nous nous intéresserons à l’influence des bulles de filtre sur les recherches d’un assistant virtuel. Il s’agira de déterminer si des recherches préalables (la langue d’utilisation notamment), des réglages d’un compte utilisateur ou une localisation géographique peuvent avoir une influence sur les réponses d’un assistant virtuel à une requête. Par exemple, si je me trouve au port d’Ouchy et que je demande à Siri le nom du lac au bord duquel je me trouve, est-ce que l’assistant virtuel d’Apple me répondra que c’est « le Léman »? Et si je pose la même question aux Bains des Pâquis, la réponse de Siri sera-t-elle « le Lac de Genève »? Enfin, si je l’interroge en anglais plutôt qu’en français pour cette même question, sa réponse sera-t-elle différente ?

Sur le même principe, Siri sait-il que les nombres huitante-et-un et quatre-vingt-un représentent le même alignement de chiffres ? Et que l’un est utilisé dans le canton de Vaud et l’autre dans celui de Genève pour énoncer l’année de naissance de Roger Federer ?

Dans la deuxième partie de notre travail nous questionnerons le modèle économique des assistants virtuels et nous demanderons ce qui peut pousser des entreprises à se lancer sur ce marché encore relativement jeune. A cette occasion, nous nous tournerons plus particulièrement vers le marché suisse et ses acteurs.

Ok Google, comment va se dérouler ce projet de recherche ?

Comme toute recherche scientifique, notre analyse des assistants virtuels débute par une prise de connaissance du sujet. Il s’agit donc de passer notre été à faire une revue de la littérature sur le fonctionnement, le processus de recherche d’information et le(s) modèle(s) économique(s) des assistants virtuels.

En parallèle de cette recherche documentaire, chacune de nous a adopté une des trois enceintes connectés choisies pour ce projet de recherche : Amazon Echo (Alexa), Google Home (l’Assistant Google) et Apple HomePod (Siri). Il s’agit de tester leur fonctionnement, le type de requêtes que nous pouvons faire (Alexa, raconte-moi une blague ou Ok Google quelle est la couleur du cheval blanc de Napoléon) et les paramètres qui peuvent être réglés (par exemple, pour Siri, choisir qu’une voix féminine québécoise nous indique la météo à Genève).

Nous nous attaquerons par la suite au cœur de notre projet. Nous élaborerons une grille de requêtes à faire auprès de chaque assistant virtuel ainsi qu’un protocole indiquant la manière dont nous les interrogerons. Cela dans le but d’obtenir des résultats comparables pour Alexa, l’Assistant Google et Siri. Chacune des trois membres du groupe de recherche sera chargée de discuter avec un des trois assistants virtuels. Il s’agira de s’adresser aux trois appareils avec les mots magiques suivants : « Alexa […] » (pour Amazon Echo), « Ok Google […] » (pour Google Home) et « Dis Siri […] » (pour Apple Homepod).

Nous ferons donc une série de requêtes préétablies pour tester la recherche d’information et les bulles de filtre (c’est-à-dire la personnalisation potentielle de la réponse à la personne qui fait la requête). On testera par exemple l’impact de notre position géographique lorsqu’on pose une question à Alexa, l’Assistant Google et Siri. Pour cela, nous les interrogerons une fois chez nous, puis dans un autre lieu. Par exemple, nous interrogerons l’Assistant Google à Genève avec la requête « Ok Google, quel est la meilleure pizza de la région ? ». Puis, nous emporterons le Google Home avec nous en vacances pour lui poser la même question sur une plage au bord de la Méditerranée.

Alexa, qu’est-ce qu’on va faire de toutes les données que le projet va générer ?

Comme tout projet de recherche, celui qui vous est présenté ici va générer des données. Afin de pouvoir les gérer au mieux et de les conserver pour, le cas échéant, mener des recherches similaires, nous avons rédigé un Data Management Plan (DMP). Ce document a pour but de décrire les données produites

Alexa et ses multiples compétences (source)

ou utilisées ainsi que de planifier leur gestion dès leur création et jusqu’à leur archivage.

En ce qui concerne les données que nous allons créer au cours de ce projet, elles seront majoritairement de nature textuelle, graphique (diagrammes, infographies, etc.) et audio. Ces données créées seront organisées en set, qui seront eux-mêmes décrits et enrichis par des métadonnées. Enfin, tout au long du projet, les sets de données feront l’objet de sauvegardes régulières et sur différents terminaux, afin d’en assurer la préservation. Une fois le projet de recherche terminé, une sauvegarde pérenne des données sera faite sur un des serveurs de la HEG et la diffusion de ces dernières pourra être réalisée via Zenodo, sans embargo.

Dis Siri, quelle est la suite de ce projet de recherche ?

Une fois la revue de la littérature terminée, nous interrogerons Alexa, Google Assistant et Siri selon un protocole établi. Ces tests permettront de répondre (ou non) à nos questions de recherche. Afin d’en savoir davantage sur la recherche d’information avec les assistants virtuels et leur(s) modèle(s) économique(s) nous vous donnons rendez-vous le 12 décembre 2019 pour la session de posters des projets de recherche du Master en Sciences de l’information à la Haute école de gestion de Genève. A cette occasion, vous aurez peut-être l’occasion de converser avec une enceinte connectée.

Billet rédigé par Anna Leckie, Anouk Santos et Louise-Anne Thévoz

Bibliographie

LECKIE, Anna, SANTOS, Anouk, THEVOZ, Louise-Anne, 2019. Assistants virtuels et recherche d’information : Cahier des charges [Document PDF]. Projet de recherche, Haute école de gestion de Genève, filière Information documentaire, année académique 2018-2019.

LECKIE, Anna, SANTOS, Anouk, THEVOZ, Louise-Anne, 2019. Assistants virtuels et recherche d’information : Data Management Plan [Document PDF]. Projet de recherche, Haute école de gestion de Genève, filière Information documentaire, année académique 2018-2019.

MARTIN, Nicolas, 2019. Enceintes connectées : demain, tous assistés ? [podcast]. France culture [en ligne]. 1er mai 2019. [Consulté le 28 juin 2019]. Disponible à l’adresse : https://www.franceculture.fr/emissions/la-methode-scientifique/la-methode-scientifique-emission-du-mercredi-01-mai-2019

Carnet d'IdéeS - blog du Master IS

Dis Siri, selon toi, Federer est né en quatre-vingt-un ou en huitante-et-un ?