Moteurs de recherche : alternatives à un espionnage en bande organisée

Fatigué du paternalisme des résultats de votre moteur de recherche habituel ? Envie de nouveauté, d’être surpris, de (re)découvrir le Monde ? D’être confronté à l’opinion de ceux qui ne pensent pas comme vous ? Vous trouverez d’abord dans ce billet quelques moteurs de recherche à tester immédiatement (si vous ne les connaissez pas déjà), puis tout ce qu’il y a d’important à savoir selon moi sur les moteurs de recherche : comment ceux que vous utilisez tous les jours vous espionnent, vous traitent à la fois comme un produit marketing et comme un consommateur, les dangers du profilage et de l’enfermement dans une bulle de filtre, ce que l’avenir nous réserve de pire comme de meilleur.

Sommaire

  1. Alternatives aux moteurs de recherche classiques
    1. Duck Duck Go
    2. Seeks
    3. Startpage (et Ixquick)
    4. MoteurPE
  2. Principe du moteur de recherche
  3. L’hégémonie Google Search et associés
  4. Souriez, vous êtes profilé
  5. La bulle de filtres
  6. PRISM et ses conséquences
Imaginez un monde dans lequel on donne à chaque personne sur la planète un accès libre à la somme de toutes les connaissances de l'humanité. C'est ce que nous faisons.
Imaginez un monde dans lequel on donne à chaque personne sur la planète un accès libre à la somme de toutes les connaissances de l’humanité. C’est ce que nous faisons. – Jimmy Wales, co-fondateur de l’encyclopédie libre, wiki et gratuite Wikipédia (source).

Alternatives aux moteurs de recherche classiques [Sommaire]

Sans attendre, pour les plus pressés d’entre vous voici la présentation de quatre moteurs de recherche différents, à la fois performants dans leur domaine, respectueux de la vie privée de leurs utilisateurs (du moins pour les 3 premiers d’entre eux) et pour certains assez solides pour faire de l’ombre dans les années à venir aux géants actuels de la recherche.

Duck Duck Go (métamoteur, américain) [Sommaire]

Logo du métamoteur de recherche anonyme américain DuckDuckGo

Celui dont on parle le plus actuellement, en pleine progression. Surfant sur la vague PRISM, Duck Duck Go met en valeur le fait :

  • qu’il ne partage avec personne les informations que vous lui fournissez (jusqu’à votre adresse IP ou la signature de votre navigateur),
  • qu’il ne stocke pas ces informations une fois que vous avez quitté le site,
  • qu’aucune personnalisation des résultats n’est pratiquée (pas de bulle de filtres),
  • qu’aucune information n’est envoyée aux sites sur lesquels vous allez surfer ensuite (aucun traçage),
  • qu’aucune fouille de votre historique n’est faite…

Bref que votre vie privée est sauve ! Sur le plan recherche pure, c’est un métamoteur dont les résultats sont un mix de plus d’une centaine de moteurs différents incluant son propre crawler DuckDuckBot, Yahoo! Search (au travers de son API BOSS), Yandex (le numéro un russe), WolframAlpha (le moteur capable de répondre aux questions), et Bing.

Remarque : Par défaut, à la suite d’une recherche le premier résultat est toujours un lien sponsorisé, un encart publicitaire. Le laisser en place permet de financer en partie DuckDuckGo, mais vous pouvez le désactiver depuis les paramètres. Personnellement je préfère le laisser en place, il est visuellement bien différent des résultats naturels et ne peut être confondu avec eux, et il permet de financer un bon produit. Un moyen comme un autre de soutenir le projet.

Seeks (métamoteur, libre) [Sommaire]

De la recherche communautaire à l’anonymat garanti.

Logo du métamoteur de recherche anonyme et libre Seeks

Chez Seeks un proxy, un intermédiaire, envoie votre requête à une myriade de moteurs de recherche classiques, compile les résultats, les réorganise en fonction de divers critères, le compromis se faisant entre trois parties :

  • les résultats naturels des moteurs de recherche interrogés,
  • les pratiques des utilisateurs, plus un lien a été cliqué suite à une requête plus il sera « monté » au classement pour la même requête lors des demandes suivantes,
  • les recommandations des utilisateurs, chacun peut noter la pertinence de chaque résultat, modifier la hiérarchie qui lui a été proposée, laisser un commentaire sur chaque lien, partager les recherches qu’il fait – bienvenue dans le monde de la recherche communautaire.

Un plus par rapport à Duck Duck Go : Seeks est publié sous licence libre (Licence publique générale GNU Affero). Un moins : son métamoteur (un moteur de recherche combinant les résultats de plusieurs autres moteurs de recherche) n’utilisant les résultats que de Google, Bing, Yahoo et Exalead, donc moins étendu que Duck Duck Go.

Remarque : il est encore en développement pour certaines fonctionnalités comme notamment l’intégration d’un client p2p (qui se chargera d’automatiquement réunir les utilisateurs en « groupes de recherche » en vue d’affiner la classification des résultats).

Startpage (moteur de recherche, néerlandais) [Sommaire]

Logo du moteur de recherche néerlandais anonyme Startpage (Ixquick)

Vous appréciez le travail et les résultats de Google Search, mais vous en avez soupé de ses intrusions continuelles dans votre vie privée ? Avec Startpage, profitez ni plus ni moins des résultats naturels du numéro un mondial tout en conservant vos données personnelles à l’abri.

Aucune collecte de données ou partage d’informations avec des tiers (votre IP est à l’abri, pas de mémorisation des recherches, pas de cookie d’identification, etc.), Startpage agit comme un proxy, comme un intermédiaire entre votre recherche et Google Search.

Remarque : Startpage limite l’envoie de votre requête à Google Search. Si vous souhaitez étendre votre demande, dirigez-vous plutôt vers son grand-frère Ixquick (mêmes règles et conditions d’utilisation), une version moins paramétrable mais englobant cette fois AOL, AlltheWeb, Altavista, Ask/Teoma, Bing, EntireWeb, Gigablast, Google, Open Directory et Wikipédia.

MoteurPE (moteur de recherche spécialisé, français) [Sommaire]

Logo du moteur de recherche français pour les Professeurs des Ecoles de Maternelle et de Primaire MoteurPE

Parce que je me rends compte que le grand public ignore en général totalement l’existence de ces moteurs de recherche spécialisés, j’ai choisi de vous présenter pour quatrième alternative ce petit français, MoteurPE, destiné aux enfants et à leurs Professeurs (des Écoles), de la maternelle au primaire.

Ici point d’anonymat, on utilise la Custom Search API (comprenez un paramétrage précis et affiné de la recherche personnalisée) de Google, appliquée sur un annuaire de sites pour enfants (comprenez des sites qui ont demandé à être référencés par SitesPE, responsable du moteur, puis qui ont été vérifiés).

Si j’étais parent, c’est tout à fait le genre de moteur que je mettrais par défaut sur les équipements de mes petits. Ici aucun risque qu’ils finissent sur un site qui ne leur est pas destiné. Et on y trouve plein de bonnes inspirations que l’ont mettrait probablement des heures à dénicher ailleurs par des recherches générales classiques.

Exemple : si vous y tapez « voiture », vous tomberez sur des chansons à chanter lors des longs voyages en famille, la prévention routière expliquée aux enfants… et pas des sites de ventes de véhicules d’occasion. Si vous tapez « poulet », des recettes accessibles aux petits, des contes avec des poulets dedans… et pas du Wikipédia ou de l’habituel site de cuisine pour adultes.

Remarque : Il existe bien sûr des moteurs spécialisés sur un peu tout, cherchez vous trouverez certainement votre bonheur.

Principe du moteur de recherche [Sommaire]

Représentez-vous Internet comme une bibliothèque, une immense bibliothèque, une interminable médiathèque où rien ne serait rangé, ordonné. Un capharnaüm à la fois sans fin, qui ne cesse de grandir et où tout est toujours instantanément accessible. Une seconde vous consultez les derniers résultats de sport, la suivante vous visionnez un cours d’astrophysique en direct de l’université Harvard. Une seconde vous écoutez le dernier chanteur à la mode, la suivante vous chattez avec votre famille. Tout est toujours à portée de main, à distance d’un simple clic. Du moins, si vous parvenez à trouver ce que vous cherchez.

Dans une vraie bibliothèque, quand vous cherchez quelque chose vous avez deux solutions : soit vous vous débrouillez tout seul (en général c’est assez facile les lieux sont bien organisés, compartimentés, balisés), soit vous demandez de l’aide aux bibliothécaires. Sur Internet, vous n’avez aussi que deux solutions : soit vous connaissez l’adresse web du document que vous souhaitez consulter, son URL » (parce qu’une personne vous l’a donnée, parce que vous avez vu une publicité…) soit vous allez devoir utiliser un moteur de recherche pour la localiser.

Un moteur de recherche est une application web dont l’unique fonction doit être de diriger l’internaute vers le contenu qu’il estime le plus approprié à ses besoins. Un bibliothécaire de la grande médiathèque virtuelle de l’humanité en quelque sorte. Pour cela, il a donc impérativement besoin de savoir tout ce que l’on peut trouver sur le Net, d’indexer Internet. [Enfin tout c’est beaucoup dire… plutôt ce que l’on nomme le Web surfacique* (par opposition au Deep Web), et c’est déjà beaucoup.]

Pour parvenir à ses fins il dispose de robots (des robots virtuels, des programmes), que l’on surnomme bots, spiders ou bien encore crawlers, qui parcourent constamment le Web dans tous les sens afin d’en répertorier le contenu, de le classer, de le hiérarchiser. Ces bots vont là où les Webmasters (ceux qui font les sites Internet) leurs indiquent d’aller (au travers des sitemaps qu’ils établissent) et/ou suivent tous les liens qu’ils rencontrent sur les pages webs qu’ils parcourent. Plus souvent un site est mis à jour, plus souvent les crawlers passent.

* Le Web surfacique est l’Internet que vous fréquentez tous les jours, celui à la vue et au su de tous, indexable par les moteurs de recherche. Traitez des différents Internet n’est pas le sujet de ce billet, sachez donc seulement que ce Web là n’est pas le seul et qu’il existe d’autres réseaux.

L’hégémonie Google Search et associés [Sommaire]

Google Search est le moteur de recherche le plus célèbre au monde. On estime actuellement (fin 2013) sa part de marché mondial légèrement sous les deux tiers. Il est le plus utilisé en France, où l’on évalue les sites Internet visités à partir d’une requête faite sur cette application à plus de 92% (source Le marché des moteurs de recherche en Allemagne, Espagne, France et Royaume-Uni en octobre 2013). Le reste du gateau se partage généralement entre Bing, Baidu (inexistant en France), Yahoo! Search, Ask Network et Orange Search.

Sachez pour l’Histoire que ce ne fut pas toujours le cas. D’autres ont eu leur heure de gloire bien avant eux (citons AltaVista, 1995-2013, le premier à être multilingue ainsi qu’à être capable de trouver des images, des fichiers audio et vidéo, aujourd’hui absorbé par Yahoo!) et d’autres l’auront encore bien après. Comprenez qu’il naît et disparaît chaque année une bonne poignée de moteurs de recherche, que c’est un domaine très concurrentiel – et visiblement très lucratif.

Quand on regarde ces moteurs d’un peu plus près, des doutes quant à la pertinence des résultats qu’ils nous renvoient peuvent vite apparaître. Faites une requête chez vous sur Google Search et, au même moment, faites-la faire ailleurs, par exemple par un ami chez lui, une connaissance à l’autre bout du monde, un confrère sur un ordinateur en accès publique sur votre lieu de travail, ou tout simplement faites-la vous-même en même temps chez vous mais depuis un navigateur passant par un proxy et/ou en navigation privée. Je suis prêt à parier qu’aucune de ces requêtes, pourtant parfaitement identiques et faites au même moment, ne renverra les mêmes résultats, classés dans le même ordre. Pourquoi ?

Parce que, et je vais maintenant répéter ce que j’ai dit plus haut tout en l’explicitant : « [le moteur de recherche dirige] l’internaute vers le contenu qu’il estime le plus approprié à ses besoins ». Qu’il estime, lui le moteur, être le plus approprié à ses besoins. Les besoins de qui… ceux du moteur ou ceux de l’internaute, ces derniers temps on peut se poser de plus en plus la question. (La fin des résultats standards sur Google Search)

Ces moteurs de recherche ne sont pas neutres. Les résultats qu’ils nous renvoient pour une requête sont perpétuellement remaniés en fonction de ce qu’ils pensent être « bon pour nous ». Oh, certes, tous ces navigateurs ont certainement en mémoire, pour chaque requête, une réponse parfaitement standardisée (classée, hiérarchisée), une réponse naturelle comme on dit, mais cette réponse vous ne la verrez jamais (et ce même si vous naviguez en mode privé, ce que de toute façon pratiquement personne ne fait, ou même ne sait seulement faire).

Souriez, vous êtes profilé [Sommaire]

Le problème avec Google Search, Bing, Yahoo! Search, Ask Network et Orange Search c’est qu’ils appartiennent tous à des multinationales qui ont bien d’autres choses à faire que de simplement nous fournir la meilleure réponse à nos requêtes.

Derrière Google Search il y a Google Inc. et ses filiales (citons entre autres Google AdSense et Google AdWords), derrière Baidu le chinois il y a Baidu TV et Baidu advertising (entre autres), derrière Bing il y a… Yahoo! Search (hé oui, c’est la même maison depuis 2009, n’espérez aucune différence entre les deux) derrière lequel il y a Yahoo! Inc. et ses services (Yahoo Finance, Advertising, Yahoo News), derrière Orange Search il y a Orange, multinationale bien connue en France avec ses activités dans le cinéma, le sport, la téléphonie, le jeu en ligne (entre autres), et pour finir derrière Ask il y a une put*** de sal*** de barre de recherche qui s’installe partout, vérole tous vos navigateurs, redirige toutes vos requêtes – bref carrément un virus, ni plus ni moins !

Toutes ces multinationales ont donc des myriades de choses à nous vendre autre que des résultats de recherche. Comment vont-elles s’y prendre ? D’abord en nous fournissant d’abord un service gratuit, le moteur de recherche, puis en y plaçant leurs produits. Prenez simplement Google Search. Les un, deux, voire trois premiers résultats à une requête ? De la pub. Pas un brin les meilleures réponses à votre question, mais de l’emplacement pour liens sponsorisés, où apparaissent ceux qui paient le plus.

Le logo de Google nous observe, avec des yeux à la place du double O

Ensuite, en manipulant la hiérarchie des résultats. Tous ces groupes stockent un maximum de données sur vous. Chaque fois que vous faites une recherche, elle est enregistrée. Chaque lien que vous choisissez de cliquer à partir de ces recherches ? Sauvegardé. Tous les sites que vous visitez ? Historisés. Tous les « J’aime », +1, partages, bookmarks et autres renseignements (âge, situation maritale, amis, groupes) que vous affichez partout ? Patiemment répertoriés. Au final, le moteur de recherche écoute votre requête, regarde sa liste neutre et standardisée, naturelle, de résultats correspondants, la passe au filtre de votre profil, et vous ressort à l’écran… ce qu’il a à vous vendre, ce qu’il pense que vous aimez, ce qu’il pense que vous allez aimer.

Vous en doutez, vous pensez que j’exagère peut-être ? Si vous utilisez Google Search et avez un compte chez Google, jetez un œil ici : Tout ce que Google Search a enregistré sur moi (et là vous ne voyez que les données que Google a récolté sur vous au travers des requêtes que vous lui avez soumises, ET que les données qu’il accepte bien que vous sachiez qu’il a). Ça devrait vous passer l’envie de l’utiliser pendant quelques temps.

Alors certes leurs moteurs de recherche sont gratuits. Hélas, comme il est commun de dire aujourd’hui, si quelque chose est gratuit, cherchez pas plus loin, c’est que c’est vous le produit.

La bulle de filtres [Sommaire]

Un exemple ? Il est tiré de ce livre The Filter Bubble: What The Internet Is Hiding From You de Eli Pariser.

Citation :

Au moment de la marée noire BP l’année dernière, il a demandé à deux amis de taper « BP » sur Google. L’un a obtenu des informations concernant des investissements sur la première page [de résultats] et l’autre des nouvelles de la marée noire.

Pourquoi de telles différences ? Peut-être parce que l’un aimait aller sur des sites écologistes, et que l’autre passait plutôt son temps sur des sites de business et finances. Ou parce que l’un avait beaucoup d’amis politiquement activistes « à gauche », et que l’autre c’était déclaré comme dirigeant de société sur Facebook… Peu importe la « vraie » raison de Google, l’essentiel est que vous compreniez l’idée : il vous répond ce qu’il pense que vous voulez entendre.

Petit aparté d’actualité : et maintenant, sur l’injonction du gouvernement britannique, il va même (ce sera en place en France – que cela nous plaise ou pas – d’ici 6 mois maximum et sera étendu à Bing) vous empêcher de trouver… les contenus dont le gouvernement anglais ne voudra pas que vous ayez connaissance (le retour de la censure et de la morale).

Clara Morgane vue de côté, le haut du corps nu en partie caché derrière sa longue chevelure blonde

Et ne me dites pas que « ce procédé ne sera employé que pour des motifs légitimes », ces/nos chers gouvernants ont déjà (entre autres) :

  • fait faire des descentes en librairies pour faire retirer les Adorations perpétuelles de Jacques Henric parce que sa couverture, l’Origine du monde de Courbet (exposé au Musée d’Orsay, excusez du peu) en choquait quelques-uns,
  • fait supprimer une page de Wikipedia parce qu’elle reproduisait la pochette de l’album Virgin Killer de Scorpions, et que certains aujourd’hui, 40 ans après sa sortie (!), trouvent choquante,
  • permis à Facebook de fermer des comptes pour des photos qui dérangent, comme celui d’un professeur qui avait partagé… l’Origine du monde de Courbet, décidemment, ou dernièrement celui de Clara Morgane, sérieusement y’a pire dans la moindre publicité à la télévision d’aujourd’hui…

Après les déviances sexuelles annoncées aujourd’hui pour faire passer la pilule, demain ce sera les méchants qui piratent des films, puis ceux qui « pensent pas pareil que le chef a dit qu’il fallait penser », etc. etc. et le prochain Edward Snowden n’aura plus aucun moyen de nous informer. Fin de l’aparté.

Et revenons à nos moutons. Personnellement, quand je tape BP dans Google Search (que j’utilise très souvent) depuis mon navigateur (le plus utilisé), aujourd’hui j’ai… les stations services autour de chez moi (hé oui, je ne bloque pas la géolocalisation), la banque aux mêmes initiales, ainsi que 3 liens Wikipédia (j’y passe beaucoup de temps et il m’arrive d’y contribuer). La même requête dans Bing (que j’utilise très peu souvent) depuis le même navigateur ? Un 50/50 groupe pétrolier et banque, on sent que Bing me connaît moins bien et hésite sur le parti à prendre. Et en passant, probablement des pubs liées à ces recherches dans les prochaines pages que je vais ouvrir si c’est Google qui y gère les emplacements publicitaires (comme sur ce site !).

La même chose maintenant dans Duck Duck Go ? Avec seulement un réglage du moteur sur français/France (langage/région) pour être en ligne avec mes autres réglages des tests précédents, un peu de tout : le groupe pétrolier, du Wikipedia sur le-dit groupe, la banque, les stations services, le cours de l’action, des articles des journaux importants français sur le sujet. J’ai de tout, j’ai le choix. C’est ça le plus important, que le moteur de recherche ne cherche pas à penser à ma place !

On nomme cet effet, cette douce et confortable camisole de pensée dans laquelle les moteurs de recherche des grosses sociétés du Web veulent nous enfermer, la bulle de filtres (ou bulle filtrante, filter bubble chez Shakespeare). Si elle est parfois utile, par exemple lorsque l’on cherche des informations sur un sujet qui nous intéresse, elle est aussi rapidement aliénante. Avec le temps, à ne lire que des avis et opinions avec lesquels on est déjà d’accord avant même de les avoir écoutés, on en vient à se comporter comme une autruche, à ne plus penser par nous-même, la tête bien enfoncée dans le sable, à croire qu’on possède l’Avis Ultime, la Vérité sur Tout et pire encore que tout le monde pense comme nous. Ouvrez votre esprit aux convictions contraires ! (et armez-vous de tolérance…)

Ne vous leurrez pas, internautes. Comme les chaines commerciales de l’archaïque télévision, les moteurs de recherche des grosses sociétés n’ont aujourd’hui plus qu’un seul intérêt : vous caresser dans le sens du poil. Plus votre navigation sera confortable, plus vous serez enclin à consommer. Donc on vous dorlote, on vous cajole – et on endort votre vigilance – afin de vous garder le plus longtemps possible et dans les meilleures dispositions, prêt à ouvrir votre porte-monnaie. On filtre tout ce qui pourrait vous hérisser le poil, on met en avant ce que l’on pense que vous allez aimer, ce avec quoi vous êtes déjà d’accord. Et si vous venez râler contre ce paternalisme, cette condescendance mielleuse, on va vous répondre que l’on fait cela pour votre bien, évidemment.

PRISM et ses conséquences [Sommaire]

Photo de Edward Snowden, informaticien américain, ancien employé de la CIA et de la NSA, qui a révélé les détails de plusieurs programmes de surveillance de masse américains et britanniques

Edward Snowden et la révélation de l’existence de PRISM ont eu et ont encore de nombreux effets positifs. La méfiance envers les sociétés américaines et leurs services, moteurs de recherche (en dehors de Orange Search, français, et Baidu, chinois – qui ne valent pas mieux en termes de traçage et de surveillance de l’internaute soit dit en passant – ceux cités jusqu’ici sont tous américains), cloud, applications en ligne (Facebook en tête)… est au plus haut (source PRISM et cloud américain, 22 à 35 milliards $ de pertes dans les 3 ans à venir), beaucoup d’internautes se posent des questions et de très nombreuses alternatives à nos mauvaises habitudes prises ces dernières années voient le jour.

Bon, ne rêvons pas non plus nous sommes loin d’assister à une révolution, à une migration massive des internautes vers le monde du libre et de l’open source, mais les choses avancent. Google Search reste un très bon moteur de recherche et la recherche personnalisée a et aura toujours son utilité, mais vous savez maintenant que vous pouvez l’interroger au travers de Startpage, entre autres, et ainsi l’empêcher de vous tracer. Les chiffres sont là, la concurrence progresse (source Numérama – Duck Duck Go double son trafic et remercie PRISM), les internautes vont voir ailleurs, expérimentent les challengers. Alors vous aussi, bougez, changez !

Maxime Mullet • l’Arpenteur de l’Infosphère

2 réponses à “Moteurs de recherche : alternatives à un espionnage en bande organisée

  1. stephane

    Je n’arrive pas à décrocher de votre site , tant je trouve que le travail d’information et les articles y sont pertinents …

    Non , je ne suis pas mielleux , juste sincère . Continuez à nous informer avec vos articles pertinents et accécibles !

    BRAVO ET MERCI !! Cordialement

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *