Moteur de recherche - Vev

Moteur de recherche

Un article de Vev.

Jump to: navigation, search

Modèle:Ébauche informatique Image:Searchtool.svg Un moteur de recherche est un logiciel permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, etc.) associées à des mots quelconques.
Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même (Dailymotion, YouTube, Google Video, ... sont des moteurs de recherche vidéo).

Outil de recherche sur le web constitué de « robots », encore appelés spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés.

Par abus de langage, on appelle également moteurs de recherche :

  • des sites web proposant des annuaires de sites web : dans ce cas, ce sont des ressources humaines qui répertorient et classifient des sites web jugés dignes d'intérêt et non des robots d'indexation — on peut citer par exemple Voilà et Yahoo!, etc. ;
  • des logiciels installés sur un ordinateur personnel : ce sont des moteurs dits desktop qui combinent la recherche parmi les fichiers stockés sur le PC et la recherche parmi les sites web — on peut citer par exemple Google Desktop et Copernic Desktop Search, etc.

On trouve également des métamoteurs, c'est-à-dire des sites web où une même recherche est lancée simultanément sur plusieurs moteurs de recherche (les résultats étant ensuite fusionnés pour être présentés à l'internaute) — on peut citer Mamma, Kartoo, Seek.fr, etc.
Plus récemment, on trouve également des annuaires qui exploitent des systèmes de folksonomie à base de tags (ou étiquettes) positionnés par les internautes.

Sommaire

Fonctionnement

Le fonctionnement d'un moteur de recherche se décompose en trois étapes principales.

  1. L'exploration ou crawl : le Web est systématiquement exploré par un robot d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'annuaire Web.
  2. L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs (pratiquement tous) correspondant à chaque ressource. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse ou, plus exactement, comme l'index terminologique d'un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné. Les termes non significatifs s'appellent des mots vides.
  3. La recherche correspond à la partie requêtes du moteur, qui restitue les résultats. Un algorithme gardé secret est généralement appliqué pour donner un poids variable aux correspondances, afin de pouvoir présenter les résultats des recherches par ordre de pertinence supposée. L'algorithme tient généralement compte du contexte du mot clé (titre, paragraphe, hyperlien...) et de la ressource (ressources liées, popularité du site...)

Optimisation des moteurs de recherche

Afin d'optimiser les moteurs de recherche, les webmestres insérent des métaéléments (métatags) dans les pages web, dans l'en-tête HTML (head). Ces informations permettent d'optimiser les recherches d'information sur les sites Web.

Financement

Les sites dont la recherche constitue le principal service peuvent se financer avec deux sources : la publicité et la vente de technologie.

Publicité

Les moteurs de recherche se financent principalement avec la publicité ciblée. Il s'agit de présenter des publicités correspondant aux mots recherchés par le visiteur. Pour l'annonceur, cela revient à acheter des mots-clés : par exemple une agence de voyage peut acheter des mots-clés comme « vacances », « hôtel » et « plage » ou « Cannes », « Antibes » et « Nice » si elle est spécialisée dans cette région.

Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l'intégrant aux résultats de la recherche. Pour le visiteur, l'encart séparé se présente comme une publicité classique. L'intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les résultats.

Vente de technologie

Les grandes organisations (entreprises, administrations) disposent généralement de très nombreuses ressources informatiques dans un vaste intranet. Leurs ressources n'étant pas accessibles depuis Internet, elles ne sont pas couvertes par les moteurs de recherche du Web. Elles doivent donc installer leur propre moteur si elles veulent mener des recherches dans leurs ressources. Elles constituent donc un marché pour les développeurs de moteurs de recherche.

Il arrive également que des sites Web publics utilisent les services d'un moteur de recherche pour étoffer leur offre. Ainsi Yahoo!, spécialiste de l'annuaire Web, a utilisé pendant quelques années la technologie de Google pour la recherche, jusqu'à ce qu'elle lance son propre moteur de recherche Yahoo Search Technology en 2004, dont les fondations proviennent de Altavista, Inktomi et Overture, sociétés fondatrices des moteurs de recherche et rachetées par Yahoo!.

Évolution vers le Web sémantique

Dans la mesure où les producteurs de contenu indexent les bases avec des métadonnées ou des taxinomies (ontologies), les moteurs de recherche vont devoir s'adapter aux analyses sémantiques. Par rapport aux recherches plein texte, les recherches dans le Web sémantique sont beaucoup plus efficaces.

Quelques exemples de moteurs de recherche sémantiques :

  • CORESE, développé à l'INRIA
  • KartOO et Ujiko
  • Lingway KM est une plateforme linguistique et sémantique multilingue permettant le développement de moteurs de recherche spécialisés
  • Sinequa CS de Sinequa
  • Zoom, d'Acetic
  • Pertimm

Principaux moteurs de recherche

Selon une étude du cabinet Comscore réalisée en août 2007<ref>AFP, "Google leader écrasant de la recherche sur internet mondial", 10 octobre 2007 afp.google.com</ref>:

  • Image:Google logo.png (Google) (environ 60% des 61 milliards de recherches sur internet)
  • Image:Yahoo Logo.svg (Yahoo) (8,5 milliards de recherches, soit 14% du total)
  • Sharelook moteur de recherche, entre autres intègre dans les Lycos
  • Baidu, "le Google chinois" qui monte en puissance (3,3 milliards de requêtes, soit 5,4% du total),
  • Live Search, moteur de recherche de Microsoft (2,1 milliards de recherches, 3,4%)
  • Naver, moteur de recherche coréen du groupe NHN (2 milliards de recherches).
  • Le site de commerce eBay (1,3 milliards de recherches).

Voir aussi

Articles connexes

Liens externes

Notes et références

{{#tag:references||group=}}

Modèle:Portail informatiquear:محرك بحث bg:Търсачка bs:Internet pretraživač ca:Motor de recerca cs:Internetový vyhledávač da:Søgemaskine de:Suchmaschine el:Μηχανή αναζήτησης en:Search engine eo:Serĉilo es:Motor de búsqueda eu:Bilaketa motor fa:موتور جستجو fi:Hakukone gl:Motor de busca he:מנוע חיפוש hr:Tražilica hu:Keresőmotor ia:Mechanismo de recerca id:Mesin pencari it:Motore di ricerca ja:検索エンジン ko:검색 엔진 lv:Meklētājprogramma ms:Enjin gelintar nl:Zoekmachine nn:Søkemotor no:Søkemotor pl:Wyszukiwarka internetowa pt:Motor de busca ro:Motor de căutare ru:Поисковая система scn:Muturi di circata simple:Search engine sr:Интернет претраживач sv:Söktjänst ta:தேடுபொறி th:เครื่องมือค้นหาบนอินเทอร์เน็ต tr:Arama motoru uk:Пошукова машина vi:Máy truy tìm dữ liệu zh:搜索引擎