mercredi 3 juin 2009

Technologie d'un moteur de recherche

Le projet Refertec 2009, moteur de recherche de ressources pédagogiques désormais en ligne depuis début mai, a nécessité la mise au point d'une technologie avancée pour le développement du "coeur" du moteur : la sélection de ressources dans une grande base de données, en fonction des mot-clés de l'internaute, s'appuie sur un algorythme complexe, pour garantir la pertinence des résultats, et organiser la présentation de ceux-ci. Plus de 60 critères sont utilisés conjointement ou successivement pour calculer la note de pertinence par rapport à la recherche de l'internaute (pour cet exercice Google en utilise environ 200). Une première passe s'effectue dans la base (requête sélective), pour isoler les ressources en rapport avec la recherche, puis un certain nombre de passes supplémentaire (requêtes qualificatives) viennent attribuer un certain nombre de points à certaines ressources en fonction de leur contenu réel. Une dernière passe (requête pondérative) vient attribuer un bonus ou un malus de points, en fonction de critères tels que popularité et fraîcheur de la page, accessibilité du site et indice de confiance global de celui-ci. (tout comme le fait Google, les pages disposant d'un contenu récent sont mises en avant - les blogs sont donc légèrement avantagés par rapport à un site traditionnel, tout au moins pendant quelques jours - cet avantage disparait automatiquement au bout d'un mois). Les données résultats sont alors triées selon leur note, puis présentées à l'internaute sous forme de pages de résultats (SERP), par groupe de 5 par défaut pour ne pas augmenter inutilement la longueur de la page HTML (ce paramètre est modifiable par l'internaute). "l'audimat" d'une page est également mesurée afin de distinguer les résultats sélectionnés par l'internaute pour une recherche : cet élément sera prochainement pris en compte dans les SERP.
L'intégration des liens commerciaux (appelés également liens sponsorisés), s'effectue grace au service Adwords de Google. Leur pertinence à la recherche, est optimisée grace à des balises spécifiques dans le code HTML des SERP, afin de faciliter le travail du robot temps-réel "google-mediapartner" : les liens commerciaux doivent apporter un plus à l'internaute, et ne doivent en aucun cas perturber sa recherche, aussi il est essentiel qu'ils soient le plus proche possible de sa requête initiale.

Un algorythme spécifique vient ensuite sélectionner quelques "termes de recherches proches", afin de proposer une alternative de recherche à l'internaute : ainsi de temps à autre, jusqu'à 8 suggestions similaires peuvent être affichés en bas des SERP. Ces suggestions sont extraites de l'historique des recherches des internautes sur le site, triées par pertinence, popularité et fraîcheur ...
la technologie développée pour ce moteur sera très prochainement valorisée sur un nouveau projet de portail Web ...