Plan du site  
pixel
pixel

Articles - Étudiants SUPINFO

Les différents moteurs de recherches 

Par Solène LIMOUSIN Publié le 24/05/2017 à 11:59:05 Noter cet article:
(0 votes)
Avis favorable du comité de lecture

Qu'est-ce qu'un moteur de recherche ?

Un moteur de recherche est une application web permettant de trouver des ressources à partir d'une demande sous forme de mots-clés.

Les ressources peuvent être des pages web, des articles de forums, des images, des vidéos, des fichiers... Certains sites fournissent un moteur de recherche comme principale fonctionnalité, on appelle alors, par abus de langage, moteur de recherche le site lui-même. Ceux-ci proposent en effet des annuaires de sites web (ils sont élaborés par des personnes et non automatiquement avec des robots d' indexation).

Les moteurs de recherche sont des instruments de recherche sur le web sans intervention humaine. Ils sont basés sur des robots (« bots », « spiders », « crawlers ») qui parcourent les sites à intervalles réguliers et automatiques pour découvrir de nouvelles URL.

Les moteurs de recherche ne s'appliquent pas qu'à Internet, certains moteurs sont des logiciels installés sur des ordinateurs personnels. Ce sont des moteurs qui combinent la recherche parmi les fichiers stockés sur l'ordinateur et la recherche sur le web.

Comment fonctionne un moteur de recherche ?

Le fonctionnement d'un moteur de recherche peut se décomposer en trois étapes principales :

1. L'exploration : Comme nous l'avons dit précédemment, Internet est constamment exploré par des robots d'indexation suivant successivement tous les hyperliens présents. Cette exploration est lancée depuis un page dite « pivot » comme un annuaire web. Un moteur de recherche est avant tout un outil d'indexation, c'est-à-dire qu'il dispose d'une technologie permettant la collecte de documents à distance sur les sites web.

2. L'indexation : L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs. Les mots extraits sont enregistrés dans une base de données organisée comme un dictionnaire ou plus précisément comme l'index d'un livre, qui permet de retrouver rapidement le chapitre concerné par un terme significatif donné. Ces termes sont associés à un poids qui reflète à la fois la probabilité d'apparition du mot dans un document et le « pouvoir discriminant de ce mot ».

3. La recherche : La recherche est la partie requêtes du moteur, qui restitue les résultats à l'utilisateur. Un algorithme est utilisé pour identifier les documents qui correspondent le mieux aux mots clés contenus dans la requête, afin de proposer les résultats de recherche par ordre supposé de pertinence.

Des modules complémentaires sont souvent associés aux trois premières étapes de base du moteur de recherche. En voici quelques-uns :

- Le correcteur orthographique : Il permet de corriger les erreurs introduites dans les mots-clés de la requête.

- Le lemmatiseur : Il permet de réduire les mots recherchés à leur lemme (chaîne de caractères d'une langue pouvant constituée une entrée dans un dictionnaire) et ainsi d'étendre leur portée de recherche.

- L'anti-dictionnaire : Il est utilisé pour supprimer à la fois dans l'index et dans les requêtes tous les mots dits « vides », des termes non significatifs qui ne doivent pas influencés la recherche, qui sont non-discriminants et perturbent la recherche en introduisant du « bruit ».

Les différents moteurs de recherche:

Les moteurs de recherche peuvent être classés dans plusieurs catégories que voici :

Les moteurs de recherche Web :

Ask.com :

Ask, anciennement appelé Ask Jeeves, est multilingue sur Internet fondé en 1996 par Garrett Gruner et David Warthen. Il appartient actuellement à InterActiveCorp. Fin 2010, face à la compétition de Google, la société décide d'externaliser la technologie à un tiers, afin de revenir à ses activités premières en tant que sites de questions/réponses.

Baidu :

Anciennement appelé Live Search, Windows Live Search et MSN Search, Bing , développé par Microsoft, sorti en 2008, a été rendu public en 2009. Dans sa version finale, Bing offre la recherche de sites web, d'images, de vidéos, de shopping, d'actualités, de cartes, de voyages, etc... Selon Microsoft, il innove au niveau de ses algorithmes, donnant des résultats plus pertinents, mieux organisés et classés en rubriques de thématiques. L'objectif de Microsoft avec Bing est de concurrencer la suprématie de Google.

DuckDuckGo :

DuckDuckGo est multilingue, non-commercial qui se distingue des autres en utilisant des crowdsourcing provenant d'autres sites dans le but d'enrichir les résultats trouvés et d'améliorer la pertinence. Sa philosophie est de préserver la vie privée et de ne stocker aucune information personnelle.

Exalead :

C'est une solution logicielle crée en 2000 par François Bourdoncle et Patrice Bertin. Il est spécialisé dans les infrastructures permettant le développement d'applications pour les entreprises sur une base de moteur de recherche. Exalead est donc une technologie de recherche Web sous forme de logiciel.

Gigablast :

Gigablast est un logiciel libre et un site de moteur de recherche, fondé en 2000 par Matt Wells. Son but est d’indexer un maximum de pages avec un minimum de matériel (près d'un milliard de page indexées avec seulement 8000 dollars de matériel contre 8 milliards de pages et plusieurs dizaines de millions de dollars de matériel pour Google).

Google :

Google est le moteur de recherche qui a donné son nom à la société Google mais c'est aussi le plus utilisé au monde. Créé en 1998, c'est son principe de fonctionnement qui a fait son succès .Celui-ci est basé sur le PageRank : lorsqu'un document est pointé par de nombreux liens son PageRank augmente. Ce système donne une indication sur la popularité du document parmi les ressources du web,il est très apprécié pour sa rapidité et sa sobriété.

LeMoteur :

Multilingue,il est lancé en 1996 par Orange. Il utilise des algorithmes mathématiques pour classer les sites en fonction de critères de pertinence internes aux pages (les titres de la page, l'url, les mots-clés, …) et externes au site indexé (popularité, taux de clics).

Lycos :

Créé en 1994 par Bob David, Lycos était à l'origine un ensemble de portails internet en Asie, Amérique Latine, Europe et Amérique du Nord.

Mozbot :

Basé sur le moteur Google, il propose tout de même quelques fonctionnalités supplémentaires comme la liste noire qui permet de ne pas faire réapparaître un lien dans les recherches suivantes.

Paguso :

Moteur chinois, lancé en 2011 par la société China Teleom et l'agence de presse d'état Chine nouvelle, a été créé pour concurrencé Baidu qui est bien implanté dans ce pays.

Qwant :

Français, multilingue, créé et lancé en 2013. Sa philosophie est de ne pas tracer ses utilisateurs pour garantir la vie privée et d'être neutre dans l'affichage de ses résultats. Il fut pourtant très critiqué lors de son lancement pour ses résultats très proches de ceux de Bing et Wikipédia. Il existe aussi une déclinaison pour les enfants.

Searx :

Moteur de recherche libre, inspiré de du moteur Seeks, créé en 2017 par Adam Tauber, ayant lui aussi pour but de protéger la vie privée de ses utilisateurs.

Sohu :

Chinois lancé en 1998, appartenant à la société Sougou.

Soso :

C’ est lui aussi un moteur de recherche chinois, selon le classement Alexa, il atteint en 2014 le 39ème rang mondial et le 11ème rang chinois.

Naver :

C'est le portail web le plus important en Corée du Sud. Lancé en 1999, il est géré par la société NHN (Next Human Network) et cétait le premier portail en Corée à utiliser sa propre technologie de recherche.

V9 :

C'est un moteur international chinois créé par Beijing ELEX Technology Ltd. Ses principaux utilisateurs sont originaires d'Inde.

Yahoo !:

Crée en 1994, par Jerry Yang et David Filo, il est à l'origine un annuaire web. Il est maintenant un moteur de recherche, mais il propose aussi d'autres services gratuits et payants comme une boîte à courrier électronique, de la messagerie instantanée, de l'hébergement web et des portails web.

Ecosia :

Ecosia est un moteur de recherche caritatif qui reverse 80 % de ses revenus publicitaires à un programme de reforestation présent partout dans le monde (Burkina Faso, Pérou et Madagascar). Ainsi plus de 6 millions d'arbres ont été plantés depuis sa création le 7 décembre 2009. Les résultats affichés par Ecosia sont générés par Bing, les encarts publicitaires ne le sont pas. Yahoo ! et Ecosia affichent des liens publicitaires qui génèrent des revenus à chaque clic. Pour finir Ecosia neutralise à 100 % les émissions de CO² de ses serveurs, de son infrastructure, de ses locaux et des appareils de ses utilisateurs grâce à un projet de compensation de carbone géré par son partenaire myclimate.

GoodSearch :

Utilisant les résultats de Yahoo. , il a permis,en 2005, de récolter 6 milliards de dollars, son but étant de donner un pourcentage de ces revenus à des causes caritatives.

Lilo :

Créé en 2014, il finance des projets sociaux et environnementaux grâce à une partie des revenus générés par la publicité. Il permet aussi de faire participer l'utilisateur qui comptabilise une goutte d'eau pour chaque recherche effectuée, celui-ci choisit ensuite à quel projet il souhaite contribuer en répartissant ses gouttes d'eau. Lilo transforme ensuite le nombre total de gouttes d'eau en investissement dans le projet.

Doona :

A l'origine Doona est le nom d'une association « loi de 1901 » qui a mis en place le premier moteur de recherche à but humanitaire : Doona.fr. Celui-ci est financé par la publicité, et répartit ses recettes dans différentes associations humanitaires telles que Emmaüs ou WWF. A ses débuts, le moteur de recherche utilisait uniquement la technologie de son partenaire Exalead mais par la suite, d'autres moteurs plus pertinents furent choisis pour la recherche web afin de répondre aux exigences des utilisateurs.

HooSeek :

Solidaire , créé en 2006 par Thomas et Olivier Barbey et Pierre Bonati. son but était de soutenir des associations françaises et internationales par l'intermédiaire de parrainages sans frais pour l'utilisateur. Il s'engageait ainsi à reverser 50 % des gains générés par la recherche des internautes à des associations.

Les moteurs de recherches d'entreprise :

Exalead :

Voir la présentation d'Exalead plus haut.

Google :

Voir la présentation de Google plus haut.

Verticrawl :

Lancé en 1999, Verticrawl est un logiciel. Il permet l'indexation de text/plain et en tant que moteur de recherche sémantique, il est capable de reconnaître 68 langues.

DataparkSearch :

DataparkSearch est open source, développé par Maxim Zakharov. Il est conçu pour effectuer des recherches dans un site web, un groupe de sites web, un intranet ou un système en local. Il peut indexer nativement des données en format text/plain, text/html, text/xml ainsi que beaucoup d'autres types de données en utilisant des parsers externes. C'est un moteur multilingue qui utilise une technologie de négociation de contenu pour récupérer les versions de la même page en différentes langues.

OpenSearchServer :

En abrégé OSS est un serveur d'applications open source permettant de développer des applications/logiciels reposant sur des indexs comme les moteurs de recherche. Disponible en téléchargement depuis 2009, il propose un ensemble d'analyseurs syntaxiques et peut être installé sur différents systèmes d'exploitation. Il est lui-même considéré comme un moteur de recherche.

Elasticsearch :

C’ est un serveur utilisant Lucene pour l'indexation et la recherches des données, il fournit ainsi un moteur de recherche à travers une interface REST. C'est le serveur de recherche d'entreprise le plus populaire.

Grub :

C’est un logiciel libre créé en 2000 ar Kord Campbell , c'est aussi un moteur d'indexation de pages web basé sur la partage de ressources informatiques utilisant la puissance de calcul non-utilisée d'ordinateurs personnels connectés à Internet.

Apache Solr :

C'est une plateforme logicielle de moteur de recherche s'appuyant sur la bibliothèque de recherche Lucene créée par la Fondation Apache et utilisant le langage Java.

Nutch :

C’ est une initiative ayant pour but de créer un moteur de recherche open source, pour cela il utilise la bibliothèque de moteur de recherche et d'indexation Lucene. La beta version a été lancé en 2004.

Seeks :

Moteur de recherche libre crée en 2012 par Emmanuel Benazera, Mehdi Abaakouk et Pablo Joubert. Il se présente sous la forme d'un proxy qui intercepte les requêtes faites à d'autres, les soumet aux moteurs activés dans la configuration, recueille et recoupe les résultats pour ensuite les présenter à l'utilisateur.

Sphinx :

Sphinx est un logiciel libre créé en 2011, permettant d'indexer différents types de données. Il est considéré comme étant un moteur de recherche.

Whoosh :

C’ est un moteur de recherche open source créé par Matt Chaput en 2015.

Xapian :

Il est lui aussi open source. C'est un outil souple permettant de s'intégrer facilement à d'autres applications pour leur fournir des fonctions d'indexation et de recherche.

YaCy :

Créé en 2004, libre, fonctionnant sur le principe d'un réseau pair à pair.

Zettair :

C'est un petit moteur de recherche permettant l'indexation et la recherche de données au format HTML ou TREC. Le principal avantage, sa capacité à manipuler d'importantes collections de documents de façon rapide et efficace.

Les moteurs de recherches Dark Web (Tor) :

Ahmia, GM Search Dark, Grams et TorSearch.

Les moteurs de recherches éducation et recherche :

BASE :

BASE est un moteur de recherche non-commercial, multilingue (chinois, allemand, français, espagnol, polonais grec et ukrainien), développé dans le cadre du projet Open Archives Initiative par l'université de Bielefeld en Allemagne. Lancé en 2004, il est basé dur la technologie Fast Search and Transfer et a contribué au projet européen Digital Repository Infrastructure Vision for European Research. BASE effectue l'indexation automatique des bibliothèques numériques qui utilisent le protocole OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Il se distingue surtout des autres par sa spécialisation universitaire, sa capacité à trouver des ressouces non indexées par les moteurs commerciaux et sa présentation des résultats accompagnée des données bibliographiques.

CiteSeerX :

C’est un moteur de recherche et une librairie numérique pour les articles scientifiques et académiques, développé par les chercheurs Isaac Concill et Lee Giles avec le logiciel libre SeerSuite. Il est légèrement basé sur le précédent CiteSeer. Il utilise un index de citation permettant de rechercher par citation et de trier les éléments en fonction de leur importance.

Google Scholar :

Service de Google créé en 2004, permettant la recherche d'articles scientifiques. Il inventorie des articles, des thèses de type universitaire, des citations ou encore des livres scientifiques.

PubMed :

Principal moteur de recherche de données bibliographiques dans le domaine de la biologie et de la médecine. Il a été développé par le centre américain pour les informations biotechnologiques.

FreeFullPDF :

Réalisé avec Google Custom Search Engine, il permet d'accéder à des publications scientifiques en libre accès. Tous les sujet scientifiques sont couverts et tous les articles sont disponibles gratuitement au format PDF.

Les moteurs de recherches pour enfants :

Yahoo ! Kids :

Anciennement appelé Yahooligans !, c'est le nom d'un des portails web de Yahoo ! à destination des enfants. Chaque entrée du répertoire est vérifiée par des employées de la société afin de garantir que le contenu est approprié.

BabyGo :

Français, spécialement conçu pour les enfants. L'intégralité des sites indexés ont été au préalable vérifié par une équipe d'adultes conscients des risques d'Internet.

Les moteurs de recherches d'images :

Google Images :

Service proposé par Google depuis 2001,pour permettre de trouver sur le web des images en rapport avec la recherche de l'utilisateur.

TinEye :

Créé en 1999, site canadien permettant la recherche d'image par le contenu. L'utilisateur fournit au moteur une URL ou une image dans son disque dur et celui-ci recherche une image identique sans prendre en compte la taille et la définition. On peut ainsi récupérer des images de meilleures définitions mais aussi des images plus complètes si la photo fournie était partiellement incomplète ou détèriorée.

YaCy :

Voir la présentation de YaCy plus haut.

Les moteurs de recherches sur les sites de partage :

FilesTube :

Créé en 2007 par Red-Sky et mis hors ligne fin 2014. Il était spécialisé dans la recherche de fichiers (musiques, vidéos, logiciels et jeux vidéo) sur les sites d'hébergements de fichiers.

Les moteurs de recherches de recrutement :

Regionsjob :

Lancé en 2000, Regionsjob.com est un jobboard français de gestion de carrière et de formation. Il est principalement utilisé pour aider les personnes qui recherchent un emploi pour trouver une offre correspondant à leurs compétences et à leur situation géographique.Sa spécificité repose sur le fait qu'il a un réseau de 8 sites d'emploi distincts, soit un pour chaque région française : ParisJob, NordJob, OuestJob, SudouestJob, PacaJob, RhonesalpesJob, CentreJob et EstJOb.

Cadremploi :

Cadremploi est jobboard ou autrement dit un site de recrutement fondé en 1990 et destiné aux cadres. Il regroupe aujourd'hui plus de 750 cabinets de recrutement et est spécialisé, comme son nom l'indique, dans le recrutement des cadres. En 2009, environ 15 000 annonces étaient disponibles et le site visité par 100000/mois.

Keljob.com :

Comme Cadremploi Keljob.com est un jobboard généraliste français, créé en 2000.

Monster :

Monster.com est un jobbord créé en 1999 par Monster Worldwide suite à la fusion de deux sites de gestion de carrière. Il est principalement utilisé pour aider les personnes qui recherchent un emploi à trouver une offre correspondant à leurs compétences et leur situation géographique.

Les moteurs de recherche sémantique :

Exalead :

Voir la présentation d'Exalead plus haut.

Verticrawl :

Voir la présentation de Verticrawl plus haut.

Sources :

https://fr.wikipedia.org/wiki/Liste_de_moteurs_de_recherche

https://fr.wikipedia.org/wiki/Moteur_de_recherche

http://www.eskimoz.fr/saviez-vous-quil-existe-des-moteurs-de-recherche-alternatifs-a-google/

A propos de SUPINFO | Contacts & adresses | Enseigner à SUPINFO | Presse | Conditions d'utilisation & Copyright | Respect de la vie privée | Investir
Logo de la société Cisco, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société IBM, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sun-Oracle, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Apple, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sybase, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Novell, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Intel, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Accenture, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société SAP, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Prometric, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Toeic, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo du IT Academy Program par Microsoft, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management

SUPINFO International University
Ecole d'Informatique - IT School
École Supérieure d'Informatique de Paris, leader en France
La Grande Ecole de l'informatique, du numérique et du management
Fondée en 1965, reconnue par l'État. Titre Bac+5 certifié au niveau I.
SUPINFO International University is globally operated by EDUCINVEST Belgium - Avenue Louise, 534 - 1050 Brussels