Blog

elasticsearch vs SEO

Elasticsearch vs SEO : ITW de Mathieu

24
Août
Publié par

Aujourd’hui Mathieu présente son expertise sur l’outil Elastic Search. Cet article met notamment en lumières les points communs entre Elastic Search et le SEO avec des exemples concrets d’utilisation…

Bonjour Mathieu, peux-tu te présenter ?

Je m’appelle Mathieu, je suis Bordelais, ancien Londonien. Je travaille dans l’informatique depuis une bonne dizaine d’année avec un profil très technique.

Quelle est ton activité?

Aujourd’hui je suis consultant et formateur Elasticsearch. Je donne des cours sur cette technologie à d’autres ingénieurs. J’interviens également sur des missions de consulting ou production pour des clients de tous horizons avec principalement des startups et des SSII.

Elasticsearch c’est quoi ?

Elasticsearch est un moteur de recherche et de statistiques scalable.
Un moteur de recherche est un logiciel qui permet de rechercher du texte dans des documents indexés. Il le fait mieux qu’une base de données classique, de manière plus pertinente et avec des performances accrues car il est conçu et optimisé pour cela. Par exemple il est capable de retirer des caractères spéciaux comme “é,à etc…”, stocker la racines des mots (mot à la place de mots), utiliser des synonymes, retirer les mots courants comme “le, la, du etc..”. Il est surtout capable de classer les documents recherchés en fonction de la pertinence par rapport à la recherche d’origine. C’est comme google qui met en première page les pages les plus pertinentes. On devine tout de suite que cette notion est “floue”, qu’il n’y a pas de solution parfaite. C’est pourquoi les moteurs de recherche sont des technologies à part entière, différents des bases de données.

Elasticsearch est également très bon pour les statistiques. Il est capable de faire des calculs sur les documents indexés ou retournés lors de la recherche. Par exemple dans une recherche de livres combiens sont dans le rayon informatique, combien dans le rayon science ? etc… Il va bcp plus loin que cela et dépasse aujourd’hui en performance des bases de données TSD (time series database) pour des solutions d’IOT (internet des objets) par exemple.

Scalable vient de son nom “elastic” et signifie qu’il peut être littéralement mis à l’échelle, redimensionné en fonction des besoins de charges. Plus simplement si vous avez besoin d’indexer 10 000 documents, une petite machine suffira. Par contre imaginez que votre startup explose et qu’il vous faut maintenant indexer un milliard de document. Il suffira d’ajouter des machines et elasticsearch répartira automatiquement la charge sur celles-ci. C’est la power feature d’elasticsearch. Il est très apprécié des techniciens et des startups pour sa facilité de “première mise en route” et rassure sur sa capacité à suivre l’expansion de votre activité.

Peut-tu donner un exemple d’utilisation simple et très concret ?

Par exemple j’édite un blog. Je souhaite que mes visiteurs puissent rechercher dans mes articles. Je vais stocker / enregistrer tous mes articles dans elasticsearch. Quand un visiteur ferra une recherche, il interrogera elasticsearch qui lui renverra les articles les plus pertinents par rapport à sa recherche.

kibana visualitaion des log SEO

Peut-on utiliser Elasticsearch en SEO ?

Oui. Je l’ai moi même utilisé sur un projet qui totalisait 5 millions de pages indexées dans google. Elasticsearch m’a permis de monitorer le passage du google bot. Le plus intéressant était son taux de passage (rate crawl). Je voyais le bot passer en temps réel sur mes pages toutes les secondes. Par contre, dès que je faisait une modification de mon application avec un mauvais impact sur le référencement le rate passait de une seconde a plus d’une minute. Cela me permettait de réagir tout de suite et corriger mon application avant d’attendre le déclassement.

Elasticsearch m’a été utile également pour voire l’indexation en temps réel de mes nouvelles pages. Lorsque que je publiait une nouvelle url sur les réseaux sociaux, j’observais le bot passer dans la seconde, puis cinq minutes plus tard. A ce moment la ma page était indexée dans google. Par contre, pour les pages de mauvaises qualités ce n’était pas le cas. Cela me permettait de voir aussi comment google considérait mon site. Un crawl par seconde et des nouvelles pages parcourues et indexées en moins de cinq minutes: google aimait bien mon site !


Il faut préciser que je n’utilisait pas elasticsearch tout seul mais le stack ELK: elasticsearch logstah, kibana. Ce trio est une solution complète d’analyse de logs, open source et gratuite. Logstash est un agent qui va parcourrir les logs de votre serveur et les pousser (logshipper) dans Elasticsearch. Puis kibana est l’interface pour visualiser les logs et faire des recherches dans ceux-ci par mot clés en temps réel.

Merci Mathieu !

bertrand masselotAuteur : Bertrand Masselot est consultant en Search, SEO, SEA et WebAnalytics. Certifié Adwords et Analytics, il a travaillé pour de nombreuses marques et grands comptes chez Publicis Performics, avant de créer la société Volumium en 2010. Agence Google Partner, Volumium compte parmi ses clients divers grands comptes et des PME.

Classés dans :,

Cet article a été écrit par Bertrand Masselot

Les commentaires sont fermés.