Le raclage de contenu (aka le grattage web, la récolte sur le Web, l’extraction de données Web, etc.) est la procédure de copie de données à partir d’un site Web. Les « scrapers » (racleurs) de contenu sont les personnes ou les logiciels qui copient les données. Le raclage Web n’est pas une mauvaise chose.

En fait, tous les navigateurs Web sont essentiellement des racleurs de contenu. Il existe de nombreux objectifs légitimes pour faire le raclage de contenu, comme l’indexation Web pour les moteurs de recherche, par exemple.

Consultez notre article sur Comment empêcher Google d’indexer votre blog WordPress

La vraie préoccupation est de savoir si les racleurs de contenu sur votre site web sont nocifs ou non. Les concurrents peuvent vouloir voler votre contenu et le publier comme leur appartenant. Si vous pouvez distinguer les utilisateurs légitimes et les méchants, vous avez de meilleures chances de vous protéger. Cet article explique les bases du raclage web, ainsi que quelques méthodes pour vous en débarrasser (ou au moins réduire leur importance).

Mais avant, si vous n’avez jamais installé WordPress découvrez Comment installer un blog WordPress en 7 étapes et Comment rechercher, installer et activer un thème WordPress sur votre blog 

Ensuite revenons vers ce pourquoi nous sommes là.

Types de racloirs de contenu

Il existe de nombreuses façons différentes pour les racleurs de contenu de télécharger des données. C’est important de connaître les différentes méthodes et la technologie qu’ils utilisent. Les méthodes vont de la technologie basse (une personne copiant et collant manuellement le contenu) à des robots sophistiqués (logiciel automatisé capable de simuler l’activité humaine dans un navigateur). Voici un résumé de ce que vous pourriez avoir à faire:

  • Spiders: l’exploration Web est une grande partie de la façon dont les racleurs de contenu fonctionnent. Une araignée comme Googlebot commencera en ramassant une page Web unique, et va de lien en lien pour télécharger des pages Web.
  • Scripts shell:  Vous pouvez utiliser Linux Shell pour créer des racleurs de contenu avec des scripts comme GNU Wget pour télécharger du contenu.
  • Scraper HTML:  ils sont similaires aux scripts shell. Ce type de racleur est très fréquent. Il fonctionne en obtenant la structure HTML d’un site Web pour trouver des données.
  • Écrans de vue: un racleur d’écran est un programme qui capture les données d’un site Web en reproduisant le comportement d’un utilisateur humain qui utilise un ordinateur pour naviguer sur Internet.
  • Copie humaine: c’est là où une personne copie manuellement le contenu de votre site Web. Si vous avez déjà publié en ligne, vous avez peut-être remarqué que le plagiat est répandu. Après que la flatterie initiale disparaît, la réalité que quelqu’un profite de votre travail s’inscrit.

Il existe plusieurs façons de faire la même chose. Les catégories de racleurs énumérés ci-dessus n’est pas une liste exhaustive. De plus, il y a beaucoup de chevauchements entre les catégories.

Lisez aussi notre article sur Comment et pourquoi faire un audit qualitatif de votre contenu

Comment protéger votre blog

Protéger un blog des racleurs de contenu

1. Limitation de taux et blocage

Vous pouvez combattre une grande partie des robots en détectant le problème d’abord. Il est typique pour un robot automatisé de spammer votre serveur avec un nombre exceptionnellement élevé de demandes. La limitation du taux, comme son nom l’indique, limite les requêtes du serveur provenant d’un client individuel en définissant une règle.

Vous pouvez faire des choses comme mesurer les millisecondes entre les requêtes. Si l’interaction avec votre site web est trop rapide, alors vous savez que c’est un robot. Par la suite, bloquez cette adresse IP. Vous pouvez bloquer les adresses IP en fonction d’un certain nombre de critères, y compris de leur pays d’origine.

2. Enregistrement et connexion

L’inscription et la connexion sont un moyen populaire de garder le contenu à l’abri des regards indiscrets. Vous pouvez entraver la progression des robots. Il vous suffit de subordonner l’accès de votre contenu à une connexion. Les bases de la sécurité de connexion s’appliquent ici. Gardez à l’esprit que les pages nécessitant une inscription et une connexion ne seront pas indexées par les moteurs de recherche.

3. Honeypots et fausses données

En informatique, les « honeypots » sont des opérations de piqûres virtuelles. Vous rassemblez les attaquants potentiels en mettant des pièges avec un honeypot, pour détecter le trafic des racleurs de contenu. Il existe un nombre infini de façons de le faire.

Par exemple, vous pouvez ajouter un lien invisible sur votre page Web. Ensuite, créez un algorithme qui bloque l’adresse IP du client qui a cliqué sur le lien. Des honeypots plus sophistiqués peuvent être difficiles à configurer et à maintenir. La bonne nouvelle est qu’il y a beaucoup de projets Honeypot open source là-bas. Vérifiez cette grande liste de honeypots géniaux  sur github.

4. Utilisez un CAPTCHA

Captcha signifie « Completely Automated Public Turing test to tell Computers and Humans Apart » en gros, test pour différencier les humains et les robots. Les captchas peuvent être ennuyeux, mais ils sont également utiles. Vous pouvez utiliser un pour bloquer les zones que vous pensez qu’un robot peut vouloir cibler, comme un bouton d'email sur votre formulaire de contact. Il existe de nombreux bons plugins Captcha disponibles sur WordPress, y compris le module « Captcha » de Jetpack.

Découvrez aussi quelques plugins WordPress premium  

Vous pouvez utiliser d’autres plugins WordPress pour donner une apparence moderne et pour optimiser la prise en main de votre blog ou site web.

Nous vous proposons donc ici quelques plugins WordPress premium qui vous aideront à le faire.

1. Stripe for Arforms

ARForms possède une nouvelle extension qui accepte les paiements via la passerelle de paiement Stripe. Il s’agit de « ARForms Stripe ». Cette dernière intègre les entrées de formulaires et les paiements dans un processus unique.

Stripe for arforms

Vous pouvez facturer les clients avec un montant dynamique instantanément après la soumission de formulaire de ARForms.

Lisez aussi notre article sur Comment utiliser Stripe sur WooCommerce et Easy Digital Download

Vous devez juste créer un formulaire avec ARForms, le configurer avec Stripe et tout est fait! Vous pouvez définir le paiement par Stripe en un rien de temps.

Télécharger | Démo | Hébergement Web

2. AX Social Stream

Si vous souhaitez afficher plusieurs flux de réseaux sociaux sur votre site Web, alors le plugin WordPress Social Board vous permettra de faire cela en vous fournissant six modes d’affichage des activités de vos comptes. Vous bénéficierez également d’un support pour 17 réseaux sociaux, et plusieurs mises en page personnalisables.

Ax social stream plugin wordpress

Ses fonctionnalités sont entre autres : 6 différents modes d’affichage des flux, le support d’une grande majorité de réseaux sociaux, la mise en page entièrement responsive, la prise en charge des bannières publicitaires, le support du multilingue, un gestionnaire de thèmes, une documentation détaillée, etc…

Télécharger | Démo | Hébergement Web

3. Interactive World Maps

Interactive World Maps vous aide à créer autant de cartes de géolocalisation que vous le souhaitez, des continents, des pays ou régions…et ce avec des marqueurs interactifs et colorés.

Interactive World Maps

Il est compatible avec les dernières versions de WordPress et s’adapte parfaitement avec le plugin Visual Composer.

Découvrez nos 8 plugins WordPress pour personnaliser le look de votre site web

Grâce à Interactive World Maps, vous pourrez afficher plusieurs types de régions telles que: une carte du monde entier, un continent ou un sous-continent, un pays et bien plus encore.

Télécharger Démo | Hébergement Web

Autres ressources recommandées

Nous vous invitons aussi à consulter les ressources ci-dessous pour aller plus loin dans la prise en main et le contrôle de votre site web et blog.

Conclusion

Voilà ! C’est tout pour ce tutoriel, j’espère qu’il vous aidera à mettre en place une liste pratique de tâche à faire pour protéger efficacement votre blog WordPressN’hésitez pas à partager l’astuce avec vos amis sur vos réseaux sociaux.

Cependant, vous pourrez aussi consulter nos ressources, si vous avez besoin de plus d’éléments pour mener à bien vos projets de création de sites internet, en consultant notre guide sur la création de blog WordPress.

Mais, en attendant, faites-nous part de vos commentaires et suggestions dans la section dédiée.

…