skip to Main Content

Comment protéger votre blog des racleurs de contenu

Divi : le thème WordPress le plus facile à utiliser

Divi : Le meilleur thème WordPress de tous les temps !

Avec plus de 600.000 téléchargements, Divi est le thème WordPress le plus populaire au monde. Il est complet, facile à utiliser et livré avec plus de 62 templates gratuits. [ Recommandé ]

Le raclage de contenu (aka le grattage web, la récolte sur le Web, l’extraction de données Web, etc.) est la procédure de copie de données à partir d’un site Web. Les « scrapers » (racleurs) de contenu sont les personnes ou les logiciels qui copient les données. Le raclage Web n’est pas une mauvaise chose. En fait, tous les navigateurs Web sont essentiellement des racleurs de contenu. Il existe de nombreux objectifs légitimes pour faire le raclage de contenu, comme l’indexation Web pour les moteurs de recherche, par exemple.

La vraie préoccupation est de savoir si les racleurs de contenu sur votre site sont nocifs ou non. Les concurrents peuvent vouloir voler votre contenu et le publier comme leur appartenant. Si vous pouvez distinguer les utilisateurs légitimes et les méchants, vous avez de meilleures chances de vous protéger. Cet article explique les bases du raclage web, ainsi que quelques méthodes pour vous en débarrasser (ou au moins réduire leur importance).

Types de racloirs de contenu

Il existe de nombreuses façons différentes pour les racleurs de contenu de télécharger des données. C’est important de connaître les différentes méthodes et la technologie qu’ils utilisent. Les méthodes vont de la technologie basse (une personne copiant et collant manuellement le contenu) à des robots sophistiqués (logiciel automatisé capable de simuler l’activité humaine dans un navigateur). Voici un résumé de ce que vous pourriez avoir à faire:

  • Spiders: l’exploration Web est une grande partie de la façon dont les racleurs de contenu fonctionnent. Une araignée comme Googlebot commencera en ramassant une page Web unique, et va de lien en lien pour télécharger des pages Web.
  • Scripts shell:  Vous pouvez utiliser Linux Shell pour créer des racleurs de contenu avec des scripts comme GNU Wget pour télécharger du contenu.
  • Scraper HTML:  ils sont similaires aux scripts shell. Ce type de racleur est très fréquent. Il fonctionne en obtenant la structure HTML d’un site Web pour trouver des données.
  • Écrans de vue: un racleur d’écran est un programme qui capture les données d’un site Web en reproduisant le comportement d’un utilisateur humain qui utilise un ordinateur pour naviguer sur Internet.
  • Copie humaine: c’est là où une personne copie manuellement le contenu de votre site Web. Si vous avez déjà publié en ligne, vous avez peut-être remarqué que le plagiat est répandu. Après la flatterie initiale disparaît, la réalité que quelqu’un profite de votre travail s’inscrit.

Il existe plusieurs façons de faire la même chose. Les catégories de racleurs énumérés ci-dessus n’est pas une liste exhaustives. De plus, il y a beaucoup de chevauchement entre les catégories.

Créez Facilement votre site Web avec Elementor

Elementor vous permet de créer facilement n'importe quel design de site Web avec un look professionnel. Arrêtez de payer cher pour ce que vous pouvez faire vous-même. [ Gratuit ]

Comment protéger votre blog

1 – Limitation de taux et blocage

Vous pouvez combattre une grande partie des robots en détectant le problème d’abord. Il est typique pour un robot automatisé de spammer votre serveur avec un nombre exceptionnellement élevé de demandes. La limitation du taux, comme son nom l’indique, limite les requêtes du serveur provenant d’un client individuel en définissant une règle.

Cherchez-vous les meilleurs thèmes et plugins WordPress ?

Téléchargez les meilleurs plugins et thèmes WordPress sur Envato et créez facilement votre site web. Déjà plus de 49.720.000 de téléchargements. [EXCLUSIF]

Vous pouvez faire des choses comme mesurer les millisecondes entre les requêtes. Si l’interaction avec votre site est trop rapide, alors vous savez que c’est un robot. Par la suite, bloquez cette adresse IP. Vous pouvez bloquer les adresses IP en fonction d’un certain nombre de critères, y compris de leur pays d’origine.

2 – Enregistrement et connexion

L’inscription et la connexion sont un moyen populaire de garder le contenu à l’abri des regards indiscrets. Vous pouvez entraver la progression des robots. Il vous suffit de subordonner l’accès de votre contenu à une connexion. Les bases de la sécurité de connexion s’appliquent ici. Gardez à l’esprit que les pages nécessitant une inscription et une connexion ne seront pas indexées par les moteurs de recherche.

3 – Honeypots et fausses données

En informatique, les « honeypots » sont des opérations de piqûres virtuelles. Vous rassemblez les attaquants potentiels en mettant des pièges avec un honeypot, pour détecter le trafic des racleurs de contenu. Il existe un nombre infini de façons de le faire.

Par exemple, vous pouvez ajouter un lien invisible sur votre page Web. Ensuite, créez un algorithme qui bloque l’adresse IP du client qui a cliqué sur le lien. Des honeypots plus sophistiqués peuvent être difficiles à configurer et à maintenir. La bonne nouvelle est qu’il y a beaucoup de projets Honeypot open source là-bas. Vérifiez cette grande liste de honeypots géniaux  sur github.

Créez Facilement votre Boutique en ligne

Téléchargez gratuitement WooCommerce, le meilleurs plugins e-commerce pour vendre vos produits physiques et numériques sur WordPress. [Recommandé]

4 – Utilisez un CAPTCHA

Captcha signifie « Completely Automated Public Turing test to tell Computers and Humans Apart » en gros, test pour différencier les humains et les robots. Les captchas peuvent être ennuyant, mais ils sont également utiles. Vous pouvez utiliser un pour bloquer les zones que vous pensez qu’un robot peut vouloir cibler, comme un bouton d’email sur votre formulaire de contact. Il existe de nombreux bons plugins Captcha disponibles sur WordPress, y compris le module « Captcha » de Jetpack.

C’est tout pour cette liste de pratiques que vous mettrez en place pour protéger votre blog WordPress.

Cet article comporte 0 commentaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Back To Top
18 Partages
Partagez14
Tweetez3
Enregistrer1