#45 - Comment faire du scraping at scale ? 🕸

Bienvenue pour ce nouvel épisode ! Aujourd’hui, j’ai le plaisir d’accueillir Josselin Liebe, fondateur de l’entreprise Piloterr. Josselin a créé Piloterr en 2020. C’est un SaaS par lequel les entreprises viennent s’interconnecter avec lui en API. Il fournira par la suite une grosse quantité de donnée "at scale" (milliers de requêtes par mois) que ces entreprises pourront exploiter. Les cas d'usages sont alors variés et multiples (bureautique, immobilier, automobile, …). Les clients ont souvent des petits soucis, que Josselin et son équipe vont décortiquer, pour proposer des solutions par la suite. Dans cet épisode tu découvriras les conseils suivants : Afin de scraper des données : Demande-toi ou aux clients ce qu’ils veulent comme données et sur quel site. Ensuite navigue sur le site en question et regarde toutes les requêtes (JavaScript, API, .). Continue en utilisant des outils comme Charles et fais une analyse plus poussée sur ce qui se passe sur le site. Charles permettra de faire une passerelle, créer un proxi entre le navigateur et le site internet ; et pouvoir faire des pauses au niveau des requêtes et faire des recherches en profondeur. Regarde par la suite qui protège le site via l’extension Wappalyzer, et commence à regarder comment fonctionne la pagination, les filtres, … et joue sur le site pendant une heure ou deux en notant les points importants. Une fois que c’est bon, fais du scraping avec un outil tel qu’Octoparse, qui permettra d’émuler un navigateur chrome. Tu pourras alors faire des clics, des scrolls, rechercher les données et mettre le tout dans un CSV pour la partie accessible. Une fois le site web analysé, avant de le scraper, utilise Octoparse ou développe ton script sur Python, et passe ensuite par des passerelles qui vont permettre de passer sur d’autres sites de manière plus anonymes, et commence à scraper et à mettre le tout dans une base de données. Fais du Google dorking, cela permet de gagner du temps. Il est important de faire attention sur les sites, et d’utiliser un VPN si besoin est. Data broker ET open data : Data broker : ce sont des entreprises qui vont vendre des données déjà scraper. Par exemple : tu peux aller sur des marketplaces, chercher tout le catalogue d'IKEA, trouver ensuite les vendeurs des meubles chez IKEA... Tu peux après payer une certaine somme pour avoir le CSV. (pas très RGPD) Open data : c’est une base de données ouverte. Il existe plein de petites pistes qui permettent de trouver des CSV sans payer. Gap entre scraping et scraping at scale : On parle de scale lorsqu’il est question de millions de requêtes par mois sur certains sites. Scraping at scale : on sait vers quoi on va et le problème est bien déterminé. Scraping tout court : prend du temps et coûte de l’argent (bande passante, stockage, …). Pour voir si on travaille dans la légalité ou non, il est important de faire des formations à cet effet, ou de s’informer autant que possible. Afin de faire du bon scraping at scale, il faut être malicieux (dans le sens malin) et chercher sur Google la réponse à nos questions. Toujours s’autoformer et apprendre en passant du temps sur les réseaux ou les forums de Growth hacking. J’espère que cet épisode t’apportera de la valeur 💪 Bonne écoute ! Les liens utiles Les ressources/outils mentionnés : Piloterr Charles Wappalyzer Notion OctoparseOctoparse Python Instant data scraper Web scraper Elasticsearch Retrouve Josselin Josselin Liebe Abonne-toi : Spotify Apple podcast Newsletter LinkedIn

Plus d'épisodes