#45 - Comment faire du scraping at scale ? 🕾
Conseil de Growth - Des mĂ©thodes concrĂštes et actionnables đŸ„”

#45 - Comment faire du scraping at scale ? 🕾

·25 min
Télécharger
Bienvenue pour ce nouvel Ă©pisode ! Aujourd’hui, j’ai le plaisir d’accueillir Josselin Liebe, fondateur de l’entreprise Piloterr. Josselin a créé Piloterr en 2020. C’est un SaaS par lequel les entreprises viennent s’interconnecter avec lui en API. Il fournira par la suite une grosse quantitĂ© de donnĂ©e "at scale" (milliers de requĂȘtes par mois) que ces entreprises pourront exploiter. Les cas d'usages sont alors variĂ©s et multiples (bureautique, immobilier, automobile, 
). Les clients ont souvent des petits soucis, que Josselin et son Ă©quipe vont dĂ©cortiquer, pour proposer des solutions par la suite. Dans cet Ă©pisode tu dĂ©couvriras les conseils suivants : Afin de scraper des donnĂ©es : Demande-toi ou aux clients ce qu’ils veulent comme donnĂ©es et sur quel site. Ensuite navigue sur le site en question et regarde toutes les requĂȘtes (JavaScript, API, .). Continue en utilisant des outils comme Charles et fais une analyse plus poussĂ©e sur ce qui se passe sur le site. Charles permettra de faire une passerelle, crĂ©er un proxi entre le navigateur et le site internet ; et pouvoir faire des pauses au niveau des requĂȘtes et faire des recherches en profondeur. Regarde par la suite qui protĂšge le site via l’extension Wappalyzer, et commence Ă  regarder comment fonctionne la pagination, les filtres, 
 et joue sur le site pendant une heure ou deux en notant les points importants. Une fois que c’est bon, fais du scraping avec un outil tel qu’Octoparse, qui permettra d’émuler un navigateur chrome. Tu pourras alors faire des clics, des scrolls, rechercher les donnĂ©es et mettre le tout dans un CSV pour la partie accessible. Une fois le site web analysĂ©, avant de le scraper, utilise Octoparse ou dĂ©veloppe ton script sur Python, et passe ensuite par des passerelles qui vont permettre de passer sur d’autres sites de maniĂšre plus anonymes, et commence Ă  scraper et Ă  mettre le tout dans une base de donnĂ©es. Fais du Google dorking, cela permet de gagner du temps. Il est important de faire attention sur les sites, et d’utiliser un VPN si besoin est. Data broker ET open data : Data broker : ce sont des entreprises qui vont vendre des donnĂ©es dĂ©jĂ  scraper. Par exemple : tu peux aller sur des marketplaces, chercher tout le catalogue d'IKEA, trouver ensuite les vendeurs des meubles chez IKEA... Tu peux aprĂšs payer une certaine somme pour avoir le CSV. (pas trĂšs RGPD) Open data : c’est une base de donnĂ©es ouverte. Il existe plein de petites pistes qui permettent de trouver des CSV sans payer. Gap entre scraping et scraping at scale : On parle de scale lorsqu’il est question de millions de requĂȘtes par mois sur certains sites. Scraping at scale : on sait vers quoi on va et le problĂšme est bien dĂ©terminĂ©. Scraping tout court : prend du temps et coĂ»te de l’argent (bande passante, stockage, 
). Pour voir si on travaille dans la lĂ©galitĂ© ou non, il est important de faire des formations Ă  cet effet, ou de s’informer autant que possible. Afin de faire du bon scraping at scale, il faut ĂȘtre malicieux (dans le sens malin) et chercher sur Google la rĂ©ponse Ă  nos questions. Toujours s’autoformer et apprendre en passant du temps sur les rĂ©seaux ou les forums de Growth hacking. J’espĂšre que cet Ă©pisode t’apportera de la valeur đŸ’Ș Bonne Ă©coute ! Les liens utiles Les ressources/outils mentionnĂ©s : Piloterr Charles Wappalyzer Notion OctoparseOctoparse Python Instant data scraper Web scraper Elasticsearch Retrouve Josselin Josselin Liebe Abonne-toi : Spotify Apple podcast Newsletter LinkedIn

© 2026 BaladoQuebec

Language
Site