
Conseil de Growth - Des mĂ©thodes concrĂštes et actionnables đ„
#45 - Comment faire du scraping at scale ? đž
·25 min
Bienvenue pour ce nouvel Ă©pisode ! Aujourdâhui, jâai le plaisir dâaccueillir Josselin Liebe, fondateur de lâentreprise Piloterr. Josselin a créé Piloterr en 2020. Câest un SaaS par lequel les entreprises viennent sâinterconnecter avec lui en API. Il fournira par la suite une grosse quantitĂ© de donnĂ©e "at scale" (milliers de requĂȘtes par mois) que ces entreprises pourront exploiter. Les cas d'usages sont alors variĂ©s et multiples (bureautique, immobilier, automobile, âŠ). Les clients ont souvent des petits soucis, que Josselin et son Ă©quipe vont dĂ©cortiquer, pour proposer des solutions par la suite. Dans cet Ă©pisode tu dĂ©couvriras les conseils suivants : Afin de scraper des donnĂ©es : Demande-toi ou aux clients ce quâils veulent comme donnĂ©es et sur quel site. Ensuite navigue sur le site en question et regarde toutes les requĂȘtes (JavaScript, API, .). Continue en utilisant des outils comme Charles et fais une analyse plus poussĂ©e sur ce qui se passe sur le site. Charles permettra de faire une passerelle, crĂ©er un proxi entre le navigateur et le site internet ; et pouvoir faire des pauses au niveau des requĂȘtes et faire des recherches en profondeur. Regarde par la suite qui protĂšge le site via lâextension Wappalyzer, et commence Ă regarder comment fonctionne la pagination, les filtres, ⊠et joue sur le site pendant une heure ou deux en notant les points importants. Une fois que câest bon, fais du scraping avec un outil tel quâOctoparse, qui permettra dâĂ©muler un navigateur chrome. Tu pourras alors faire des clics, des scrolls, rechercher les donnĂ©es et mettre le tout dans un CSV pour la partie accessible. Une fois le site web analysĂ©, avant de le scraper, utilise Octoparse ou dĂ©veloppe ton script sur Python, et passe ensuite par des passerelles qui vont permettre de passer sur dâautres sites de maniĂšre plus anonymes, et commence Ă scraper et Ă mettre le tout dans une base de donnĂ©es. Fais du Google dorking, cela permet de gagner du temps. Il est important de faire attention sur les sites, et dâutiliser un VPN si besoin est. Data broker ET open data : Data broker : ce sont des entreprises qui vont vendre des donnĂ©es dĂ©jĂ scraper. Par exemple : tu peux aller sur des marketplaces, chercher tout le catalogue d'IKEA, trouver ensuite les vendeurs des meubles chez IKEA... Tu peux aprĂšs payer une certaine somme pour avoir le CSV. (pas trĂšs RGPD) Open data : câest une base de donnĂ©es ouverte. Il existe plein de petites pistes qui permettent de trouver des CSV sans payer. Gap entre scraping et scraping at scale : On parle de scale lorsquâil est question de millions de requĂȘtes par mois sur certains sites. Scraping at scale : on sait vers quoi on va et le problĂšme est bien dĂ©terminĂ©. Scraping tout court : prend du temps et coĂ»te de lâargent (bande passante, stockage, âŠ). Pour voir si on travaille dans la lĂ©galitĂ© ou non, il est important de faire des formations Ă cet effet, ou de sâinformer autant que possible. Afin de faire du bon scraping at scale, il faut ĂȘtre malicieux (dans le sens malin) et chercher sur Google la rĂ©ponse Ă nos questions. Toujours sâautoformer et apprendre en passant du temps sur les rĂ©seaux ou les forums de Growth hacking. JâespĂšre que cet Ă©pisode tâapportera de la valeur đȘ Bonne Ă©coute ! Les liens utiles Les ressources/outils mentionnĂ©s : Piloterr Charles Wappalyzer Notion OctoparseOctoparse Python Instant data scraper Web scraper Elasticsearch Retrouve Josselin Josselin Liebe Abonne-toi : Spotify Apple podcast Newsletter LinkedIn
