Bienvenue sur IndexError.

Ici vous pouvez poser des questions sur Python et le Framework Django.

Mais aussi sur les technos front comme React, Angular, Typescript et Javascript en général.

Consultez la FAQ pour améliorer vos chances d'avoir des réponses à vos questions.

selenium, scrapy, requests, scapy via TOR ou autre anonymizer

+1 vote

comment masquer les requetes dans un script python ?

demandé 20-Jul par buffalo974 (2,476 points)

2 Réponses

+1 vote
 
Meilleure réponse

Hello,
pour scrapper de manière anonyme, j'ai utilisé des instances EC2. Le problème de TOR est que les IPs sont publiques et que certains vont choisir de les bloquer (ex: CloudFlare).
Il y a un Scrapoxy, qui tient en un fichier de config et qui m'avait semblé à l'époque particulièrement pratique et rapide à déployer.

répondu 24-Jul par coco
sélectionné 29-Jul par buffalo974

c' est fiable ? J'ai vu qu'il existe un web service EC2 chez amazon, je comprend pas trop ce qu'ils font avec ça...

Le problème de TOR est que les IPs sont publiques

une astuce pour obtenir des IP non publiques (avec TOR ou autre chose de toresque)?

EC2 c'est un service Amazon de location de serveur à l'utilisation : si tu l'utilises pendant une heure, tu paieras une heure. 10 instances pendant 1 heure = 10h à payer. EC2 c'est un exemple, il y a d'autres presta qui font le même genre de trucs. Moi j'avais déjà un compte, donc c'était plus facile.

En gros si tu veux être anonyme, il faut que tu te caches derrière une ou plusieurs IP. Avec une archi telle que celle que Scrapoxy propose, ça donne :

  • un point d'entrée commun (un proxy que tu utilises pour lancer tes requêtes)
  • celui-ci distribue les requêtes entre toutes les instances qui sont configurées

Si tu choisis de démarrer 10 instances, tu auras 10 IPs différentes. La première requête utilisera la 1ere IP, la seconde requête la 2e IP, etc...

Donc oui, c'est fiable pour ce qui est de se cacher derrière une IP.

+1 vote

Ca dépend quel type de detection il y a en face. Il faut d'abord que tu listes les détections que tu veux bypasser. Et la liste est laaaarge, ainsi que celle des contre mesures...

Pour Tor, tu install tor sur ton server, tu récupère son IP, et tu configure scrapy pour configurer un proxy, que tu fais pointer sur cette IP.

répondu 24-Jul par Sam (4,974 points)

ça m' intéresse beaucoup , peux tu me donner des sources sympas la-dessus ?

Malheureusement il n'y a pas beaucoup de littérature là dessus. Les gens partagent pas trop sur la question pour éviter la copie, la montée des contre mesures, etc.

On trouve des vieux articles comme lui-là qui te donne une idée: http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/

Il va te falloir plonger dans la doc de tor pour l'installer. Aussi trouver la commande pour renouveler l'IP de sortie de tor, et la lancer régulièrement depuis scrapy pour ne pas te faire gauler.

...