Mysql
 sql >> Database >  >> RDS >> Mysql

Le migliori tecniche per evitare il "data scraping" dal database di un sito web

Anche se non c'è nulla che impedisca a una persona determinata di eliminare i contenuti pubblicamente disponibili, puoi fare alcune cose di base per mitigare le preoccupazioni del cliente:

  • Limite di velocità per account utente, indirizzo IP, user agent, ecc... - questo significa che limiti la quantità di dati che un particolare gruppo di utenti può scaricare in un determinato periodo di tempo. Se rilevi una grande quantità di dati in trasferimento, chiudi l'account o l'indirizzo IP.

  • Richiedi JavaScript - per garantire che il client assomigli a un browser interattivo, piuttosto che a uno spider barebone...

  • RIA:rendi disponibili i tuoi dati attraverso un'interfaccia Rich Internet Application. Le griglie basate su JavaScript includono ExtJs, YUI, Dojo, ecc. Gli ambienti più ricchi includono Flash e Silverlight come 1 menzioni di kevgriff .

  • Codifica i dati come immagini. Questo è piuttosto invadente per gli utenti normali, ma potresti codificare alcune delle tue tabelle di dati o valori come immagini anziché come testo, il che sconfiggerebbe la maggior parte dei parser di testo, ma ovviamente non è infallibile.

  • robots.txt - per negare ovvi web spider, noti programmi utente robot.

    User-agent:*

    Non consentire:/

  • Usa i metatag dei robot. Ciò smetterebbe di conformarsi ai ragni. Ciò impedirà a Google di indicizzarti, ad esempio:

Esistono diversi livelli di deterrenza e la prima opzione è probabilmente la meno invadente.