web scraping, estrarre dati dalla rete

Web scraping: pescare dati dalla rete

Il Web scraping, anche detto harvesting o web data extraction, è una tecnica informatica di estrazione di dati e informazioni dalla rete.

  • Cos’è e come funziona?
  • È sempre legale fare web scraping?
  • Alcune tecniche per inibire o ridurre l’estrapolazione di dati dal tuo sito
  • Ma quanto è diffusa questa tecnica di estrazione dati?

Cos’è lo scraping e come funziona?

Letteralmente “scraping” significa “grattare, raschiare…”. In pratica si estraggono dati e metadati da un sito web attraverso dei software che spesso simulano la navigazione umana. Mentre il tool naviga nel sito fa una sorta di copia-incolla e immagazzina dati, testi, immagini che poi vengono archiviati in un data base e che spesso vengono poi utilizzati su altri siti.

Google per esempio utilizza metodi di scraping per analizzare i siti web ed estrarne i contenuti che utilizzerà per indicizzare i siti. Attraverso i suoi crawler, classici bot che simulano la navigazione umana, cataloga e archivia dati e metadati disponibili sul web, rendendoli più facilmente disponibili per gli utenti. La maggior parte dei motori di ricerca utilizza bot di questo tipo. Insomma l’uso di web scraping e di crawler o altri strumenti automatizzati per la raccolta di contenuti online è una prassi più che diffusa su Internet!

Tecnicamente si può fare anche scraping in modo manuale, copiando e incollando — senza l’ausilio di software — i dati da un sito all’altro. È sicuramente più comodo usare un tool, ma l’occhio umano è insostituibile nei casi in cui alcune pagine impediscano la raccolta dati automatizzata!

Chiaramente la modalità da usare dipenderà dai mezzi e dalle risorse a nostra disposizione. Si parte da soluzioni dette su misura, che richiedono l’intervento dell’uomo per selezionare le informazioni, fino ad arrivare a sistemi completamente automatizzati.

È sempre legale fare web scraping?

Tecnicamente non è illegale ma, se vietata dal website, occorre evitarla. 

In realtà questa attività varca la soglia dell’illegalità anche quando viene impiegata per scopi illeciti e quando i dati estratti vengono usati per altri usi, come pubblicazione di contenuti duplicati, lucro, spionaggio industriale, raccolta e trattamento dati personali senza autorizzazione ecc ecc.; magari all’insaputa e senza il consenso del titolare del sito, dei contenuti o delle informazioni raccolte.

Quando google o un altro motore di ricerca scandaglia un sito e immagazzina informazioni per indicizzarlo non commette sicuramente nessun reato, ma se è prevista un’area riservata del sito con i dati sensibili degli utenti allora quei dati sono protetti dagli accordi sulla privacy e non possono essere letti o copiati da nessun bot. Come fanno ad esempio i social network, che creano diversi livelli di accesso ai contenuti e l’accesso è autorizzato solo a parte del profilo degli utenti.Non sempre i proprietari dei siti gradiscono che si faccia web scraping dei loro dati.

In questo caso inserire nelle condizioni contrattuali del sito web il divieto all’uso di tecniche di web scraping, può servire a disincentivare questo comportamento, ma se la pagina web è accessibile pubblicamente è impossibile sfuggire del tutto a questa pratica.

web-scraping

Ad esempio i bot dei motori di ricerca sono “educati” e si “identificano” — contrariamente a quelli di terze parti — ed è possibile inserire nel codice un comando per bloccare la loro azione su pagine specifiche in modo che non vengano indicizzate, ad esempio se contengono dati sensibili o contenuti in costruzione.

Altri siti, chiamati aggregatori, utilizzano lo scraping per offrire agli utenti un confronto sui prezzi o sulla disponibilità dei prodotti online, monitorando siti di terzi in tempo reale.

Un esempio molto famoso è quello della celebre Import.io, società internazionale che si occupa di scraping per generare comparazione di prezzi, benchmark analysis e tanti altri servizi.

Quando i dati estratti vengono usati per studi statistici, e non a scopo commerciale, non è in alcun modo illegale. Però è sempre consigliabile rendere l’agente scraper meno invasivo possibile, riducendo la quantità di documenti letti al minuto entro una soglia accettabile. In questo modo si evita di causare danni al sito scansionato.

Nota: Se i dati ottenuti dallo scraping sono utilizzati per creare automaticamente dei contenuti online, oltre a violare il diritto di autore si viola anche la regola dei motori di ricerca che vieta l’indicizzazione dei contenuti automatici.

Alcune tecniche per inibire o ridurre l’estrapolazione di dati dal tuo sito

Si possono usare vari modi per rallentare o fermare un bot. Eccone alcuni:

  • Bloccare un indirizzo IP manualmente o basandosi su criteri come la geolocalizzazione. Questo bloccherà tutta la navigazione proveniente da quell’indirizzo.
  • Disabilitare qualunque API del servizio web che il sito potrebbe esporre a rischi.
  • Utilizzare Robots Exclusion Standard (Googlebot è un esempio) per bloccare i bot che dichiarano la loro identità, a volte si usando stringhe degli user agent (come detto poco sopra). I bot che non dichiarano la loro identità non si possono distinguere da un essere umano.
  • Monitorare l’eccesso di traffico può aiutare a capire se alcuni bot stanno navigando sul sito.
  • Chiaramente usare tool come CAPTCHA che permettono di verificare se è stata una persona reale prima di accedere ad un sito web. A volte però i bot sono codificati in modo tale da bloccare CAPTCHA o utilizzare servizi di terze parti che integrano i lavoro umano per superare le domande poste dal tool.
  • Alcune aziende offrono servizi commerciali anti-bot e anti-scraping.
web-scraping-e-sicurezza

Ma quanto è diffusa questa tecnica di estrazione dati?

I dati vanno di moda, e l’economia sta gravitando intorno ad essi da un po’ di tempo, quindi questa pratica si sta diffondendo sempre di più e le informazioni così raccolte vengono impiegate per identificare tendenze, comprendere stili di vita, effettuare indagini statistiche sull’uso di prodotti/servizi e sui nuovi bisogni degli utenti. I bot ormai costituiscono circa il 46% del traffico web!

Il 38% delle aziende che si dedicano all’attività di estrazione dei dati lo fa per ottenere contenuti. Infatti grazie alla mole di dati disponibile è possibile effettuare una vasta gamma di azioni come, il confronto prezzi, ricerche di tendenza e quant’altro.

Qui qualche tool per personalizzare le soluzioni di web scraping:

  • Firebug – estensione del browser che permette di eseguire debug, modifica e monitoraggio di una pagina web.
  • Greasemonkey – estensione del browser che permette la modifica del sito web tramite alcuni script.
  • iMacros – estensione del browser web che aggiunge le funzioni di registrazione e riproduzione.
  • Node.js – ambiente open-source e multipiattaforma per l’esecuzione di codice JavaScript lato server.
  • Screaming frog – utile per la SEO, simula i bot dei motori di ricerca per dare all’utente una visione lato server della struttura del sito in questione.

Su Qapla’…

Gestire le spedizioni di un eCommerce richiede attenzione e un certo numero di tempo. Qapla’ è lo strumento giusto per avere sempre la situazione degli ordini sotto controllo, gestendoli da una unica piattaforma, e risparmiando anche un’importante quantità di tempo.
Permette inoltre di aumentare il numero di conversioni, grazie alla possibilità di inviare email transazionali e il tracking della spedizione in maniera del tutto personalizzata, secondo le esigenza del brand.

Fai un viaggio sulla piattaforma con una demo personalizzata.

© Blog Qapla’, Riproduzione Riservata