• Passa alla navigazione primaria
  • Passa al contenuto principale
  • Passa alla barra laterale primaria
  • Passa al piè di pagina
 
  • Italiano

Qapla'

Qapla'

Tracking=Marketing²

  • Perché Qapla’
    • Marketing Post Spedizione
      eCommerce, marketplace, soluzioni custom? Trasformerai tutto in una nuova occasione
    • Controllo e Monitoraggio
      Più di 150 corrieri sotto controllo, da un unico punto di osservazione.
    • Stampa etichette
      Stampa le etichette ed evadi gli ordini in 3 click, senza errori
    • Smart tools
      Il tuo kit per arrivare a destinazione col massimo del controllo e in completo relax
    • Customer Success
      Una consulenza su misura per ottenere il massimo dal marketing post vendita
  • Corrieri
  • Integrazioni
  • Pricing
  • Chi siamo
    • Il team
      Insieme arriveremo spediti verso i benefici del marketing post vendita!
    • Partner certificati
      Non viaggiamo in solitario, contiamo su una galassia di partner certificati
    • Area Press
      Ci piace che siano gli altri a parlare di noi, scopri come lo fanno e scarica il press kit
  • Risorse
    • Soluzioni Partner
      Qapla’ si adatta in modo ideale alla collaborazione con altri strumenti al servizio dell’eCommerce
    • Dati spedizioni eCommerce
      Quanto stanno spedendo gli store online? Qapla’ è il punto di osservazione migliore per scoprirlo
    • Area Assistenza clienti
      Le guide Qapla’ ti indicheranno la via migliore da intraprendere e chiariranno i tuoi dubbi, nel tempo di un refresh
  • Blog
  • Contatti
  • Prenota una demo
Sei qui: Home / blog / Marketing
Web scraping: pescare dati dalla rete

Web scraping: pescare dati dalla rete

Il Web scraping, anche detto harvesting o web data extraction, è una tecnica informatica di estrazione di dati e informazioni dalla rete.

  • Cos’è e come funziona?
  • È sempre legale fare web scraping?
  • Alcune tecniche per inibire o ridurre l’estrapolazione di dati dal tuo sito
  • Ma quanto è diffusa questa tecnica di estrazione dati?

Cos’è lo scraping e come funziona?

Letteralmente “scraping” significa “grattare, raschiare…”. In pratica si estraggono dati e metadati da un sito web attraverso dei software che spesso simulano la navigazione umana. Mentre il tool naviga nel sito fa una sorta di copia-incolla e immagazzina dati, testi, immagini che poi vengono archiviati in un data base e che spesso vengono poi utilizzati su altri siti.

Vuoi saperne di più?

Richiedi una demo con un nostro consulente

Google per esempio utilizza metodi di scraping per analizzare i siti web ed estrarne i contenuti che utilizzerà per indicizzare i siti. Attraverso i suoi crawler, classici bot che simulano la navigazione umana, cataloga e archivia dati e metadati disponibili sul web, rendendoli più facilmente disponibili per gli utenti. La maggior parte dei motori di ricerca utilizza bot di questo tipo. Insomma l’uso di web scraping e di crawler o altri strumenti automatizzati per la raccolta di contenuti online è una prassi più che diffusa su Internet!

Tecnicamente si può fare anche scraping in modo manuale, copiando e incollando — senza l’ausilio di software — i dati da un sito all’altro. È sicuramente più comodo usare un tool, ma l’occhio umano è insostituibile nei casi in cui alcune pagine impediscano la raccolta dati automatizzata!

Chiaramente la modalità da usare dipenderà dai mezzi e dalle risorse a nostra disposizione. Si parte da soluzioni dette su misura, che richiedono l’intervento dell’uomo per selezionare le informazioni, fino ad arrivare a sistemi completamente automatizzati.

È sempre legale fare web scraping?

Tecnicamente non è illegale ma, se vietata dal website, occorre evitarla. 

In realtà questa attività varca la soglia dell’illegalità anche quando viene impiegata per scopi illeciti e quando i dati estratti vengono usati per altri usi, come pubblicazione di contenuti duplicati, lucro, spionaggio industriale, raccolta e trattamento dati personali senza autorizzazione ecc ecc.; magari all’insaputa e senza il consenso del titolare del sito, dei contenuti o delle informazioni raccolte.

Quando google o un altro motore di ricerca scandaglia un sito e immagazzina informazioni per indicizzarlo non commette sicuramente nessun reato, ma se è prevista un’area riservata del sito con i dati sensibili degli utenti allora quei dati sono protetti dagli accordi sulla privacy e non possono essere letti o copiati da nessun bot. Come fanno ad esempio i social network, che creano diversi livelli di accesso ai contenuti e l’accesso è autorizzato solo a parte del profilo degli utenti.Non sempre i proprietari dei siti gradiscono che si faccia web scraping dei loro dati.

In questo caso inserire nelle condizioni contrattuali del sito web il divieto all’uso di tecniche di web scraping, può servire a disincentivare questo comportamento, ma se la pagina web è accessibile pubblicamente è impossibile sfuggire del tutto a questa pratica.

web-scraping

Ad esempio i bot dei motori di ricerca sono “educati” e si “identificano” — contrariamente a quelli di terze parti — ed è possibile inserire nel codice un comando per bloccare la loro azione su pagine specifiche in modo che non vengano indicizzate, ad esempio se contengono dati sensibili o contenuti in costruzione.

Altri siti, chiamati aggregatori, utilizzano lo scraping per offrire agli utenti un confronto sui prezzi o sulla disponibilità dei prodotti online, monitorando siti di terzi in tempo reale.

Un esempio molto famoso è quello della celebre Import.io, società internazionale che si occupa di scraping per generare comparazione di prezzi, benchmark analysis e tanti altri servizi.

Quando i dati estratti vengono usati per studi statistici, e non a scopo commerciale, non è in alcun modo illegale. Però è sempre consigliabile rendere l’agente scraper meno invasivo possibile, riducendo la quantità di documenti letti al minuto entro una soglia accettabile. In questo modo si evita di causare danni al sito scansionato.

Nota: Se i dati ottenuti dallo scraping sono utilizzati per creare automaticamente dei contenuti online, oltre a violare il diritto di autore si viola anche la regola dei motori di ricerca che vieta l’indicizzazione dei contenuti automatici.

Alcune tecniche per inibire o ridurre l’estrapolazione di dati dal tuo sito

Si possono usare vari modi per rallentare o fermare un bot. Eccone alcuni:

  • Bloccare un indirizzo IP manualmente o basandosi su criteri come la geolocalizzazione. Questo bloccherà tutta la navigazione proveniente da quell’indirizzo.
  • Disabilitare qualunque API del servizio web che il sito potrebbe esporre a rischi.
  • Utilizzare Robots Exclusion Standard (Googlebot è un esempio) per bloccare i bot che dichiarano la loro identità, a volte si usando stringhe degli user agent (come detto poco sopra). I bot che non dichiarano la loro identità non si possono distinguere da un essere umano.
  • Monitorare l’eccesso di traffico può aiutare a capire se alcuni bot stanno navigando sul sito.
  • Chiaramente usare tool come CAPTCHA che permettono di verificare se è stata una persona reale prima di accedere ad un sito web. A volte però i bot sono codificati in modo tale da bloccare CAPTCHA o utilizzare servizi di terze parti che integrano i lavoro umano per superare le domande poste dal tool.
  • Alcune aziende offrono servizi commerciali anti-bot e anti-scraping.
web-scraping-e-sicurezza

Ma quanto è diffusa questa tecnica di estrazione dati?

I dati vanno di moda, e l’economia sta gravitando intorno ad essi da un po’ di tempo, quindi questa pratica si sta diffondendo sempre di più e le informazioni così raccolte vengono impiegate per identificare tendenze, comprendere stili di vita, effettuare indagini statistiche sull’uso di prodotti/servizi e sui nuovi bisogni degli utenti. I bot ormai costituiscono circa il 46% del traffico web!

Il 38% delle aziende che si dedicano all’attività di estrazione dei dati lo fa per ottenere contenuti. Infatti grazie alla mole di dati disponibile è possibile effettuare una vasta gamma di azioni come, il confronto prezzi, ricerche di tendenza e quant’altro.

Qui qualche tool per personalizzare le soluzioni di web scraping:

  • Firebug – estensione del browser che permette di eseguire debug, modifica e monitoraggio di una pagina web.
  • Greasemonkey – estensione del browser che permette la modifica del sito web tramite alcuni script.
  • iMacros – estensione del browser web che aggiunge le funzioni di registrazione e riproduzione.
  • Node.js – ambiente open-source e multipiattaforma per l’esecuzione di codice JavaScript lato server.
  • Screaming frog – utile per la SEO, simula i bot dei motori di ricerca per dare all’utente una visione lato server della struttura del sito in questione.

Su Qapla’…

Gestire le spedizioni di un eCommerce richiede attenzione e un certo numero di tempo. Qapla’ è lo strumento giusto per avere sempre la situazione degli ordini sotto controllo, gestendoli da una unica piattaforma, e risparmiando anche un’importante quantità di tempo.
Permette inoltre di aumentare il numero di conversioni, grazie alla possibilità di inviare email transazionali e il tracking della spedizione in maniera del tutto personalizzata, secondo le esigenza del brand.

Fai un viaggio sulla piattaforma con una demo personalizzata.

© Blog Qapla’, Riproduzione Riservata

Archiviato in:Marketing

Barra laterale primaria

Categorie

  • blog
  • eCommerce
  • Eventi
  • Interviste
  • Marketing
  • Partner certificati
  • Tools
  • Universo Qapla'

Blog explorer

Articoli recenti

  • L’insostenibile leggerezza dei Resi: considerazioni economiche e ambientali per eCommerce
  • Come rendere il tuo eCommerce più sostenibile
  • SMS sul tracking della spedizione: comunica con i tuoi clienti e salvali dal phishing
  • Il bilancio dell’eCommerce nel 2022: il report completo con i dati Qapla’
  • Le date e le ricorrenze più importanti per l’eCommerce nel 2023
  • Trend eCommerce 2023: le previsioni numeriche e le tecnologie che cambieranno lo shopping online
  • Virtual Courier: la funzionalità di Qapla’ per le tue spedizioni di vettori alternativi
  • Il caso studio Phàrmasi: intervista a Sonia Sottile e Katia Licata
  • Cross-border eCommerce: posizionarsi su nuovi mercati e superare gli ostacoli doganali nelle spedizioni
  • I numeri dell’eCommerce alla fine del 2022: sarà sostenibile la crescita?

Negli ultimi mesi

  • Marzo 2023 (1)
  • Febbraio 2023 (2)
  • Gennaio 2023 (2)
  • Dicembre 2022 (2)
  • Novembre 2022 (2)
  • Ottobre 2022 (1)
  • Settembre 2022 (1)
  • Agosto 2022 (1)
  • Luglio 2022 (1)
  • Giugno 2022 (2)
  • Maggio 2022 (2)
  • Aprile 2022 (6)
  • Sei pronto a esplorare l'universo di Qapla'?

    contattaci subito o richiedi una demo

    IT Sticky bottom normale

    richiedi una demo

    Footer

    Qapla' - Tracking= marketing2

    Help

    • Assistenza
    • Integrazioni
    • Help.qapla.it

    Developers

    • API
    • WebHook
    • Github
    • Laravel
    • Plugins & App

    Corporate

    • Perché Qapla’
    • Chi siamo
    • Marketing Post Spedizione
    • Lavora con noi
    • Il team
    • Privacy Policy
    • Cookie Policy

    Resources

    • Il blog di Qapla’
    • Soluzioni Partner
    • Area Press
    • Integrazioni
    • Facebook
    • Instagram
    • LinkedIn
    • Twitter
    • Youtube

    Copyright © Qapla’ Srl –  via XXVII Luglio, 22 50026 San Casciano in Val di Pesa (FI)  – Codice Fiscale e Partita IVA: 06492420481

    Modifica Consenso | Revoca Consenso