É molto difficile imparare e fare scraping di qualche pagina web, qui o la?

Follow

Ah intendo non qui, per l'amordiddio. Intendo la e la e la.
Anzi approfitto della domanda per chiedere come e se bida si difende dallo scraping.

@laser_punkx

con scraping intendi scaricare pagine web, estrarre informazioni e link, seguire i link e ripetere il tutto? evtl scaricare immagini e interpretarle.

non manualmente ma automatizzato?

È facilissimo. tutti i linguaggi hanno gli strumenti necessari che lo rendono facile:
download, json, xml

il resto dipende dalla tua fantasia

o con scraping si intende qualcosaltro?

@Antonio_Gulino intendo proprio questo.
Mi sono incuriosito perché sono capitato sul sito "outline" che supera i paywall di qualsiasi sito di notizie. Allora, nella mia ignoranza, ho pensato che quel sito esegua chissà che genere di scraping sulla pagina interessata, che archivi il contenuto totale scaricato e infine lo riproponga dai suoi archivi.
Quello che non riesco a capire però é come faccia a scaricare per intero un contenuto che sulla pagina risulta in chiaro solo per poche righe.
Ad ogni modo, ho letto qui e la dello scraping delle pagine web e ho realizzato come vengano (o possono) essere utilizzati sulle reti sociali per estrapolare informazioni sugli utenti. Ho realizzato anche che spesso il fantomatico "attacco hacker" sbandierato dalle redazioni giornalistiche, altro non é che web scraping...

@laser_punkx

Gli strumenti che gestiscono il download di una pagina possono essere parametrizzati indicando pure le credenziali di accesso. inoltre, se un sito offre il suo materiale anche tramite App, allora di sicuro c'è una API che permette di ricevere i contenuti, senza vedere la pagina "per umani".

si, analizzare le reti sociali come mastodon è molto facile ed è molto interessante. Tieni presente che mastodon non dice che ciò non sia fattibile per non-iscritti. dice solo che è federato.

@laser_punkx

io faccio spesso queste cose e sono consapevole che i grandi queste cose le fanno alla grande.

mi dico spesso: se io, piccolino riesco già a estrarre tutte queste informazioni e loro relazioni, figuriamoci i grandi.

se si insegnasse questo alle persone, forse sarebbero (come me) più sensibili al tema "a chi do i miei dati".

È come insegnare ad aprire una porta o un lucchetto senza chiavi. a quel punto le persone capiscono la differenza tra serrature buone e serrrature ridicole.

@Antonio_Gulino hai qualche risorsa in rete che mi sarebbe utile per l'apprendimento? *.*

@laser_punkx

non mi viene in mente niente.

alla rinfusa ti elenco: wget, html, json, xml, regex ("espressioni regolari"="regular expressions")

anzitutto sapere "leggere" una pagina (html), capire come e dove sono messe le informazioni (json, css, html5)

scegliti un linguaggio di script come ad esempio perl, python, R.

json, html, xml sono facili, perché per definizione sono strutturati.

un'importante arma sono le regular expressions. Inizia con le basi (che sono facilissime) e poi auguri

@laser_punkx

per le regular expr (regex) trovi molto in rete.

molti linguaggi hanno il parametro "Perl", il che vuol dire usare la sintassi di Perl che è per certi versi il linguaggio di script per eccellenza se vuoi analizzare testi.

@laser_punkx

soprattutto se hai la fibbra, ti do un consiglio prima che cominci.

impara a rallentare l'esecuzione del tuo codice

impara a distribuire i tuoi download su più siti differenti possibili

perché il tuo grande "nemico" (all'inizio) sarà il blocco del tuo numero IP

e tu dovrai imparare a non farti notare dai sistemi più o meno automatici di protezione dei siti da download automatizzati (molti fanno soldi perché esseri umani guardano pubblicità, tutto il resto sono costi)

Sign in to participate in the conversation
Mastodon Bida.im

Un'istanza mastodon antifascista prevalentemente italofona con base a Bologna - Manifesto - Cosa non si può fare qui

An antifa mostly-italian speaking mastodon istance based in Bologna - About us - What you can't do here

Tech stuff provided by Collettivo Bida