Ah intendo non qui, per l'amordiddio. Intendo la e la e la.
Anzi approfitto della domanda per chiedere come e se bida si difende dallo scraping.
@Antonio_Gulino intendo proprio questo.
Mi sono incuriosito perché sono capitato sul sito "outline" che supera i paywall di qualsiasi sito di notizie. Allora, nella mia ignoranza, ho pensato che quel sito esegua chissà che genere di scraping sulla pagina interessata, che archivi il contenuto totale scaricato e infine lo riproponga dai suoi archivi.
Quello che non riesco a capire però é come faccia a scaricare per intero un contenuto che sulla pagina risulta in chiaro solo per poche righe.
Ad ogni modo, ho letto qui e la dello scraping delle pagine web e ho realizzato come vengano (o possono) essere utilizzati sulle reti sociali per estrapolare informazioni sugli utenti. Ho realizzato anche che spesso il fantomatico "attacco hacker" sbandierato dalle redazioni giornalistiche, altro non é che web scraping...
Gli strumenti che gestiscono il download di una pagina possono essere parametrizzati indicando pure le credenziali di accesso. inoltre, se un sito offre il suo materiale anche tramite App, allora di sicuro c'è una API che permette di ricevere i contenuti, senza vedere la pagina "per umani".
si, analizzare le reti sociali come mastodon è molto facile ed è molto interessante. Tieni presente che mastodon non dice che ciò non sia fattibile per non-iscritti. dice solo che è federato.
io faccio spesso queste cose e sono consapevole che i grandi queste cose le fanno alla grande.
mi dico spesso: se io, piccolino riesco già a estrarre tutte queste informazioni e loro relazioni, figuriamoci i grandi.
se si insegnasse questo alle persone, forse sarebbero (come me) più sensibili al tema "a chi do i miei dati".
È come insegnare ad aprire una porta o un lucchetto senza chiavi. a quel punto le persone capiscono la differenza tra serrature buone e serrrature ridicole.
@Antonio_Gulino hai qualche risorsa in rete che mi sarebbe utile per l'apprendimento? *.*
non mi viene in mente niente.
alla rinfusa ti elenco: wget, html, json, xml, regex ("espressioni regolari"="regular expressions")
anzitutto sapere "leggere" una pagina (html), capire come e dove sono messe le informazioni (json, css, html5)
scegliti un linguaggio di script come ad esempio perl, python, R.
json, html, xml sono facili, perché per definizione sono strutturati.
un'importante arma sono le regular expressions. Inizia con le basi (che sono facilissime) e poi auguri
per le regular expr (regex) trovi molto in rete.
molti linguaggi hanno il parametro "Perl", il che vuol dire usare la sintassi di Perl che è per certi versi il linguaggio di script per eccellenza se vuoi analizzare testi.
soprattutto se hai la fibbra, ti do un consiglio prima che cominci.
impara a rallentare l'esecuzione del tuo codice
impara a distribuire i tuoi download su più siti differenti possibili
perché il tuo grande "nemico" (all'inizio) sarà il blocco del tuo numero IP
e tu dovrai imparare a non farti notare dai sistemi più o meno automatici di protezione dei siti da download automatizzati (molti fanno soldi perché esseri umani guardano pubblicità, tutto il resto sono costi)
@laser_punkx
con scraping intendi scaricare pagine web, estrarre informazioni e link, seguire i link e ripetere il tutto? evtl scaricare immagini e interpretarle.
non manualmente ma automatizzato?
È facilissimo. tutti i linguaggi hanno gli strumenti necessari che lo rendono facile:
download, json, xml
il resto dipende dalla tua fantasia
o con scraping si intende qualcosaltro?