@Antonio_Gulino intendo proprio questo.
Mi sono incuriosito perché sono capitato sul sito "outline" che supera i paywall di qualsiasi sito di notizie. Allora, nella mia ignoranza, ho pensato che quel sito esegua chissà che genere di scraping sulla pagina interessata, che archivi il contenuto totale scaricato e infine lo riproponga dai suoi archivi.
Quello che non riesco a capire però é come faccia a scaricare per intero un contenuto che sulla pagina risulta in chiaro solo per poche righe.
Ad ogni modo, ho letto qui e la dello scraping delle pagine web e ho realizzato come vengano (o possono) essere utilizzati sulle reti sociali per estrapolare informazioni sugli utenti. Ho realizzato anche che spesso il fantomatico "attacco hacker" sbandierato dalle redazioni giornalistiche, altro non é che web scraping...

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 14:41

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 14:41

Jun 24, 2021, 14:41

Antonio🚲🍞🖥️🛤️ @Antonio_Gulino@mastodon.uno

@laser_punkx

Gli strumenti che gestiscono il download di una pagina possono essere parametrizzati indicando pure le credenziali di accesso. inoltre, se un sito offre il suo materiale anche tramite App, allora di sicuro c'è una API che permette di ricevere i contenuti, senza vedere la pagina "per umani".

si, analizzare le reti sociali come mastodon è molto facile ed è molto interessante. Tieni presente che mastodon non dice che ciò non sia fattibile per non-iscritti. dice solo che è federato.

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 14:46

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 14:46

Jun 24, 2021, 14:46

Antonio🚲🍞🖥️🛤️ @Antonio_Gulino@mastodon.uno

@laser_punkx

io faccio spesso queste cose e sono consapevole che i grandi queste cose le fanno alla grande.

mi dico spesso: se io, piccolino riesco già a estrarre tutte queste informazioni e loro relazioni, figuriamoci i grandi.

se si insegnasse questo alle persone, forse sarebbero (come me) più sensibili al tema "a chi do i miei dati".

È come insegnare ad aprire una porta o un lucchetto senza chiavi. a quel punto le persone capiscono la differenza tra serrature buone e serrrature ridicole.

**lazer_punkX** @laser_punkx@mastodon.bida.im · Jun 24, 2021, 17:34

**lazer_punkX** @laser_punkx@mastodon.bida.im · Jun 24, 2021, 17:34

Jun 24, 2021, 17:34

lazer_punkX @laser_punkx@mastodon.bida.im

@Antonio_Gulino hai qualche risorsa in rete che mi sarebbe utile per l'apprendimento? *.*

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 19:04

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 19:04

Jun 24, 2021, 19:04

Antonio🚲🍞🖥️🛤️ @Antonio_Gulino@mastodon.uno

@laser_punkx

non mi viene in mente niente.

alla rinfusa ti elenco: wget, html, json, xml, regex ("espressioni regolari"="regular expressions")

anzitutto sapere "leggere" una pagina (html), capire come e dove sono messe le informazioni (json, css, html5)

scegliti un linguaggio di script come ad esempio perl, python, R.

json, html, xml sono facili, perché per definizione sono strutturati.

un'importante arma sono le regular expressions. Inizia con le basi (che sono facilissime) e poi auguri

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 19:09

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 19:09

Jun 24, 2021, 19:09

Antonio🚲🍞🖥️🛤️ @Antonio_Gulino@mastodon.uno

@laser_punkx

per le regular expr (regex) trovi molto in rete.

molti linguaggi hanno il parametro "Perl", il che vuol dire usare la sintassi di Perl che è per certi versi il linguaggio di script per eccellenza se vuoi analizzare testi.

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 19:13

**Antonio🚲🍞🖥️🛤️** @Antonio_Gulino@mastodon.uno · Jun 24, 2021, 19:13

Jun 24, 2021, 19:13

Antonio🚲🍞🖥️🛤️ @Antonio_Gulino@mastodon.uno

@laser_punkx

soprattutto se hai la fibbra, ti do un consiglio prima che cominci.

impara a rallentare l'esecuzione del tuo codice

impara a distribuire i tuoi download su più siti differenti possibili

perché il tuo grande "nemico" (all'inizio) sarà il blocco del tuo numero IP

e tu dovrai imparare a non farti notare dai sistemi più o meno automatici di protezione dei siti da download automatizzati (molti fanno soldi perché esseri umani guardano pubblicità, tutto il resto sono costi)

Resources

Developers

What is Mastodon?

mastodon.bida.im

More…