Follow

lo scraping del fediverso

un ricercatore dell'universita' di milano ha scrapato il fediverso (6mil toot su 363 istanze). da quello che vedo i dati adesso sono stati ritirati perche' non anonimizzati (mi pare che bida.im non ci sia) doi.org/10.7910/DVN/R1HKVS

tutto in questi due thread:
post.lurk.org/@rra/10347508927
sunbeam.city/@puffinus_puffinu

e' una cosa nota che prendere i dati dal fediverso sia piu' facile che da piattaforme chiuse (vedi anche autistici.org/void/mastograph. ). non e' un limite del fediverso, ma bisogna che gli utenti abbiano chiara questa cosa e conoscano gli strumenti per limitare/arginare il problema

il paper della ricerca:
Mastodon Content Warnings: Inappropriate Contents in a Microblogging Platform
aaai.org/ojs/index.php/ICWSM/a

@void poi aggiungo che volendo ogni istanza può in ogni momento scegliere di non avere i propri contenuti indicizzati dai motori o da terzi usando robots.txt o appositi comandi in <head> in cui si possono scegliere di non conservare in cache i contenuti del sito.
Gli spider o i software di scraping sono obbligati a seguire le indicazioni dell'admin.

@filippodb "obbligati" relativamente. il robots.txt e' una buona regola di convivenza nel web, ma chiunque puo' benissimo fare finta di non vederlo :)

Sign in to participate in the conversation
Mastodon Bida.im

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!