Skip to content
Android Blog Italia

Android Blog Italia

Tutto quello che devi sapere sul mondo Android e della tecnologia

Primary Menu
  • News
    • Visualizza Tutto
    • Smartphone
    • Tablet
    • Accessori
  • Guide
    • Visualizza Tutto
    • Programmazione
  • Recensioni
    • Visualizza Tutto
  • Applicazioni
    • Visualizza tutto
  • Giochi
    • Visualizza Tutto
  • News su Android, tutte le novità

Il web è alla mercé delle IA generative addestrate senza scrupoli

-Redazione- 24/06/2024
IA generative addestrate sul web senza scrupoli

Lo sviluppo delle IA generative sta accelerando sempre di più ma purtroppo questo richiede un’enorme quantità di dati che, spesso, vengono prelevati anche da fonti che hanno espressamente richiesto la loro esclusione.

Un esempio di questo comportamento errato lo troviamo con l’uso di materiale protetto da copyright, tanto che molti scrittori stanno facendo causa alle Big Tech dell’IA. Ma un altro esempio (questo non illegale, come vedremo) lo abbiamo con il web liberamente accessibile e con aziende, come Perplexity, che sfrutta qualsiasi dato per l’addestramento delle IA generative.

Le IA generative sono affamate di dati, anche di quelli espressamente “non autorizzati”

Perplexity, un’azienda che descrive il suo prodotto come “un motore di ricerca AI gratuito“, è stata criticata negli ultimi giorni. Poco dopo che Forbes l’ha accusata di aver rubato la sua storia e di averla ripubblicata su più piattaforme, Wired ha riferito che Perplexity ha ignorato il Robots Exclusion Protocol, o robots.txt, e ha cancellato il suo sito web e altre pubblicazioni Condé Nast. Anche il sito web tecnologico The Shortcut ha accusato la società di aver cancellato i suoi articoli. Ora, Reuters ha riferito che Perplexity non è l’unica azienda di intelligenza artificiale che bypassa i file robots.txt e analizza i siti Web per ottenere contenuti che vengono poi utilizzati per addestrare le proprie tecnologie.

Reuters ha detto di aver visto una lettera indirizzata agli editori di TollBit, una startup che li accoppia con aziende di intelligenza artificiale in modo che possano raggiungere accordi di licenza, avvertendoli che “agenti di intelligenza artificiale provenienti da più fonti (non solo da una società) stanno scegliendo di aggirare i robot. txt per recuperare il contenuto dai siti.”

Il file robots.txt contiene istruzioni per i web crawler su quali pagine possono e non possono accedere. Gli sviluppatori web utilizzano il protocollo dal 1994, ma la conformità è completamente volontaria.

Anche le Big Tech delle IA generative sono coinvolte

La lettera di TollBit non nomina alcuna azienda, ma Business Insider afferma di aver appreso che anche OpenAI e Anthropic, i creatori rispettivamente dei chatbot ChatGPT e Claude, stanno bypassando i segnali robots.txt. Entrambe le società avevano precedentemente affermato di rispettare le istruzioni “non scansionare” che i siti web inseriscono nei loro file robots.txt.

Durante la sua indagine, Wired ha scoperto che una macchina su un server Amazon “certamente gestito da Perplexity” stava aggirando le istruzioni robots.txt del suo sito web. Per confermare se Perplexity stesse eliminando i suoi contenuti, Wired ha fornito allo strumento dell’azienda i titoli dei suoi articoli o brevi suggerimenti che descrivono le sue storie. Secondo quanto riferito, lo strumento ha prodotto risultati che parafrasano fedelmente i suoi articoli “con un’attribuzione minima”. E a volte generava persino riassunti imprecisi delle sue storie: Wired afferma che il chatbot ha affermato falsamente di aver riferito di uno specifico poliziotto della California che aveva commesso un crimine in un caso.

In un’intervista con Fast Company, il CEO di Perplexity Aravind Srinivas ha dichiarato alla pubblicazione che la sua azienda “non sta ignorando il protocollo di esclusione dei robot per poi mentire al riguardo“. Ciò non significa, tuttavia, che non tragga vantaggio dai crawler che ignorano il protocollo. Srinivas ha spiegato che l’azienda utilizza web crawler di terze parti oltre ai propri e che il crawler identificato da Wired era uno di questi. Quando Fast Company ha chiesto se Perplexity avesse detto al fornitore del crawler di interrompere lo scraping del sito web di Wired, ha risposto solo che “è complicato”.

Srinivas ha difeso le pratiche della sua azienda, dicendo alla pubblicazione che il Robots Exclusion Protocol “non ha valenza legale” e suggerendo che editori e aziende come la sua potrebbero dover stabilire un nuovo tipo di relazione. Secondo quanto riferito, ha anche insinuato che Wired abbia utilizzato deliberatamente i suggerimenti per far sì che il chatbot di Perplexity si comportasse come faceva, in modo che gli utenti ordinari non ottengano gli stessi risultati. Per quanto riguarda i riassunti imprecisi generati dallo strumento, Srinivas ha affermato: “Non abbiamo mai detto di non aver mai avuto allucinazioni“.

via

Continue Reading

Previous: Samsung Galaxy Watch Ultra, il prezzo sarà spaventosamente esagerato
Next: Amazon Prime Day 2024 ufficiale il 16 e 17 luglio

Articoli Correlati

62c940b8547a3d6e3d9d1fb0a4f6edcf_original
  • News su Android, tutte le novità
  • Smartphone Android

Bigme HiBreak Dual 2 pronto al lancio con la novità del doppio display (e-ink + LCD)

-Redazione- 27/06/2026
IMG_20260625_113948
  • News su Android, tutte le novità
  • Recensioni Android

Recensione Bigme B7 Pro BW: il miglior e-book reader Android con schermo Carta 1300

-Redazione- 26/06/2026
SwitchBot Smart Video Doorbell
  • News su Android, tutte le novità
  • Offerte Android: volantini e promozioni

Le migliori offerte SwitchBot per il Prime Day 2026

-Redazione- 25/06/2026

Ultime News

62c940b8547a3d6e3d9d1fb0a4f6edcf_original
  • News su Android, tutte le novità
  • Smartphone Android

Bigme HiBreak Dual 2 pronto al lancio con la novità del doppio display (e-ink + LCD)

-Redazione- 27/06/2026
Il mercato degli smartphone è ormai dominato da dispositivi sempre più simili tra loro. Ogni tanto, però,...
Leggi tutto Read more about Bigme HiBreak Dual 2 pronto al lancio con la novità del doppio display (e-ink + LCD)
Recensione Bigme B7 Pro BW: il miglior e-book reader Android con schermo Carta 1300 IMG_20260625_113948
  • News su Android, tutte le novità
  • Recensioni Android

Recensione Bigme B7 Pro BW: il miglior e-book reader Android con schermo Carta 1300

26/06/2026
Le migliori offerte SwitchBot per il Prime Day 2026 SwitchBot Smart Video Doorbell
  • News su Android, tutte le novità
  • Offerte Android: volantini e promozioni

Le migliori offerte SwitchBot per il Prime Day 2026

25/06/2026
Recensione SwitchBot Standing Circulator Fan: anche il classico ventilatore diventa smart SwitchBot Ventilatore 0
  • News su Android, tutte le novità
  • Recensioni Android

Recensione SwitchBot Standing Circulator Fan: anche il classico ventilatore diventa smart

25/06/2026
Bigme B1051 BW: un ottimo tablet Android con uno stupendo display e-ink Carta 1300 IMG_20260610_180804
  • News su Android, tutte le novità

Bigme B1051 BW: un ottimo tablet Android con uno stupendo display e-ink Carta 1300

12/06/2026
Copyright (c) 2025 - info@ulissepress.it | MoreNews by AF themes.
×

Questo sito utilizza i cookie, anche di terze parti, per garantirvi una esperienza di utilizzo ottimale.
Si rinvia all'informativa estesa per ulteriori informazioni. La prosecuzione nella navigazione (click, scroll, ...) comporta l'accettazione dei cookie.

 

Ok