Skip to content
Android Blog Italia

Android Blog Italia

Tutto quello che devi sapere sul mondo Android e della tecnologia

Primary Menu
  • News
    • Visualizza Tutto
    • Smartphone
    • Tablet
    • Accessori
  • Guide
    • Visualizza Tutto
    • Programmazione
  • Recensioni
    • Visualizza Tutto
  • Applicazioni
    • Visualizza tutto
  • Giochi
    • Visualizza Tutto
  • News su Android, tutte le novità

Il web è alla mercé delle IA generative addestrate senza scrupoli

-Redazione- 24/06/2024
IA generative addestrate sul web senza scrupoli

Lo sviluppo delle IA generative sta accelerando sempre di più ma purtroppo questo richiede un’enorme quantità di dati che, spesso, vengono prelevati anche da fonti che hanno espressamente richiesto la loro esclusione.

Un esempio di questo comportamento errato lo troviamo con l’uso di materiale protetto da copyright, tanto che molti scrittori stanno facendo causa alle Big Tech dell’IA. Ma un altro esempio (questo non illegale, come vedremo) lo abbiamo con il web liberamente accessibile e con aziende, come Perplexity, che sfrutta qualsiasi dato per l’addestramento delle IA generative.

Le IA generative sono affamate di dati, anche di quelli espressamente “non autorizzati”

Perplexity, un’azienda che descrive il suo prodotto come “un motore di ricerca AI gratuito“, è stata criticata negli ultimi giorni. Poco dopo che Forbes l’ha accusata di aver rubato la sua storia e di averla ripubblicata su più piattaforme, Wired ha riferito che Perplexity ha ignorato il Robots Exclusion Protocol, o robots.txt, e ha cancellato il suo sito web e altre pubblicazioni Condé Nast. Anche il sito web tecnologico The Shortcut ha accusato la società di aver cancellato i suoi articoli. Ora, Reuters ha riferito che Perplexity non è l’unica azienda di intelligenza artificiale che bypassa i file robots.txt e analizza i siti Web per ottenere contenuti che vengono poi utilizzati per addestrare le proprie tecnologie.

Reuters ha detto di aver visto una lettera indirizzata agli editori di TollBit, una startup che li accoppia con aziende di intelligenza artificiale in modo che possano raggiungere accordi di licenza, avvertendoli che “agenti di intelligenza artificiale provenienti da più fonti (non solo da una società) stanno scegliendo di aggirare i robot. txt per recuperare il contenuto dai siti.”

Il file robots.txt contiene istruzioni per i web crawler su quali pagine possono e non possono accedere. Gli sviluppatori web utilizzano il protocollo dal 1994, ma la conformità è completamente volontaria.

Anche le Big Tech delle IA generative sono coinvolte

La lettera di TollBit non nomina alcuna azienda, ma Business Insider afferma di aver appreso che anche OpenAI e Anthropic, i creatori rispettivamente dei chatbot ChatGPT e Claude, stanno bypassando i segnali robots.txt. Entrambe le società avevano precedentemente affermato di rispettare le istruzioni “non scansionare” che i siti web inseriscono nei loro file robots.txt.

Durante la sua indagine, Wired ha scoperto che una macchina su un server Amazon “certamente gestito da Perplexity” stava aggirando le istruzioni robots.txt del suo sito web. Per confermare se Perplexity stesse eliminando i suoi contenuti, Wired ha fornito allo strumento dell’azienda i titoli dei suoi articoli o brevi suggerimenti che descrivono le sue storie. Secondo quanto riferito, lo strumento ha prodotto risultati che parafrasano fedelmente i suoi articoli “con un’attribuzione minima”. E a volte generava persino riassunti imprecisi delle sue storie: Wired afferma che il chatbot ha affermato falsamente di aver riferito di uno specifico poliziotto della California che aveva commesso un crimine in un caso.

In un’intervista con Fast Company, il CEO di Perplexity Aravind Srinivas ha dichiarato alla pubblicazione che la sua azienda “non sta ignorando il protocollo di esclusione dei robot per poi mentire al riguardo“. Ciò non significa, tuttavia, che non tragga vantaggio dai crawler che ignorano il protocollo. Srinivas ha spiegato che l’azienda utilizza web crawler di terze parti oltre ai propri e che il crawler identificato da Wired era uno di questi. Quando Fast Company ha chiesto se Perplexity avesse detto al fornitore del crawler di interrompere lo scraping del sito web di Wired, ha risposto solo che “è complicato”.

Srinivas ha difeso le pratiche della sua azienda, dicendo alla pubblicazione che il Robots Exclusion Protocol “non ha valenza legale” e suggerendo che editori e aziende come la sua potrebbero dover stabilire un nuovo tipo di relazione. Secondo quanto riferito, ha anche insinuato che Wired abbia utilizzato deliberatamente i suggerimenti per far sì che il chatbot di Perplexity si comportasse come faceva, in modo che gli utenti ordinari non ottengano gli stessi risultati. Per quanto riguarda i riassunti imprecisi generati dallo strumento, Srinivas ha affermato: “Non abbiamo mai detto di non aver mai avuto allucinazioni“.

via

Continue Reading

Previous: Samsung Galaxy Watch Ultra, il prezzo sarà spaventosamente esagerato
Next: Amazon Prime Day 2024 ufficiale il 16 e 17 luglio

Articoli Correlati

4.4-Seemee50Pro
  • News su Android, tutte le novità

Recensione Magicshine SeeMee 50 Pro, la migliore luce per bici per rapporto qualitá prezzo

-Redazione- 31/01/2026
2023-magicshine-seemee-300-smart-tail-light-power-button-2801049554
  • News su Android, tutte le novità
  • Recensioni Android

Magicshine SeeMee 300: la luce posteriore da 300 Lumen che rivoluziona la sicurezza del ciclista

-Redazione- 31/01/2026
i_hate_this_place_banner-1160x653
  • Giochi Android
  • News su Android, tutte le novità
  • Recensioni Android

Recensione I Hate this Place: horror stilizzato in pieno stile fumetti anni ’80

-Redazione- 28/01/2026

Ultime News

4.4-Seemee50Pro
  • News su Android, tutte le novità

Recensione Magicshine SeeMee 50 Pro, la migliore luce per bici per rapporto qualitá prezzo

-Redazione- 31/01/2026
Quando si parla di sicurezza in bicicletta, soprattutto nelle ore serali o in condizioni di scarsa visibilità,...
Leggi tutto Read more about Recensione Magicshine SeeMee 50 Pro, la migliore luce per bici per rapporto qualitá prezzo
Magicshine SeeMee 300: la luce posteriore da 300 Lumen che rivoluziona la sicurezza del ciclista 2023-magicshine-seemee-300-smart-tail-light-power-button-2801049554
  • News su Android, tutte le novità
  • Recensioni Android

Magicshine SeeMee 300: la luce posteriore da 300 Lumen che rivoluziona la sicurezza del ciclista

31/01/2026
Recensione I Hate this Place: horror stilizzato in pieno stile fumetti anni ’80 i_hate_this_place_banner-1160x653
  • Giochi Android
  • News su Android, tutte le novità
  • Recensioni Android

Recensione I Hate this Place: horror stilizzato in pieno stile fumetti anni ’80

28/01/2026
Recensione pellicole protettive Zéfal Skin Armor Matt Zéfal Skin Armor Matt
  • News su Android, tutte le novità
  • Recensioni Android

Recensione pellicole protettive Zéfal Skin Armor Matt

21/01/2026
Recensione borse da bikepacking Zèfal Z Adventure C3 e F5 Zèfal Z Adventure C3 e F5
  • News su Android, tutte le novità
  • Recensioni Android

Recensione borse da bikepacking Zèfal Z Adventure C3 e F5

21/01/2026
Copyright (c) 2025 - info@ulissepress.it | MoreNews by AF themes.
×

Questo sito utilizza i cookie, anche di terze parti, per garantirvi una esperienza di utilizzo ottimale.
Si rinvia all'informativa estesa per ulteriori informazioni. La prosecuzione nella navigazione (click, scroll, ...) comporta l'accettazione dei cookie.

 

Ok