Skip to content
Android Blog Italia

Android Blog Italia

Tutto quello che devi sapere sul mondo Android e della tecnologia

Primary Menu
  • News
    • Visualizza Tutto
    • Smartphone
    • Tablet
    • Accessori
  • Guide
    • Visualizza Tutto
    • Programmazione
  • Recensioni
    • Visualizza Tutto
  • Applicazioni
    • Visualizza tutto
  • Giochi
    • Visualizza Tutto
  • News su Android, tutte le novità

Il web è alla mercé delle IA generative addestrate senza scrupoli

-Redazione- 24/06/2024
IA generative addestrate sul web senza scrupoli

Lo sviluppo delle IA generative sta accelerando sempre di più ma purtroppo questo richiede un’enorme quantità di dati che, spesso, vengono prelevati anche da fonti che hanno espressamente richiesto la loro esclusione.

Un esempio di questo comportamento errato lo troviamo con l’uso di materiale protetto da copyright, tanto che molti scrittori stanno facendo causa alle Big Tech dell’IA. Ma un altro esempio (questo non illegale, come vedremo) lo abbiamo con il web liberamente accessibile e con aziende, come Perplexity, che sfrutta qualsiasi dato per l’addestramento delle IA generative.

Le IA generative sono affamate di dati, anche di quelli espressamente “non autorizzati”

Perplexity, un’azienda che descrive il suo prodotto come “un motore di ricerca AI gratuito“, è stata criticata negli ultimi giorni. Poco dopo che Forbes l’ha accusata di aver rubato la sua storia e di averla ripubblicata su più piattaforme, Wired ha riferito che Perplexity ha ignorato il Robots Exclusion Protocol, o robots.txt, e ha cancellato il suo sito web e altre pubblicazioni Condé Nast. Anche il sito web tecnologico The Shortcut ha accusato la società di aver cancellato i suoi articoli. Ora, Reuters ha riferito che Perplexity non è l’unica azienda di intelligenza artificiale che bypassa i file robots.txt e analizza i siti Web per ottenere contenuti che vengono poi utilizzati per addestrare le proprie tecnologie.

Reuters ha detto di aver visto una lettera indirizzata agli editori di TollBit, una startup che li accoppia con aziende di intelligenza artificiale in modo che possano raggiungere accordi di licenza, avvertendoli che “agenti di intelligenza artificiale provenienti da più fonti (non solo da una società) stanno scegliendo di aggirare i robot. txt per recuperare il contenuto dai siti.”

Il file robots.txt contiene istruzioni per i web crawler su quali pagine possono e non possono accedere. Gli sviluppatori web utilizzano il protocollo dal 1994, ma la conformità è completamente volontaria.

Anche le Big Tech delle IA generative sono coinvolte

La lettera di TollBit non nomina alcuna azienda, ma Business Insider afferma di aver appreso che anche OpenAI e Anthropic, i creatori rispettivamente dei chatbot ChatGPT e Claude, stanno bypassando i segnali robots.txt. Entrambe le società avevano precedentemente affermato di rispettare le istruzioni “non scansionare” che i siti web inseriscono nei loro file robots.txt.

Durante la sua indagine, Wired ha scoperto che una macchina su un server Amazon “certamente gestito da Perplexity” stava aggirando le istruzioni robots.txt del suo sito web. Per confermare se Perplexity stesse eliminando i suoi contenuti, Wired ha fornito allo strumento dell’azienda i titoli dei suoi articoli o brevi suggerimenti che descrivono le sue storie. Secondo quanto riferito, lo strumento ha prodotto risultati che parafrasano fedelmente i suoi articoli “con un’attribuzione minima”. E a volte generava persino riassunti imprecisi delle sue storie: Wired afferma che il chatbot ha affermato falsamente di aver riferito di uno specifico poliziotto della California che aveva commesso un crimine in un caso.

In un’intervista con Fast Company, il CEO di Perplexity Aravind Srinivas ha dichiarato alla pubblicazione che la sua azienda “non sta ignorando il protocollo di esclusione dei robot per poi mentire al riguardo“. Ciò non significa, tuttavia, che non tragga vantaggio dai crawler che ignorano il protocollo. Srinivas ha spiegato che l’azienda utilizza web crawler di terze parti oltre ai propri e che il crawler identificato da Wired era uno di questi. Quando Fast Company ha chiesto se Perplexity avesse detto al fornitore del crawler di interrompere lo scraping del sito web di Wired, ha risposto solo che “è complicato”.

Srinivas ha difeso le pratiche della sua azienda, dicendo alla pubblicazione che il Robots Exclusion Protocol “non ha valenza legale” e suggerendo che editori e aziende come la sua potrebbero dover stabilire un nuovo tipo di relazione. Secondo quanto riferito, ha anche insinuato che Wired abbia utilizzato deliberatamente i suggerimenti per far sì che il chatbot di Perplexity si comportasse come faceva, in modo che gli utenti ordinari non ottengano gli stessi risultati. Per quanto riguarda i riassunti imprecisi generati dallo strumento, Srinivas ha affermato: “Non abbiamo mai detto di non aver mai avuto allucinazioni“.

via

Continue Reading

Previous: Samsung Galaxy Watch Ultra, il prezzo sarà spaventosamente esagerato
Next: Amazon Prime Day 2024 ufficiale il 16 e 17 luglio

Articoli Correlati

Screenshot
  • News su Android, tutte le novità

Fatti di WordPress: la community italiana che aiuta chi usa WordPress ogni giorno

Redazione 27/06/2025
apphomebanking
  • News su Android, tutte le novità

App bancarie a confronto: chi vince?

Redazione 26/06/2025
AliExpress Affidabile Guida Acquisto AndroidBlog.it
  • News su Android, tutte le novità

Il social commerce spiegato in tre punti: come vendere davvero sui social

Redazione 16/06/2025

Ultime News

Screenshot
  • News su Android, tutte le novità

Fatti di WordPress: la community italiana che aiuta chi usa WordPress ogni giorno

Redazione 27/06/2025
WordPress è uno dei CMS (Content Management System) più utilizzati al mondo per la creazione di siti...
Leggi tutto Read more about Fatti di WordPress: la community italiana che aiuta chi usa WordPress ogni giorno
App bancarie a confronto: chi vince? apphomebanking
  • News su Android, tutte le novità

App bancarie a confronto: chi vince?

26/06/2025
Il social commerce spiegato in tre punti: come vendere davvero sui social AliExpress Affidabile Guida Acquisto AndroidBlog.it
  • News su Android, tutte le novità

Il social commerce spiegato in tre punti: come vendere davvero sui social

16/06/2025
Sviluppo software su misura: perché è una scelta vincente e quando prenderla in considerazione Crittografia hardware e software
  • News su Android, tutte le novità

Sviluppo software su misura: perché è una scelta vincente e quando prenderla in considerazione

22/05/2025
Recensione Gamesir X5 Lite: economico ma funzionale X5-Lite-6-1536x864
  • Giochi Android
  • News su Android, tutte le novità
  • Recensioni Android

Recensione Gamesir X5 Lite: economico ma funzionale

12/05/2025
Copyright © Tutti i diritti riservati | MoreNews by AF themes.
×

Questo sito utilizza i cookie, anche di terze parti, per garantirvi una esperienza di utilizzo ottimale.
Si rinvia all'informativa estesa per ulteriori informazioni. La prosecuzione nella navigazione (click, scroll, ...) comporta l'accettazione dei cookie.

 

Ok