OpenAI ha annunciato l’arrivo di GPT-4 a metà marzo, con una caratteristica chiave rappresentata dal suo supporto multimodale, cioè la capacità di riconoscere le immagini. Tuttavia, l’azienda ha ora reso noto che GPT-4V (GPT-4 con Visione), la versione multimodale di questo modello, non è ancora accessibile al pubblico a causa di una serie di problemi legati alla privacy e alla sicurezza.
Al momento, GPT-4V è utilizzato solo da un ristretto gruppo di utenti dell’applicazione Be My Eyes, progettata per aiutare non vedenti e ipovedenti.
OpenAI riconosce che l’implementazione di questa funzionalità comporta rischi significativi, soprattutto in termini di privacy. Per mitigare questi rischi, l’azienda ha intrapreso diverse misure preventive. GPT-4V è stato programmato per non superare i test CAPTCHA, non identificare individui o stimarne l’età, e non fare conclusioni basate su immagini.
Inoltre, OpenAI ha lavorato per evitare che GPT-4V emetta giudizi sulle caratteristiche fisiche, il sesso o l’etnia delle persone. Tuttavia, ci sono ancora molte sfide da superare prima che questa funzione di riconoscimento delle immagini possa essere resa accessibile al pubblico.
Nel documento di OpenAI vengono esposte alcune delle limitazioni attuali del modello. GPT-4V non è in grado di riconoscere sostanze pericolose o chimiche, come fentanil, carfentanil e cocaina, a partire dalle immagini delle loro strutture chimiche. Ci sono anche gravi errori nel campo medico, dove il modello non riesce a identificare la posizione di un idrocefalo, spesso confondendo la destra con la sinistra.
Inoltre, il modello ha dimostrato di non riconoscere alcuni simboli utilizzati da gruppi specifici, come la croce dei suprematisti bianchi. C’è anche il problema della discriminazione basata su sesso e corporatura.
Pertanto, prima che GPT-4V possa essere reso disponibile per un utilizzo più ampio, OpenAI dovrà affrontare e risolvere queste sfide in modo da garantire la precisione, la sicurezza e il rispetto delle normative sulla privacy.