OpenAI geeft ChatGPT een stem om te reageren op aanwijzingen en commando's

Alicia Brunner included in Technology Explained Chatgpt Chatbot Artificial Intelligence

2023-09-26 878 words 5 minutes

Contents

ChatGPT wordt een interactieve, generatieve AI-ervaring. OpenAI onthulde dat ’s werelds toonaangevende AI chatbot in staat zal zijn om te spreken en te reageren op vragen van gebruikers met behulp van een gesynthetiseerde, vermoedelijk door AI gegenereerde, stem.

Naast het verkrijgen van een vocale aanwezigheid, heeft ChatGPT nu ook de mogelijkheid om te interageren met en te reflecteren op visuele content die wordt aangeboden via de Android of iOS applicatie. Deze functionaliteit doet denken aan Google Lens en verschillende andere platforms die gebruik maken van neurale netwerken voor nauwkeurige detectie van informatie uit afbeeldingen.

OpenAI geeft ChatGPT een stem

Op 25 september 2023 onthulde ChatGPT-ontwikkelaar OpenAI dat het zijn wereldwijd toonaangevende generatieve AI-chatbot een stem zou geven. ChatGPT-gebruikers kunnen rechtstreeks tot de chatbot spreken en hem vragen terug te spreken, waardoor ChatGPT voor het eerst rechtstreeks met spraak kan communiceren.

Een voorbeeld verstrekt door OpenAI toont een vrouw die ChatGPT vraagt om een origineel verhaal voor het slapen gaan, dat vervolgens wordt geleverd door een computergegenereerde vrouwelijke stem als antwoord.

Volgens Wired is het nieuwe tekst-naar-spraak model intern ontwikkeld. Het kan “mensachtige” audio genereren uit tekst en een paar seconden voorbeeldspraak (met behulp van het OpenAI Whisper-model) en spreken in verschillende tonen en stijlen. Je kunt een reeks spraakvoorbeelden vinden op OpenAI’s blog .

Verschillende organisaties zijn begonnen met het gebruik van OpenAI’s meest recente vocalisatiemodel. Met name Spotify heeft gebruik gemaakt van OpenAI’s tekst-naar-spraak technologie om podcasts toegankelijk te maken in een reeks vreemde idiomen door de taalkundige vertaalcompetenties van ChatGPT te integreren met zijn nieuw ontwikkelde vermogen tot verbale communicatie.

ChatGPT heeft onlangs een innovatieve tekst-naar-spraak technologie geïntroduceerd voor zijn gewaardeerde Plus en Enterprise abonnees die gebruik maken van de officiële Android en iOS applicaties. Deze geavanceerde service zal naar verwachting worden vrijgegeven in de komende twee weken vanaf 25 september 2023. Op dit moment is de nieuwe stemfunctie exclusief voor de Engelse taal, maar je kunt er redelijkerwijs van uitgaan dat andere talen snel zullen volgen.

ChatGPT kan afbeeldingen en foto’s herkennen en analyseren

De recente uitbreiding van OpenAI’s ChatGPT heeft te maken met de mogelijkheid om afbeeldingen die ter onderzoek worden aangeboden te verwerken en er over te praten. Hoewel deze mogelijkheid kort werd gedemonstreerd tijdens de onthulling van de GPT-4 upgrade, heeft het sindsdien niet veel aandacht gekregen.

Inderdaad, de recente verbeteringen aan ChatGPT hebben het een niveau van bekwaamheid gegeven dat vergelijkbaar is met dat van Google Lens. Gebruikers kunnen nu een afbeelding invoeren via het platform of er een vastleggen met de camera van hun mobiele apparaat binnen de grenzen van de ChatGPT-applicatie. Door dit proces genereert ChatGPT een gedetailleerde analyse van de afgebeelde visuele gegevens, terwijl tegelijkertijd aanvullende informatie wordt verstrekt waar dat nodig wordt geacht voor een beter begrip.

De karakterisering “vergelijkbaar met Google Lens” geeft misschien niet volledig de mogelijkheden weer. Het vermogen om interactief te discussiëren over beelden maakt diverse toepassingen mogelijk. Het is cruciaal om de beperkingen van OpenAI in gedachten te houden, die ChatGPT om privacy- en nauwkeurigheidsredenen beperkt in het direct becommentariëren van individuen. Desalniettemin kun je je afvragen of er plannen zijn voor een OpenAI-gedreven “Wie is dit” utility in de nabije toekomst.

OpenAI heeft aangekondigd dat ze in de komende twee weken een geavanceerd beeldherkenningssysteem zullen uitbrengen, dat toegankelijk zal zijn op verschillende platforms en niet beperkt zal zijn tot gebruik binnen de grenzen van de ChatGPT-toepassing alleen.

Privacy, veiligheid en andere kwesties

De gevolgen van de integratie van een spraakgestuurd ChatGPT-systeem zijn ingrijpend. Hoewel het vooruitzicht gevoelens van opwinding kan oproepen, bestaan er aanzienlijke zorgen over privacy en veiligheid die voortkomen uit de capaciteit om unieke stempatronen te genereren op basis van beperkte inputsamples. De kans dat kwaadwillende individuen munt slaan uit deze technologie is aanzienlijk, wat de uitdagingen benadrukt die gepaard gaan met het controleren van zulke generatieve AI-systemen zodra ze zijn vrijgegeven. Ondanks pogingen van bestuursorganen en invloedrijke denkers om regulerend in te grijpen, lijkt het erop dat het beteugelen van de vooruitgang van AI waarschijnlijk een onbereikbaar doel is.

Ondanks het feit dat OpenAI de bezorgdheid over deze kwestie erkent, lijkt het de fundamentele kwesties die aan de orde zijn in zijn discours te omzeilen.

Toch introduceren deze vaardigheden ook nieuwe gevaren, zoals de mogelijkheid dat kwaadwillende individuen zich voordoen als prominente persoonlijkheden of zich schuldig maken aan misleiding. Daarom heeft onze organisatie deze innovatie geïmplementeerd om een specifieke toepassing te vergemakkelijken - spraakcommunicatie.

Gezien het feit dat dit slechts een indicatie is van wat ons te wachten staat, kunnen we weerstand verwachten tegen het opkomende linguïstische karakter van ChatGPT, vooral wanneer controversiële nieuwsberichten naar buiten komen die het betrekken bij illegale activiteiten zoals frauduleuze activiteiten.

OpenAI maakt van ChatGPT de go-to-go AI-app

ChatGPT heeft een aanzienlijke voorsprong in populariteit gekregen dankzij de voortdurende ontwikkeling door OpenAI, wat resulteert in een steeds toenemend aantal gebruiksvriendelijke functies die worden toegevoegd. Deze trend heeft ChatGPT de eerste keuze onder gebruikers gemaakt voor generatieve AI-toepassingen, en overtreft zelfs concurrenten zoals Google Bard en Anthropic’s Claude die zijn opgedoken sinds het eerste succes tijdens de pioniersfasen van generatieve AI-technologie.

Zolang OpenAI de gebruikerservaring van ChatGPT blijft verbeteren door meer functionaliteiten toe te voegen, zullen gebruikers betrokken blijven en zal het platform dichter in de buurt komen van een allesomvattende multimodale kunstmatige intelligentie-oplossing.