OpenAI споделя ранни резултати от тест за функция, която може да чете думи с убедителен човешки глас - подчертавайки нова граница за изкуствения интелект (ИИ) и давайки допълнително поле за развитие на дийпфейк тенденцията, пише Bloomberg.
Компанията представи ранни демонстрации на малка тестова версия на модела за текст към говор, наречен Voice Engine, който е споделила с около 10 разработчици досега, разкрива говорител. OpenAI се отказа от по-широко разпространение на функцията, за което информира журналистите по-рано този месец.
Говорителят посочи, че компанията е решила да ограничи инструмента след получаване на обратна връзка от заинтересовани страни като политици, експерти в индустрията, преподаватели и творци. Първоначално OpenAI планираше да пусне инструмента на до 100 разработчици чрез процес на кандидатстване.
„Осъзнаваме, че генерирането на реч, която наподобява гласовете на хората, крие сериозни рискове, които са особено важни в годината на изборите“, изтъква компанията. „Ангажираме се с американски и международни партньори от правителството, медиите, развлеченията, образованието, гражданското общество и извън тях, за да гарантираме, че включваме тяхната обратна връзка, докато разработваме.
Друга ИИ технология вече е използвана за фалшиви гласове. През януари фалшиво, но реалистично звучащо телефонно обаждане, за което се твърди, че е от президента Джо Байдън, насърчи хората в Ню Хемпшир да не гласуват на първичните избори – събитие, което разпали страховете около ИИ преди редица важни избори.
За разлика от предишните усилия на OpenAI за генериране на аудио съдържание, Voice Engine може да създава реч, която звучи като определени хора, заедно с техния специфичен ритъм и интонации. Всичко, от което се нуждае софтуерът, е 15 секунди записано аудио на човек, който говори, за да пресъздаде гласа му.
По време на демонстрация на инструмента Bloomberg изслуша клип на главния изпълнителен директор на OpenAI Сам Алтман, обясняващ накратко технологията с глас, който звучи идентично с истинския му глас, но който в крайна сметка се оказа фалшив.
„Ако имате правилната аудио настройка, това е основно глас от човешки калибър“, коментира Джеф Харис, продуктов лидер в OpenAI. „Това е доста впечатляващо техническо качество“. Въпреки това, Харис каза: „Очевидно въпросът относно безопасността около способността наистина точно да се имитира човешката реч е сложен“.
Един от настоящите партньори на OpenAI, използващи инструмента, Norman Prince Neurosciences Institute, използва технология, за да помогне на пациентите да възстановят гласа си. Например, инструментът е използван за възстановяване на гласа на млада пациентка, която е загубила способността си да говори ясно поради мозъчен тумор, като възпроизвежда речта ѝ от по-ранен запис за училищен проект.
Персонализираният езиков модел на OpenAI може също да превежда аудиото, което генерира, на различни езици. Това го прави полезен за компании в аудио бизнеса, като Spotify Technology SA. Spotify вече използва технологията в собствената си пилотна програма за превод на подкасти на популярни подкастъри като Lex Fridman. OpenAI също рекламира други полезни приложения на технологията, като например създаване на по-широка гама от гласове за образователно съдържание за деца.
Относно тестовата версия OpenAI изисква от своите партньори да се съгласят с нейните политики за използване, да получат съгласие от оригиналния говорител, преди да използват гласа му, и да разкрият на слушателите, че гласовете, които чуват, са генерирани от ИИ. Компанията също така инсталира нечуваем аудио воден знак, за да може да различи дали част от аудиото е създадено от нейния инструмент.
Преди да реши дали да пусне функцията в мащаб, OpenAI посочва, че иска обратна връзка от външни експерти. „Важно е хората по света да разберат накъде се е насочила тази технология, независимо дали в крайна сметка сами ще я внедрим широко или не“, добавя компанията.