Генеративният изкуствен интелект може да посее съмнение в сериозната наука

Значението на разграничаването между изкуствения и човешкия интелект нараства с всеки изминал ден

09:17 | 25.03.23 г.

Снимка: Bloomberg

Големите езикови модели като ChatGPT са доставчици на правдоподобност. Чатботовете, много от които са базирани на така наречения генеративен AI (изкуствен интелект), са обучени да отговарят на потребителски въпроси, като търсят подходяща информация в интернет и събират съгласувани отговори, създавайки убедителни ученически есета, авторитетни правни документи и достоверни новини.

Но тъй като публично достъпните данни съдържат грешна информация или дезинформация, някои машинно генерирани текстове може да не са точни или верни, пише научната коментаторка на Financial Times Анджана Ахуджа. Това предизвика борба за разработване на инструменти за идентифициране дали текстът е съставен от човек или машина. Науката също се бори да се приспособи към тази нова епоха, с живи дискусии дали чатботовете трябва да имат право да пишат научни статии, или дори да генерират нови хипотези.

Значението на разграничаването между изкуствения и човешкия интелект нараства с всеки изминал ден. През февруари анализаторите на UBS разкриха, че ChatGPT е най-бързо развиващото се уеб приложение в историята, събирайки 100 млн. активни потребители през януари. Някои сектори решиха, че няма смисъл да заключват стабилната врата: наскоро от International Baccalaureate заявиха, че на кандидат-студентите ще бъде позволено да използват ChatGPT, за да пишат есета, при условие че го цитират.

Трябва да признаем, че създателят на технологията е откровен относно нейните ограничения. Сам Алтмън, главен изпълнителен директор на OpenAI, предупреди през декември, че ChatGPT е „достатъчно добър в някои неща, за да създаде подвеждащо впечатление за величие... имаме да работим много по отношение на устойчивостта и истинността“. Компанията разработва криптографски „воден знак“ за своята продукция, тайна машинно-четима последователност от пунктуация, правопис и словоред; и усъвършенства „класификатор“, за да посочва разликата между синтетичен и генериран от хора текст, като използва примери и за двата, за да обучи алгоритъма.

Ерик Мичъл, завършил Станфордския университет, смята, че класификаторът ще изисква много данни за обучение. Заедно с колегите си той измисли DetectGPT, подход за откриване на разликата, което означава, че методът не изисква предварително обучение. Вместо това методът обръща чатбота навътре, за да изследва собствената си продукция.

Работи по следния начин: DetectGPT пита чатбот колко „харесва“ примерен текст, като „харесването“ подсказва колко подобен е текстът на собствените му творения. След това DetectGPT отива една крачка напред – той преработва текста, леко променяйки стила. Допускането е, че чатботът е по-променлив в своите „харесвания“ на променен текст, генериран от хора, отколкото на променен машинен текст. В ранните тестове, твърдят изследователите, методът правилно разграничава между човешко и машинно авторство в 95 процента от случаите.

Има условности: резултатите все още не са рецензирани; методът, макар и по-добър от произволното отгатване, не работи еднакво надеждно във всички генеративни AI модели. DetectGPT може да бъде измамен чрез „човешки“ добавки към синтетичен текст.

Какво означава всичко това за науката? Научните публикации са кръвоносната система на изследванията, инжектирайки идеи, хипотези, аргументи и доказателства в глобалния научен канон. Някои бързо възприеха ChatGPT за научен сътрудник, като в някои анализи той противоречиво бе посочен като съавтор.

Meta дори стартира научен текстов генератор, наречен Galactica. Три дни по-късно той беше спрян. Сред бисерите му беше измислена история за мечки, пътуващи в космоса.

Професор Майкъл Блек от Института Макс Планк за интелигентни системи в Тюбинген туитна, че е „обезпокоен“ от отговорите на Galactica на многобройни запитвания относно собствената ѝ изследователска област, включително приписването на фалшиви анализи на истински изследователи. „Във всички случаи Galactica грешеше или беше пристрастна, но звучеше правилно и авторитетно. Мисля, че е опасна.“

Опасността идва от това, че правдоподобният текст може да се прокрадне в истински научни статии, изпъстряйки литературата с фалшиви цитати и завинаги изкривявайки канона. Списание Science сега изрично забранява генерирания текст; Nature пък разрешава използването му, ако е декларирано, но забранява посочването му като съавтор.

От друга страна повечето хора не се допитват до авторитетни списания, за да направляват научното си мислене. Тези чатботове могат да бълват при поискване поток от богата на цитати псевдонаука за това как ваксинацията не работи или защо глобалното затопляне е измислица. Този подвеждащ материал, публикуван онлайн, може след това да бъде погълнат от бъдещия генеративен AI, за да произведе нов цикъл от лъжи, които допълнително замърсяват обществения дискурс. Търговците на съмнение сигурно потриват ръце.