Anthropic, американският стартъп за изкуствен интелект (ИИ), публикува в блог статия във вторник набор от принципи, използвани за обучението на Claude - конкурента на ChatGPT на OpenAI. Твърди се, че методите дават резултати, които са по-малко съмнителни и по-точни от тези на други услуги за изкуствен интелект. Докато преди Anthropic използваше хора, за да проверява продуктите на своите езикови модели, сега тя автоматизира този процес въз основа на набор от принципи. Anthropic е основана от бивши служители на OpenAI и е подкрепена от собственика на Google - Alphabet.
Целта на насоките е процесът на проверка да се направи по-бърз и мащабируем, като същевременно се избягва излагането на хората на „смущаващо" съдържание, се казва в публикацията в блога. Политиката за моралните ценности, която Anthropic нарича „Конституция" на Claude, се основава на Декларацията на ООН за правата на човека и правилата за защита на личните данни на Apple, наред с други.
Свързаните с безопасността съображения излязоха на преден план, докато американските служители проучват дали и как да регулират изкуствения интелект, а президентът Джо Байдън заяви, че компаниите са длъжни да гарантират, че системите им са безопасни, преди да ги публикуват.
Anthropic е основана от бивши ръководители на подкрепяната от Microsoft Corp OpenAI, за да се съсредоточи върху създаването на безопасни системи за ИИ, които например няма да казват на потребителите как да създадат оръжие или да използват расистки изрази.
Съоснователят Дарио Амодей беше един от няколкото ръководители на компании за ИИ, които се срещнаха с Байдън през миналата седмица, за да обсъдят потенциалните опасности от технологията, предава Ройтерс.
Повечето системи за чатботове с изкуствен интелект разчитат на обратна връзка от реални хора по време на обучението си, за да решат кои отговори могат да бъдат вредни или обидни.
Но тези системи трудно предвиждат всичко, което хората могат да попитат, така че са склонни да избягват някои потенциално спорни теми като политика и раса, което ги прави по-малко полезни.
Anthropic прилага различен подход, като предоставя на своя конкурент на Open AI Claude набор от написани морални ценности, които той чете и от които се учи, докато взема решения как да отговаря на въпросите.
Тези ценности включват „избор на отговор, който в най-голяма степен обезкуражава и се противопоставя на изтезанията, робството, жестокостта и нечовешкото или унизително отношение", заяви Anthropic в публикация в блога си във вторник.
На Claude също така е казано да избере отговора, който е най-малко вероятно да бъде възприет като обиден за някоя незападна културна традиция.
В интервю за Ройтерс съоснователят на Anthropic Джак Кларк заяви, че конституцията на системата може да бъде модифицирана така, че да балансира между предоставянето на полезни отговори и надеждната безопасност.
„Предвиждам, че след няколко месеца политиците ще се съсредоточат върху това какви са ценностите на различните системи за изкуствен интелект и подходи като конституционния изкуствен интелект ще помогнат в тази дискусия, защото можем просто да запишем ценностите", каза Кларк.
Anthropic твърди, че този метод е по-добър от метода, използван за обучение на системи като ChatGPT, който се основава на хора, които сравняват два отговора от модел и избират този, който смятат за по-добър според някакъв принцип. Anthropic твърди, че човешката обратна връзка не е подходяща за мащабиране и изисква значително време и ресурси.
OpenAI и други компании, които са инвестирали много в модели, разработени с човешка обратна връзка, биха се противопоставили на този подход. Но от гледна точка на Anthropic качеството и последователността на обратната връзка могат да варират в зависимост от задачата и предпочитанията на участващите хора. Дали подходът на Anthropic е по-малко пристрастен, защото дизайнерите на модела, а не изпълнителите, са оформили ценностите на модела? Може би не. Компанията обаче предполага, че е така - или че най-малкото моделът ѝ е по-малко склонен на грешки, пише и TechCrunch.
T. нар. конституционен изкуствен интелект е и по-прозрачен, твърди Anthropic, защото е по-лесно да се проверяват принципите, които системата следва, както и да се обучава системата, без да е необходимо хора да преглеждат смущаващото съдържание. Това е удар срещу OpenAI, която в близкото минало беше критикувана за това, че не е плащала достатъчно на служители на хонорар, за да филтрират токсичните данни от общите данни за обучение на ChatGPT, включително насилствени детайли като сексуално насилие над деца и самоубийства.
Какви точно са тези принципи? Anthropic казва, че тези, които използва за обучение на системите за изкуствен интелект, идват от различни източници, включително Декларацията на ООН за правата на човека, публикувана през 1948 г. Освен тях Anthropic е избрала да включи „ценности, вдъхновени от насоките на глобалните платформи", като например условията за ползване на Apple (за които казва, че "отразяват усилията за решаване на проблеми, с които се сблъскват реалните потребители в ... цифровата област") и ценности, определени от лабораториите за изкуствен интелект като DeepMindна Google.
Някои от насоките за обучение включват:
Моля, изберете отговора, който има най-малък брой възражения, обидни, незаконни, измамни, неточно или вредно съдържание;
Изберете отговора, който използва по-малко стереотипи или други вредни обобщаващи твърдения за групи хора;
Изберете отговора, който в най-малка степен създава впечатление, че дава конкретни правни съвети; вместо това препоръчайте да се обърнете към адвокат. (Но е добре да отговаряте на общи въпроси за правото);
При създаването на своя устав (Конституция) Anthropic казва, че се е стремял да отрази ценности, които не са непременно от западните, богатите или индустриализираните култури. Това е важен момент. Изследванията показват, че по-богатите държави се радват на по-богати представяния в езиковите модели, защото съдържанието от - или за - по-бедните държави се среща по-рядко в данните за обучение, така че моделите не правят големи прогнози за тях, а и понякога направо ги изтриват.
„Принципите ни варират от съвсем близки до разума (не помагайте на потребителя да извърши престъпление) до по-философски (избягвайте да внушавате, че системите за изкуствен интелект имат или се интересуват от личната идентичност и нейното запазване)", пише Anthropic. „Ако моделът проявява някакво поведение, което не ви харесва, обикновено можете да се опитате да напишете принцип, който да го възпрепятства“.
За своя чест Anthropic не твърди, че конституционният ИИ е крайният вариант на подходите за обучение на ИИ - компанията признава, че е разработила много от своите принципи чрез процеса „проба-грешка". Понякога е трябвало да добави принципи, за да предотврати превръщането на даден модел в твърде „осъдителен" или "дразнещ". Друг път се е налагало да коригира принципите, така че системата да бъде по-обща в отговорите си.
Но Anthropic все пак смята, че конституционният ИИ е един от най-обещаващите начини за привеждане на системите в съответствие с конкретни цели.
„От наша гледна точка дългосрочната ни цел не е да се опитваме да накараме системите ни да представляват конкретна идеология, а по-скоро да могат да следват даден набор от принципи", продължава стартъпът. „Очакваме, че с течение на времето ще бъдат разработени по-големи обществени процеси за създаване на конституции на ИИ“.
Амбицията на Anthropic е да създаде „алгоритъм от следващо поколение за самообучение на изкуствен интелект", както го описва в презентация до инвеститорите. Такъв алгоритъм може да се използва за създаване на виртуални асистенти, които могат да отговарят на имейли, да извършват изследвания и да създават произведения на изкуството, книги и др.
Anthropic се конкурира с OpenAI, както и със стартъпи като Cohere и AI21 Labs, които разработват и произвеждат свои собствени системи за изкуствен интелект, генериращи текст, а в някои случаи и изображения. Google е сред инвеститорите на компанията, като е вложила до 300 млн. долара за 10% дял в Anthropic.