В началото на надпреварата в изкуствения интелект (AI) всичко беше голямо: гигантски модели, обучени върху планини от данни, опитващи се да имитират интелект на човешко ниво.
Сега технологичните гиганти и стартъпите мислят в по-малки мащаби, докато намаляват AI софтуера, за да го направят по-евтин, по-бърз и по-специализиран, пише Wall Street Journal.
Тази категория AI софтуер – наречен малък или среден езиков модел – се обучава на по-малко данни и често е проектиран за конкретни задачи.
Най-големите модели, като GPT-4 на OpenAI, струват повече от 100 млн. долара, за да бъдат разработени, и използват повече от един трилион параметри – мярка за техния размер. По-малките модели често се обучават върху по-ограничени набори от данни – само по правни въпроси например – и обучението им може да струва по-малко от 10 млн. долара, използвайки по-малко от 10 млрд. параметъра. По-малките модели също така използват по-малко изчислителна мощност и следователно струват по-малко, за да отговорят на всяко запитване.
Microsoft засили семейството си от малки модели на име Phi, за които главният изпълнителен директор Сатя Надела каза, че са 1/100 от размера на безплатния модел зад ChatGPT на OpenAI и изпълняват много задачи почти толкова добре.
„Мисля, че все по-силно вярваме, че това ще бъде свят на различни модели“, каза Юсуф Мехди, главен търговски директор на Microsoft.
Microsoft беше една от първите големи технологични компании, които заложиха милиарди долари на генеративен AI и компанията бързо осъзна, че той става по-скъп за работа, отколкото компанията първоначално е очаквала, каза Мехди.
Компанията наскоро пусна и AI лаптопи, които използват десетки AI модели за търсене и генериране на изображения. Моделите изискват толкова малко данни, че могат да се изпълняват на устройството и не изискват достъп до масивни суперкомпютри, базирани в облак, както прави ChatGPT.
Google, както и стартиращите AI компании Mistral, Anthropic и Cohere, също пуснаха по-малки модели тази година. Apple представи своя собствена пътна карта за AI през юни с планове за използване на малки модели, така че да може да изпълнява софтуера изцяло на телефони, за да го направи по-бърз и по-сигурен.
Дори OpenAI, който е в авангарда на движението за големи модели, наскоро пусна версия на своя водещ модел, за която казва, че е по-евтино да работи. Говорител заяви, че компанията е отворена да пуска по-малки модели в бъдеще.
За много задачи, например обобщаване на документи или генериране на изображения, големите модели могат да бъдат излишни – еквивалентът на шофиране на танк, за да отидете на пазар.
„Не би трябвало да са нужни квадрилиони операции, за да се изчисли 2+2“, казва Илия Полосухин, който в момента работи върху блокчейн технологията и е един от авторите на основополагащ документ на Google от 2017 г., поставил основата за настоящия бум на генеративния AI.
Бизнесът и потребителите също търсят начини да управляват генеративна технология, базирана на AI, по-евтино, когато нейната възвръщаемост все още не е ясна.
Тъй като използват по-малко изчислителна мощност, в много случаи малките модели могат да отговорят на въпроси само за една шеста от цената на големите езикови модели, казва Йоав Шохам, съосновател на AI21 Labs, базирана в Тел Авив компания за изкуствен интелект.
Ключът е фокусирането на тези по-малки модели върху набор от данни като вътрешни комуникации, правни документи или номера на продажбите за изпълнение на конкретни задачи като писане на имейли – процес, известен като фина настройка. Този процес позволява на малките модели да изпълняват толкова ефективно, колкото големите модели тези задачи на малка част от цената.
„Да накараш тези по-малки, специализирани модели да работят в тези по-скучни, но важни области“ е границата на AI в момента, казва Алекс Ратнър, съосновател на стартъпа Snorkel AI, който помага на компаниите да персонализират AI модели.
Компанията за кредитен рейтинг Experian премина от големи модели към малки за AI чатботове, които използва за финансови съвети и обслужване на клиенти.
Веднъж обучени на вътрешните данни на компанията, по-малките модели се представиха толкова добре, колкото и големите на малка част от цената, казва Али Хан, главен директор по данните на Experian.
Моделите се „обучават върху добре дефинирана проблемна област и набор от задачи, вместо да ми дадат рецепта за флан (вид сладкиш – бел. ред.)“, каза той.
По-малките модели са и по-бързи, казва Клара Ших, ръководител на AI в Salesforce.
„В крайна сметка плащате повече и имате проблеми със забавянето“ с големи модели, каза Ших. „Това е прекалено“.
Компаниите преминават към по-малки модели, докато напредъкът на публично пуснатите големи модели се забавя. Откакто OpenAI миналата година пусна GPT 4 – значителен напредък във възможностите спрямо предишния модел GPT 3.5, не са пуснати нови модели, които да направят еквивалентен скок напред. Изследователите отдават това на фактори, включително недостига на висококачествени нови данни за обучение.
Тази тенденция насочи вниманието към по-малките модели.
„Имаме този малък момент на затишие, в който всички чакат“, казва Себастиен Бубек, изпълнителен директор на Microsoft, който ръководи проекта за модел Phi. „Има смисъл вниманието ви да бъде пренасочено към „Добре, можете ли всъщност да направите тези неща по-ефективни?“.
Все още не е известно дали това затишие е временно, или е по-широк технологичен проблем. Но моментът с малките модели говори за еволюцията на AI от подобни на научната фантастика демонстрации към по-малко вълнуващата реалност да го превърнеш в бизнес.
Компаниите обаче не се отказват от големите модели. Apple обяви, че включва ChatGPT в своя асистент Siri, за да изпълнява по-сложни задачи като писане на имейли. Microsoft заяви, че най-новата му версия на Windows ще интегрира най-новия модел от OpenAI.
Все пак и двете компании направиха интеграциите на OpenAI незначителна част от цялостния си AI пакет. Apple го спомена само в две минути от почти двучасова презентация.