Компаниите все повече внедряват по-малки и средни модели генеративен изкуствен интелект (AI), предпочитайки по-опростената, рентабилна технология пред големите, лъскави модели, които предизвикаха вълни в ранните дни на бума на AI, пише The Wall Street Journal.
За разлика от базовите модели като GPT-4 на OpenAI, чието разработване струва повече от 100 млн. долара и използва повече от 1 трлн. параметъра - мярка за неговия размер, по-малките модели се обучават на по-малко данни и често са предназначени за специфични задачи.
Почти всички доставчици на модели, включително Microsoft, Google и стартиращи компании като Mistral, Anthropic и Cohere, се стремят да предложат повече от този тип модели.
Главните информационни директори твърдят, че в най-честите случаи, в които използват изкуствен интелект – които често включват конкретни, повтарящи се задачи като класифициране на документи – по-малките и средните модели са по-смислени. И тъй като използват по-малко изчислителна мощност, тези модели могат да струват по-малко за работа.
Промяната се случва, докато компаниите бавно преминават към използване на AI за повече задачи, като същевременно са под натиск да управляват разходите и възвръщаемостта от скъпата технология.
„Един огромен LLM (голям езиков модел), който е обучен на цялата световна мрежа, може да бъде твърде излишен“, коментира Робърт Блумофе, главен технологичен директор в компанията за киберсигурност, доставка на съдържание и облачни изчисления Akamai. За случаи на корпоративно ползване, той казва: „Нямате нужда от AI модел, който познава целия актьорски състав на „Кръстника“, знае всеки филм, който някога е правен, знае всяко телевизионно шоу, създавано някога“.
Оливър Паркър, вицепрезидент по пускането на пазара на глобалния генеративен изкуствен интелект в Google Cloud, твърди, че е виждал компании да преминаван към модели от среден размер отчасти защото моделите отговарят на критериите, обхващащи повечето опции за корпоративно ползване.
Небанковият ипотечен агент Mr. Cooper тества възможностите на средни по размер модели в своя кол център за анализиране на гласови данни, за да помогне на агентите да разберат накъде вероятно водят разговорите и какво вероятно ще попитат клиентите, коментира главният информационен директор Шридхар Шарма.
„Няма нужда да преустройваме нещо, само защото е по-голямо“, посочва Шарма, допълвайки, че Mr. Cooper ползва и големи основни модели за по-комплексни задачи.
Досега TD Bank е използвала GPT моделите на OpenAI и други, включително ползва GPT-4, за да помага на работниците в кол центровете да отговарят по-бързо на клиентски заявки. Но наскоро банката е сключила партньорство с доставчика на AI модел Cohere и иска да види дали по-малките и средни модели на Cohere не са по-ефективни, включително по отношение на разходите и при различни задачи, казва Максимс Волковс, главен AI учен в TD.
Волковс твърди, че ще оцени моделите на Cohere заедно с предложенията на Open по отношение на цена, точност и латентност. Той очаква моделите от среден размер да се справят по-добре в някои сценарии.
„Компромисът между точност и цена трябва да бъде по-благоприятен“, смята той.
Преди година компаниите гравитираха към малкото големи модели, коментира Стефан Преториус, главен технически директор на компанията за маркетингови услуги WPP. Това беше добре, когато компаниите ги използваха в ограничен пилотен капацитет, но сега, когато се разрастват, разходите за големите модели могат бързо да излязат извън контрол, посочва той. WPP използва няколко модела от семейството Gemini на Google, включително модела от среден размер Flash.
Flash е подходящ за използване като анализиране на навиците за пазаруване в различни страни и използване на констатациите за писане на подходящо уеб съдържание за дадени продукти. Например текст за спирала, продавана в Обединеното кралство, може най-добре да подчертае качества като водоустойчивост. Писането на рекламни текстове като този е случаят, в който един среден модел може да блесне, каза Преториус.
Големите модели все още имат значение и стойност за по-комплексни случаи на употреба, изискващи много данни, творчески подход и интерпретация, смята той. Един голям модел би бил подходящ за приемане на всички произведения на Шекспир и анализиране на женските спрямо мъжките герои във времето, казва той. Но това не е в списъка със задачи на WPP.