Přeskočit na obsah

Kdy agent dává smysl a kdy ne. Zhangův rámec yes, no, maybe

Barry Zhang z Anthropic na AI Engineer Summitu otevřel prezentaci větou, která z úst člověka stavícího agenty nezní často. „Don't build agents for everything." Jeho rámec yes, no, maybe je praktický ekonomický model pro rozhodování, kdy agent přináší hodnotu a kdy ho nahradí levější workflow.

4 min čtení
Kdy agent dává smysl a kdy ne. Zhangův rámec yes, no, maybe

Obsah

Barry Zhang z Anthropic vyšel na pódium AI Engineer Summitu v New Yorku a začal větou, která z úst člověka stavícího AI agenty nezní často. „Don’t build agents for everything." Jeho prezentace „How We Build Effective Agents" se rychle stala jedním z nejčastěji sdílených praktických rámců pro debatu o tom, kdy agenty vůbec stavět. Pointa míří na otázku, kterou si týmy obvykle nepokládají. Kdy je agent vlastně tou správnou odpovědí?

Yes znamená ambiguitu plus hodnotu

Zhang říká, že agenti se osvědčují tam, kde nejde rozumně předem nakreslit rozhodovací strom. Když má úkol ambiguitní vstup, otevřený prostor variant a smysl jen v tom, že průchodů je hodně, dává agent smysl. K tomu musí platit, že výstup za to stojí. „That exploration I just mentioned is going to cost you a lot of tokens." U 10centového customer support úkolu se to nevyplatí. U kódování ano. Kódování v tomto rámci vychází jako učebnicová kategorie yes. Vysoká ambiguita, vysoká hodnota výstupu a výsledek, který se dá ověřit jednotkovými testy.

No je předem popsatelný workflow

Kde se rozhodovací strom dá namapovat dopředu, agent ztrácí přínos. „It’s a lot more cost-effective, and it’s going to give you a lot more control." Když znáte vstupy, výstupy, větvení i hraniční případy, programovatelný workflow vás stojí zlomek tokenů. Stejné platí u úkolů, kde chyba má velké náklady a hledá se obtížně. Read-only přístup nebo lidský dohled tu pomáhají, ale „this will also limit how well you’re able to scale your agent in your use case". V té chvíli postavíte agenta, který nedokáže škálovat. Smyslu mu to ubírá.

Maybe je o tom, co agent skutečně vidí

Nejtěžší část přichází na konci prezentace. Zhang říká, že většina týmů tu vyhoří. „think like your agents." Agent pracuje jen s omezeným kontextem, který mu dáte. Cokoliv, co do něj nevložíte nebo nezpřístupníte nástroji, ve světě agenta prakticky neexistuje. Vývojář se přitom dívá na úkol s desítkami otevřených záložek, dokumentací, historií Slacku a znalostí produktu v hlavě. Agent dostane prompt, dostupné nástroje a omezený kontext.

Tady pomáhá jednoduchá analogie z videa „exact instructions challenge". Děti napíšou návod na přípravu sendviče s arašídovým máslem a džemem a dospělý ho provádí doslova. Když instrukce neřeknou „otevři sáček s chlebem", „vezmi jeden krajíc" nebo „otevři sklenici", dospělý ty kroky neudělá. Cíl chápe, ale instrukce ho neobsahují.

S agenty je to stejné. Problém leží často v zadání, kontextu a pozorovatelnosti. Zhang proto doporučuje simulovat úkol z perspektivy agenta. Otevřete Claude, pošlete mu přesně ten prompt, který agent dostává v produkci, a sledujte, co s tím dělá. Většina nedostatků se objeví do pěti minut.

Pětiminutový test, který většina přeskočí

Většina ne-tech CEO čte „postavte agenta na tohle" jako jednoznačné yes a posílá zadání do týmu. Zhang varuje právě před tímto posunem. Agent může být reálně použitelný teprve potom, co tým prošel maybe fází. Tedy přijal omezení agenta jako součást produktové reality. Technický detail to není.

Tady pomáhá přemýšlet o agentech jako o nové pracovní roli. Krátké video, ve kterém manažer stojí před „týmem", gratuluje k růstu revenue a za dvě minuty startuje další měsíc, trefuje přesně tuhle změnu optiky. Pokud má agent pracovat jako člen týmu, musíte ho najmout na konkrétní práci. Pouhé „zapnutí" nestačí. Ethan Mollick z Whartonu pracuje s analogií stážisty, o kterého se musíte postarat, dokud nepochopí váš kontext.

U člověka byste se ptali, co přesně má dělat, co musí vědět, jaké nástroje dostane, kdy má eskalovat problém, podle čeho poznáme dobrý výsledek a kolik stojí jeho čas. U agenta platí totéž. Místo pracovní smlouvy píšete prompt, místo onboardingu skládáte kontext, místo přístupů nastavujete tools a místo performance review sledujete trace, náklady, chyby a úspěšnost.

Zhangův „think like your agents" je ve skutečnosti hiring test. Nejdřív si ověřujete, jestli je práce pro agenta vůbec vhodná. Pak testujete, jestli má dost informací a nástrojů. A teprve potom dává smysl rozhodovat, jestli má běžet v produkci.

Yes, no, maybe je ekonomický model. Nemá to společné s tím, jestli někdo má rád AI. Yes znamená komplexitu plus hodnotu. No platí pro úkoly, které lze předem převést do workflow. Maybe leží v těch pěti minutách, kdy si vývojář otevře Claude a pošle do něj přesně to, co v produkci dostává jeho agent. Zhang prezentaci uzavírá kombinací těchto otázek. Řada zdánlivých yes odpovědí se po pětiminutovém testu změní na no.

Video s arašídovým sendvičem a džemem ukazuje stejný princip v dětské verzi. Když instrukce neobsahuje kontext, systém ji provede doslova. Agent dělá totéž. Zhangova prezentace se dá číst jako náborový manuál pro agenty. Otázka přestává znít, jestli „jde postavit agent". Začíná tím, jestli byste na tu práci najali člověka, jak byste ho onboardovali, podle čeho byste měřili výkon a kdy byste mu nedali autonomii. Agent bez kontextu funguje jako nástroj, který hádá.

Zvykli jsme si, že si lidé řadu věcí dovodí. Vyrostli ve stejném městě, prošli podobnou školou, znají firmu pár měsíců, takže jim je něco „jasné" a „přece normální". S agentem ten implicitní sdílený kontext neexistuje. Nemá stejné město, stejnou školu ani stejné předsudky o tom, co je obvyklé. Největší dovednost při práci s agenty je proto nedělat domněnky a dávat mu to samé, co byste měli dávat člověku. Role definition, context, tools, boundaries, evaluation. U agenta to vidíte hned, protože když to neuděláte, neudělá to ani on. U člověka to často přehlížíte, dokud něco neselhává.

Zobrazit celou stránku

Související články