Nový nástroj OpenAI se pokouší vysvětlit chování jazykových modelů

Nový nástroj OpenAI se pokouší vysvětlit chování jazykových modelů

Často se říká, že velké jazykové modely (LLM) po vzoru ChatGPT OpenAI jsou černou skříňkou a určitě je na tom něco pravdy. Dokonce i pro datové vědce je obtížné vědět, proč model vždy reaguje tak, jak reaguje, jako je vymýšlení faktů z celé látky.

Ve snaze odloupnout vrstvy LLM je OpenAI rozvíjející se nástroj k automatické identifikaci, které části LLM jsou zodpovědné za které z jeho chování. Inženýři za ním zdůrazňují, že je to v raných fázích, ale kód pro jeho spuštění je od dnešního rána dostupný v open source na GitHubu.

Snažíme se [vyvinout způsoby, jak] předvídat, jaké budou problémy se systémem AI, řekl William Saunders, manažer týmu pro interpretaci v OpenAI, Gadget Insider v telefonickém rozhovoru. Chceme skutečně vědět, že můžeme důvěřovat tomu, co model dělá, a odpovědi, kterou produkuje.



Za tímto účelem používá nástroj OpenAI jazykový model (ironicky), aby zjistil funkce komponent jiných, architektonicky jednodušších LLM – konkrétně vlastního GPT-2 OpenAI.

Vysvětlitelnost OpenAI

Nástroj OpenAI se pokouší simulovat chování neuronů v LLM. Poděkování za obrázky: OpenAI

chowbotics Inc

Jak? Nejprve rychlé vysvětlení o LLM na pozadí. Stejně jako mozek se skládají z neuronů, které pozorují v textu nějaký specifický vzorec, aby ovlivnily to, co celkový model říká dále. Pokud například dostanete výzvu ohledně superhrdinů (např. Kteří superhrdinové mají nejužitečnější superschopnosti?), neuron superhrdiny Marvel může zvýšit pravděpodobnost, že model pojmenuje konkrétní superhrdiny z filmů Marvel.

Nástroj OpenAI využívá toto nastavení k rozdělení modelů na jednotlivé části. Nejprve nástroj prochází textové sekvence vyhodnocovaným modelem a čeká na případy, kdy se určitý neuron často aktivuje. Dále ukazuje GPT-4, nejnovější model AI pro generování textu OpenAI, tyto vysoce aktivní neurony a GPT-4 generuje vysvětlení. Aby bylo možné určit, jak přesné je vysvětlení, poskytuje nástroj GPT-4 textové sekvence a umožňuje předpovědět nebo simulovat, jak by se neuron choval. In pak porovná chování simulovaného neuronu s chováním skutečného neuronu.

Pomocí této metodologie můžeme v podstatě pro každý jednotlivý neuron přijít s nějakým předběžným vysvětlením přirozeného jazyka toho, co dělá, a také získat skóre toho, jak dobře toto vysvětlení odpovídá skutečnému chování, Jeff Wu, který vede škálovatelné tým pro zarovnání v OpenAI, řekl. GPT-4 používáme jako součást procesu, abychom vytvořili vysvětlení toho, co neuron hledá, a poté ohodnotili, jak dobře tato vysvětlení odpovídají realitě toho, co dělá.

Výzkumníci byli schopni vygenerovat vysvětlení pro všech 307 200 neuronů v GPT-2, které sestavili do souboru dat, který byl vydán spolu s kódem nástroje.

Nástroje, jako je tento, by jednoho dne mohly být použity ke zlepšení výkonu LLM, říkají výzkumníci - například ke snížení zkreslení nebo toxicity. Uznávají však, že musí ujít dlouhou cestu, než bude skutečně užitečný. Nástroj si byl jistý svými vysvětleními pro asi 1 000 těchto neuronů, což je malý zlomek z celkového počtu.

Cynický člověk by také mohl namítnout, že tento nástroj je v podstatě reklamou na GPT-4, protože vyžaduje, aby GPT-4 fungoval. Jiné nástroje pro interpretaci LLM jsou méně závislé na komerčních API, jako je DeepMind Tracr , překladač, který převádí programy do modelů neuronové sítě.

Wu řekl, že tomu tak není – skutečnost, že nástroj používá GPT-4, je pouze náhodná – a naopak ukazuje slabiny GPT-4 v této oblasti. Řekl také, že nebyl vytvořen s ohledem na komerční aplikace a teoreticky by mohl být přizpůsoben pro použití LLM kromě GPT-4.

Vysvětlitelnost OpenAI

Nástroj identifikuje neurony aktivující se napříč vrstvami v LLM. Poděkování za obrázky: OpenAI

Většina vysvětlení hodnotí docela špatně nebo nevysvětluje tolik chování skutečného neuronu, řekl Wu.Mnoho neuronů je například aktivních způsobem, kdy je velmi těžké říci, co se děje – jako by se aktivovaly na pěti nebo šesti různých věcech, ale není tam žádný rozpoznatelný vzorec.Někdy tam je rozpoznatelný vzor, ​​ale GPT-4 jej nedokáže najít.

To nemluví o složitějších, novějších a větších modelech nebo modelech, které mohou procházet web a hledat informace. Ale v tomto druhém bodě se Wu domnívá, že procházení webu by základní mechanismy tohoto nástroje příliš nezměnilo. Dalo by se to jednoduše vylepšit, říká, aby se zjistilo, proč se neurony rozhodnou zadávat určité vyhledávací dotazy nebo přistupovat na konkrétní webové stránky.

Doufáme, že to otevře slibnou cestu k řešení interpretovatelnosti automatizovaným způsobem, na kterém mohou ostatní stavět a přispívat k němu, řekl Wu. Doufáme, že skutečně máme dobrá vysvětlení nejen toho, na co reagují neurony, ale celkově chování těchto modelů – jaké druhy obvodů počítají a jak určité neurony ovlivňují jiné neurony.