Framstegen inom stora språkmodeller (LLM:er) som ChatGPT har varit enorma de senaste åren, men nu börjar utvecklingen sakta ner. Den autoregressive designen som används i dagens modeller, där text genereras sekventiellt ord för ord, har inneboende begränsningar som hindrar mer avancerad resoneringsförmåga. I den här artikeln tittar vi närmare på hur AI-modeller skulle kunna förbättras genom att implementera en mer mänsklig tankeprocess med iterativ förfining av tankar och idéer.
De nuvarande språkmodellerna som ChatGPT bygger på en autoregressive design där varje ord förutsägs baserat på de föregående orden i sekvensen. Detta leder till flera begränsningar:
För att komma runt dessa begränsningar behöver vi titta på hur människor tänker och resonerar, och försöka implementera liknande mekanismer i AI-modeller.
Människor använder sig av två huvudsakliga metoder för att förfina sina tankar:
Båda dessa metoder ger möjlighet att observera och revidera hela tanken innan den uttrycks, till skillnad från dagens AI-modeller som bara kan bygga vidare på det redan genererade utan att gå tillbaka och ändra.
För att implementera en mer mänsklig tankeprocess i AI-modeller kan vi titta på så kallade diffusionsmodeller. Dessa modeller börjar med en grov version av svaret som sedan iterativt förfinas i flera steg. Det finns två huvudsakliga typer av diffusionsmodeller för textgenerering:
I explicit diffusion skapas ett första utkast av svaret som sedan förfinas i flera steg. Detta kan liknas vid en kombination av extern och intern förfining hos människor. Fördelarna inkluderar:
Latent diffusion förfinar den interna representationen av svaret utan att producera explicita mellansteg. Detta liknar mer den interna tankeprocessen hos människor. Utöver fördelarna med explicit diffusion ger latent diffusion:
En nyligen genomförd studie av Ye et al. visade att diffusionsmodeller kan uppvisa förbättrad resoneringsförmåga jämfört med större autoregressive modeller, med upp till 27 gånger snabbare generering. Studien indikerade också att fler diffusionssteg faktiskt ledde till bättre resultat, vilket möjliggör en avvägning mellan noggrannhet och hastighet.
Trots lovande resultat har diffusionsmodeller för text ännu inte fått något större genomslag jämfört med autoregressive modeller. Detta beror troligen på flera faktorer:
Det finns dock tecken på ökat intresse för diffusionsmodeller. Nyligen publicerade studier från prestigefyllda institutioner som Google DeepMind och Cornell University tyder på att tekniken kan vara på väg att få ett genombrott.
I takt med att framstegen för nuvarande språkmodeller saktar ner förväntas ett ökat intresse för nya modellarkitekturer och genereringsparadigm. Medan diffusionsmodeller kan lösa vissa inneboende problem med dagens AI finns det fortfarande många utmaningar kvar och utrymme för nya lösningar.
För mindre forskningsgrupper som har svårt att konkurrera med de stora tech-jättarna inom existerande modeller kan det vara mer värdefullt att fokusera på innovativa lösningar och nya angreppssätt. Det finns troligen mer att vinna på nytänkande än på inkrementella förbättringar av befintliga arkitekturer.
Sammanfattningsvis står AI-forskningen inför spännande utmaningar framöver. Genom att ta inspiration från mänskliga tankeprocesser och utforska nya modelleringsmetoder som diffusion kan vi förhoppningsvis ta nästa steg mot mer sofistikerade AI-system med förbättrad resoneringsförmåga. Det återstår att se om diffusionsmodeller eller andra nya tekniker kan leva upp till förväntningarna, men det är tydligt att fältet är redo för nya genombrott.