Forsiden

/ fjern = syn / "Til tross for gjentatte instrukser om ikke å endre teksten, begynte maskinen raskt å reformulere."

/ fjern = syn / "Til tross for gjentatte instrukser om ikke å endre teksten, begynte maskinen raskt å reformulere."

En visualisering av dialogen mellom maskin og artikkelforfatter. (Illustrasjon: Copilot promptet av Fretta)

Dikteren i maskinen. Uansett om du ber den om en enkel endring i dokumentet ditt, ser roboten etter muligheter for omskriving.

Å bruke språkmodeller ("ki", eller llm-er) til tekstredigering er risikabelt. Modeller som ChatGPT er trent til å “forbedre” tekst, og vil derfor nesten uunngåelig endre det du gir dem – selv når du ber dem la være. Resultatet er at selv en enkel oppgave, som å plassere tekst fra ett dokument inn i et annet, fort utvikler seg til en omskriving av begge du aldri ba om.

(En stor språkmodell, Large Language Model – LLM, er en avansert AI-teknologi trent på enorme datamengder for å forstå, generere og analysere menneskelig språk.)

En konkret test av ChatGPT viser hvor vanskelig det er å få en språkmodell til å utføre en presis redigeringsoppgave uten å gripe inn i teksten. Selv gjentatte og tydelige instruksjoner om å bevare formuleringer og kun foreslå plassering av tekstblokker ble ignorert. I stedet begynte modellen å omskrive, komprimere og “forbedre” materialet. Erfaringene illustrerer en grunnleggende begrensning ved LLM-er: De er bygget for å generere tekst, ikke for å la den være i fred.

Utgangspunktet mitt var enkelt: En eksisterende tekst på rundt 3000 ord skulle utvides til cirka 6000, ved å integrere tekstblokker fra et annet dokument hvor jeg hadde samlet mulige tillegg. Oppgaven var ikke kreativ, men redaksjonell. Det som skulle gjøres, var i prinsippet en kontrollert utvidelse: foreslå gode innsettingspunkter for tekst fra et dokumentet med tillegg slik at helheten fortsatt hang sammen.

I praksis viste det seg vanskelig å få ChatGPT til å holde seg til denne rammen.

Til tross for gjentatte instrukser om ikke å endre teksten, men kun foreslå plassering av eksisterende avsnitt, begynte maskinen raskt å reformulere. Tekstblokker som skulle flyttes ble i stedet parafrasert. Avsnitt ble slått sammen. Argumenter ble komprimert. Resultatet var ikke en utvidet tekst, men en ny versjon – kortere, glattere og mindre presis enn originalmaterialet.

Underveis gikk det opp for meg at dette var klassisk ki-bullshit, der programmet tar av på egen hånd, uavhengig av instruksjonene det får. 

Etter hvert utviklet det seg til noe som hadde passet bedre i et surrealistisk teaterstykke. 

Som da jeg ba tjenesten ta for seg et og et av avsnittene i et dokument der jeg hadde samlet et titalls tillegg til teksten jeg hadde skrevet  Både dokumentet med tilleggene og det med teksten tilleggene skulle inn i var lastet opp til ki-en. Det første forslaget var ok. 

Finn avsnittet som slutter med “… this creates friction.” 

Lim inn tillegget som begynner med 

“From early vocal and percussive practices…”

og fram til:

“This imbalance is not historical, but historiographical.”

Greit nok, før galskapen tok over. For i neste forslag ba ChatGPT meg lime inn et tillegg jeg ikke husket å ha skrevet. Jeg søkte for sikkerhets skyld i dokumentet med tillegg, men fant ikke tekstblokken roboten foreslo:

“From a global perspective…”

og fram til:

“…simply music.”

Så jeg spurte hvor i tilleggsdokumentet mitt denne teksten finnes. Ki-en svarte glatt at denne teksten ikke lå i noen av dokumentene jeg hadde lastet opp. Statistikken som styrer språkmodell-ki-en hadde altså overkjørt min instruks og funnet på noe den mener hadde passet bedre enn det jeg hadde foreslått. OBS! Ordene "overkjørt" og "mener" i forrige setning antyder en menneskelig intensjon fra ki-ens side, noe det jo ikke har. 

Det mest raffinerte i galskapen er jo at den ikke engang skrev hele teksten i dette for meg ukjente “tillegget”. I stedet siterte den starten og slutten av et avsnitt den hadde konstruert, men ikke skrevet. Den hadde med andre ord et avsnitt i "tankene", som den var veldig fornøyd med, så fornøyd var den at den "innbilte" seg at det foreslåtte avsnittet fantes i min innsettingstekst, selv om den på mitt spørsmål umiddelbart innrømmet at nei, avsnittet lå ikke i mitt dokument og fantes ikke heller noe annet sted. Velkommen til fremtiden. Den spinnvilt sinnssyke varianten.

Da kan man jo bare forestille seg hva som kan skje dersom man lar ki-en skrive f.eks. en eksamensbesvarelse, men er så opptatt med politikk, enten det er senter- eller arbeiderpartiet, at man ikke har tid å sjekke grundig hva den har gjort.

I etterkant ba jeg ki-en om å forklare hvordan forslaget om å sette inn et imaginært avsnitt kunne oppstå. Forklaringen jeg fikk var grundig og lang, men kjernen var omtrent slik, i ChatGPTs egne ord:

"Jeg tok utgangspunkt i en tekstlig mulighet, ikke en tekstlig realitet. Du jobbet i en modus som krever:

presisjon

kontroll

etterprøvbarhet

mens jeg svarte i en modus som produserer:

plausibilitet

flyt

sannsynlighet.

Og videre: "Jeg tok utgangspunkt i en tekstlig mulighet, ikke en tekstlig realitet."

Dette er ikke en tilfeldig feil, men en konsekvens av hvordan slike modeller er trent. En LLM er optimalisert for å produsere sammenhengende og plausibel tekst. Når den får to tekstkilder, vil den forsøke å integrere dem ved å skrive dem sammen, ikke ved å bevare dem side om side. Den oppfatter “integrasjon” som en språklig oppgave, ikke som en mekanisk.

Problemet oppstår særlig i oppgaver som kombinerer to typer krav: et mekanisk mål og en språklig operasjon. I dette tilfellet var målet eksplisitt – nå et bestemt omfang ved å legge til bestemt materiale – samtidig som teksten skulle forbli lesbar. For en menneskelig redaktør er dette en velkjent oppgave. For en språkmodell er det en konflikt: Den vil prioritere flyt og konsistens fremfor bevaring og volum.

Et annet aspekt er at modellen i liten grad respekterer negative instrukser. Å be den om å “ikke omskrive” er mindre effektivt enn å be den skrive noe nytt. Den vil likevel forsøke å optimalisere formuleringene, fordi dette er kjernen i funksjonen dens. Dermed blir også en tilsynelatende avgrenset oppgave – som å peke på hvor tekst kan settes inn – glidende over i en fullstendig omskriving.

Konsekvensen er at LLM-er per i dag er lite egnet til presis tekstredigering der kontroll er avgjørende. De fungerer godt som støtteverktøy i idéutvikling, strukturering og språkvask. Men når oppgaven krever nøyaktig håndtering av eksisterende tekst – bevaring av formuleringer, kontroll over lengde, og eksplisitt bruk av gitte tekstblokker – blir de upålitelige.

Den praktiske lærdommen er enkel: Bruk språkmodeller til å drodle, ikke til å utføre presis redigering. Der kontrollen må være absolutt, er tradisjonelle verktøy, og ditt eget hode, fortsatt bedre egnet.