Spring til indhold

Evaluering af platforme

Om et værktøj er godt eller skidt, afhængig af brugen og forventningen til resultatet. På denne side giver vi en række spørgsmål, som du bør forholde dig til, når du anvender generativ AI.

Evaluering af platforme

Om et værktøj er godt eller skidt, afhængig af brugen og forventningen til resultatet. På denne side giver vi en række spørgsmål, som du bør forholde dig til, når du anvender generativ AI.

Fem punkter til at evaluere din anvendelse

  1. 1

    Omfanget af kilder platformen omfatter

    Afhængig af din konkrete anvendelse, kan det være mere eller mindre relevant at have et rigtigt, troværdigt og fuldstændigt svar. Er der f.eks. tale om opgaver hvor det er nødvendigt at kende det præcise omfang af kilder, ja så kan almene platforme som eksempelvis ChatGPT have svært ved at oplyse om dette, andet end at den har 'scrapet' og læst al offentlig tilgængelig information på internettet. Men hvis du "blot" bruger generativ AI til at finde inspiration, så er det måske mindre vigtigt.
    Andre platforme vil mere præcist kunne oplyse hvilke data der ligger til grund for deres sprogmodel, herunder overvejelser om hvordan materiale bliver bearbejdet til at havne i en sprogmodel.

  2. 2

    Skæringsdato for indhold

    Mange platforme har en skæringsdato, for hvornår de har inkluderet indhold til deres sprogmodel. Det kan ofte have betydning for vurdering af hvor opdateret resultatet er. Tilsvarende kan det være relevant, at vurdere om du kan få en form for tidsmæssig opfattelse af udviklingen inden for et område. Det kan betyde at nyere antagelser og resultater. Drukner nye opfattelser og resultater eksempelvis, fordi hidtidige dominerer i sprogmodellen?

  3. 3

    Normer og værdier

    Platforme danner deres svar (hvad enten det er tekst eller eksempelvis billeder) på baggrund af det træningsdata der udgør basis for deres sprogmodel. Der kan være flere faktorer der gør, at et givet resultat er bias' - altså har en skævhed. Denne kan komme til udtryk på flere måder:

    • Sprogmodellen er trænet på data der repræsenterer et bestemt synspunkt, kultur, stereotypiske opfattelser, værdigrundlag eller tilsvarende. Eller at data er renset forud i henhold til etiske normer defineret af platformen?
    • Platformen er kodet til at undertrykke udvalgte udsagn i kildematerialet, hvis disse går mod de etiske og moralske normer. Undersøger du eksempelvis skepsis over klimaforandringer, vil en given platform så rent faktisk lade disse synspunkter komme frem?

    Du kan læse mere om dette i Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study (Cao et al., C3NLP 2023).

  4. 4

    Kan platformen opdigte indhold?

    Nogle platforme benytter sprogmodeller og algoritmer, hvor huller i viden til at generere et output, bliver fyldt med nyt "kreativt" indhold, som ikke har hold i virkeligheden. Det kaldes også 'hallucination' af nogle, for at beskrive dette fænomen. Det vil dog ikke være alle platforme der besidder denne tilgang, så det er væsenligt at undersøge om den platform du vil benytte, har denne egenskab eller ej. En Google-søgning eller tilsvarende på 'How does xyz platform work', en FAQ på tjenesten eller andet, vil ofte kunne give dig svaret.

  5. 5

    Har du viden nok til at vurdere resultatet?

    Du bør altid stille dig selv spørgsmålet; har jeg viden nok, til at evaluere om et output fra en generativ AI-platform er korrekt? Hvis din viden inden for et emne er stærkt begrænset, så kan det være fristende at få en introduktion eller tilsvarende fra generativ AI. Men givet de udfordringer beskrevet ovenfor, så er det ikke uden risici. Derfor bør du altid opsøge andre kilder, der kan verificere de output som generativ AI skaber.