Benchmarks Forklaret

MMLU, HumanEval, HellaSwag, GSM8K... Hvad betyder alle disse benchmarks egentlig? Lær hvordan du fortolker dem og vælger den rigtige model til din use case.

Hvorfor Benchmarks?

Benchmarks er standardiserede tests der måler LLM performance på specifikke opgaver. De giver os en objektiv måde at sammenligne modeller på.

Men her er den vigtige del: Benchmarks fortæller ikke hele historien. En model kan score højt på benchmarks men stadig performe dårligt i din specifike use case.

Husk: Benchmarks er et udgangspunkt, ikke en endelig sandhed. Test altid modeller med dine egne use cases før du vælger.

📚

MMLU

Massive Multitask Language Understanding

Hvad tester det?

MMLU måler en models viden og forståelse på tværs af 57 forskellige emner - fra matematik og fysik til historie, jura og medicin.

Det er multiple choice spørgsmål der kræver både faktuel viden og reasoning.

Eksempel spørgsmål:

Spørgsmål: Hvad er DNA's primære funktion?

A) Produktion af energi
B) Lagring af genetisk information
C) Transport af ilt
D) Fordøjelse af proteiner

Korrekt svar: B

Godt til:

Måle generel viden
Sammenligne modeller bredt
Vurdere akademisk performance

Begrænsninger:

Multiple choice != real-world use
Måler ikke kreativitet
Kan "games" med memorization

Typiske Scores:

GPT-4o: ~88% | Claude Sonnet 4: ~89% | Gemini Pro 1.5: ~85%

Menneske ekspert: ~90% | Tilfældig gæt: 25%

💻

HumanEval

Coding Benchmark

Hvad tester det?

HumanEval måler en models evne til at skrive korrekt, funktionel kode. Den får en funktionsbeskrivelse og skal implementere funktionen så den passer alle test cases.

Eksempel opgave:

def has_close_elements(numbers: List[float], threshold: float) -> bool:
  """
  Tjek om der er to tal i listen der er tættere på hinanden end threshold.

  >>> has_close_elements([1.0, 2.0, 3.0], 0.5)
  False
  >>> has_close_elements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3)
  True
  """
  # Model skal implementere funktionen her

Godt til:

Vurdere coding capability
Objektivt målbar (kode virker eller ej)
Relevant for developer tools

Begrænsninger:

Kun simple funktioner
Måler ikke arkitektur-forståelse
Python-fokuseret

Typiske Scores (pass@1):

GPT-4o: ~90% | Claude Sonnet 4: ~92% | Gemini Pro 1.5: ~85%

pass@1 = første forsøg er korrekt

🧠

HellaSwag

Commonsense Natural Language Inference

Hvad tester det?

HellaSwag tester en models commonsense reasoning ved at bede den vælge den mest plausible fortsættelse af en given situation.

Eksempel:

Context: En mand står med en hammer og et søm foran en væg.

Vælg mest sandsynlige fortsættelse:

A) Han slår sømmet ind i væggen
B) Han spiser sømmet
C) Han flyver væk med hammeren
D) Han forvandler sømmet til en fugl

Korrekt: A (bruger commonsense)

Godt til:

Teste common sense
Måle situational understanding
Vurdere real-world reasoning

Begrænsninger:

Kulturelt biased
Multiple choice limitation
Kan være for let for nyere modeller

Typiske Scores:

GPT-4o: ~95% | Claude Sonnet 4: ~96% | Gemini Pro 1.5: ~92%

Mennesker scorer ~95%

🔢

GSM8K

Grade School Math 8K

Hvad tester det?

GSM8K indeholder 8.500 matematiske tekstopgaver på folkeskole-niveau. Det tester både matematisk reasoning og evnen til at parse naturligt sprog.

Eksempel opgave:

Spørgsmål: Sarah har 15 æbler. Hun giver 3 til hver af sine 4 venner. Hvor mange æbler har Sarah tilbage?

Forventet reasoning:

- Sarah giver væk: 3 × 4 = 12 æbler
- Hun har tilbage: 15 - 12 = 3 æbler

Svar: 3 æbler

Godt til:

Multi-step reasoning
Matematisk forståelse
Language → Math conversion

Begrænsninger:

Relativt simpel matematik
Kan "games" med patterns
Ikke avanceret matematik

Typiske Scores:

GPT-4o: ~95% | Claude Sonnet 4: ~96% | Gemini Pro 1.5: ~91%

Med chain-of-thought prompting scores er højere

Andre Vigtige Benchmarks

MATH

Avancerede matematiske problemer (college-niveau).

Meget sværere end GSM8K. Selv GPT-4 scorer ~50-60%.

TruthfulQA

Måler om modellen giver sandfærdige svar vs. populære misforståelser.

Vigtigt for at undgå misinformation.

ARC (AI2 Reasoning Challenge)

Science spørgsmål der kræver kompleks reasoning.

ARC-Challenge er specielt svær, selv for avancerede modeller.

DROP

Reading comprehension med diskret reasoning over tekst.

Kræver at modellen kan navigere komplekse passager.

WinoGrande

Commonsense reasoning gennem pronoun resolution.

"The trophy didn't fit in the suitcase because it was too big." Hvad var for stort?

MT-Bench

Multi-turn conversation benchmark.

Måler hvor godt modellen håndterer længere samtaler.

Hvordan Fortolker Du Benchmarks?

1. Se på Relevante Benchmarks

Matcher opgaven til din use case:

Coding tool? Kig på HumanEval, MBPP
Q&A system? Kig på MMLU, TruthfulQA
Math assistance? Kig på GSM8K, MATH
General chatbot? Kig på MT-Bench, HellaSwag

2. Små Forskelle er Ofte Irrelevante

En model med 88% MMLU vs. 89% vil sandsynligvis performe ens i praksis. Fokuser på store gaps (>5%) og konsistens på tværs af benchmarks.

3. Context er Alt

Spørgsmål at stille:

Hvordan blev benchmarket kørt? (Few-shot? Chain-of-thought?)
Er det provider's egne tal eller third-party?
Hvornår blev det testet? (Models forbedres over tid)
Er datasættet i træningsdata? (Contamination issue)

4. Test Selv!

Den vigtigste "benchmark" er din egen use case. Lav et lille test set (20-50 eksempler) af reelle opgaver og sammenlign modeller på dem.

⚠️ Begrænsninger ved Benchmarks

Data Contamination

Benchmark datasæt kan være i træningsdata, hvilket gør scores kunstigt høje. Modellen har måske "set" spørgsmålene før.

Måler Ikke Alt

Benchmarks måler ikke: kreativitet, personlighed, følelsesmæssig intelligens, etisk judgment, eller evnen til at følge komplekse instruktioner.

Gaming Metrics

Modeller kan optimeres specifikt til benchmarks på måder der ikke generaliserer til real-world use cases.

Statiske Snapshots

Benchmarks bliver forældede. Når alle modeller scorer 95%+, er benchmarket ikke længere nyttigt til at differentiere.

💡 Bottom Line

Benchmarks er nyttige som et udgangspunkt til at sammenligne modeller, men de er ikke hele historien.

Brug dem til at:

Indsnævre valg af modeller til at teste
Forstå models styrker og svagheder
Tracke forbedringer over tid

Men afslut altid med at teste på DINE egne use cases!

Benchmarks Forklaret

Hvorfor Benchmarks?

MMLU

Hvad tester det?

Eksempel spørgsmål:

Godt til:

Begrænsninger:

Typiske Scores:

HumanEval

Hvad tester det?

Eksempel opgave:

Godt til:

Begrænsninger:

Typiske Scores (pass@1):

HellaSwag

Hvad tester det?

Eksempel:

Godt til:

Begrænsninger:

Typiske Scores:

GSM8K

Hvad tester det?

Eksempel opgave:

Godt til:

Begrænsninger:

Typiske Scores:

Andre Vigtige Benchmarks

MATH

TruthfulQA

ARC (AI2 Reasoning Challenge)

DROP

WinoGrande

MT-Bench

Hvordan Fortolker Du Benchmarks?

1. Se på Relevante Benchmarks

2. Små Forskelle er Ofte Irrelevante

3. Context er Alt

4. Test Selv!

⚠️ Begrænsninger ved Benchmarks

Data Contamination

Måler Ikke Alt

Gaming Metrics

Statiske Snapshots

💡 Bottom Line

📖 Relaterede Guides

Sammenlign Modeller

Begyndernes Guide

Prompt Engineering

Cost Optimization