Dieser KI-Benchmark beginnt, wie so manche gute Ideen von mir, mit einer Pizza. Viele wissen, dass ich Pizza liebe. Es kam schon vor, dass ich mehrere Tage hintereinander Pizza genossen habe. Kein Scherz.
Neulich haben mich meine Arbeitskollegen dabei erwischt, wie ich verschiedene KI-Plattformen getestet habe – natürlich mit einer Pizza-Frage. Ich wollte wissen, wie gut sie ein Rezept generieren können. Die Challenge: Ich bat jede KI, mir ein Rezept für 503 Personen zu erstellen. Ohne weitere Angaben zu Portionsgrössen oder Zutatenmengen.
Die Ergebnisse waren unerwartet vielfältig. Einige KIs lieferten ein Rezept für 503 Pizzastücke, andere für 503 ganze Pizzen. Manche skalierten scheinbar intelligent, andere multiplizierten stur die Zutaten.
Ein paar Freunde meinten dann: “Mach doch einen richtigen Benchmark draus.” Gesagt, getan.
In diesem kleinen, aber aussagekräftigen Experiment teste ich, wie bekannte KI-Plattformen mit einer scheinbar einfachen, in Wirklichkeit aber ziemlich komplexen Aufgabe umgehen: Sie sollen auf Basis eines klassischen Rezepts für Pizza Napoletana eine vollständige Anleitung für 503 Portionen generieren, ohne zu wissen, wie viel Mehl, Tomaten oder Käse pro Pizza nötig ist.
Der Fokus liegt dabei auf der Qualität der generierten Anleitungen:
- Wie präzise sind die Mengen?
- Wird realistisch für Grossmengen geplant?
- Oder einfach nur linear hochgerechnet?
Kurz: Wie nah kommt die KI an eine brauchbare Anleitung für ein XXL-Catering?
Die KI-Benchmark im Detail
Oder: Was die KIs wirklich wussten
Die Grundlage für den Test bildet ein klassisches Rezept für Pizza Napoletana (25 cm Durchmesser) – mit allem, was dazugehört: Teig, Sauce und Belag. Die Inspiration stammt von einem bewährten Rezept auf bettybossi.ch, das sich im Alltag mehrfach bewährt hat. Die genauen Mengen für eine einzelne Pizza behalte ich allerdings für mich – sie dienen später als Referenz für die Auswertung.
Die Aufgabenstellung an die KIs war bewusst simpel gehalten:
„Bitte erstelle ein vollständiges Rezept für Pizza Napoli für 503 Personen.“
Ich übermittelte weder eine Zutatenliste noch Mengenangaben von Betty Bossi. Die KIs wussten also nicht, wie gross eine Portion ist oder welche Mengen pro Zutat typisch wären. Es gab keine Hilfestellung, kein Volumen, kein Gewicht, keine Rückfragen – nur die Aufgabe.
Getestet wurden folgende Plattformen:
Jede KI erhielt exakt denselben Prompt. Ziel war es herauszufinden, wie gut sie mit einer realitätsnahen, aber bewusst unvollständigen Aufgabenstellung umgehen können.
Pizza ist nicht gleich Pizza: Warum der Prompt entscheidend ist
Bei den ersten Tests fiel sofort etwas auf: Viele GenAIs liessen die beiden Hauptzutaten Kapern und Sardellen einfach weg. Und das, obwohl sie im Originalrezept von Betty Bossi klar enthalten sind. Die Ursache liegt im Detail:
Während Betty Bossi dieses Rezept als „Pizza Napoletana“ bezeichnet, würden viele es kulinarisch eher „Pizza Napoli“nennen, also die klassische Pizza mit Sardellen, Kapern und Oliven.
Für Menschen ist dieser Unterschied oft irrelevant oder intuitiv klar. Für KIs jedoch nicht. Die Bezeichnung im Prompt entscheidet stark darüber, welche Interpretation gewählt wird:
- „Pizza Napoletana“ führt oft zu einer klassischen neapolitanischen Pizza, meist mit Tomatensauce, Mozzarella und Basilikum.
- „Pizza Napoli“ hingegen signalisiert typischerweise die Variante mit Sardellen und Kapern, wie sie in vielen deutschsprachigen Rezeptdatenbanken verstanden wird.
Deshalb habe ich mich dazu entschieden, im Prompting auf Deutsch explizit „Pizza Napoli“ zu schreiben – um die Wahrscheinlichkeit zu erhöhen, dass die KI die richtigen Zutaten erkennt und verarbeitet.
Das Fazit: Schon die exakte Wortwahl im Prompt kann darüber entscheiden, ob die KI ein realistisches Ergebnis liefert oder an den zentralen Zutaten vorbeirechnet.
Warum ausgerechnet 503?
Ganz ehrllich: Weil 500 zu langweilig war.
Die Wahl fiel auf 503, weil sie eine Primzahl ist, also nur durch sich selbst und durch 1 teilbar. Das klingt erstmal mathematisch harmlos, ist aber im Kontext von KI eine kleine Gemeinheit: Viele Modelle neigen dazu, bei glatten Zahlen einfach zu interpolieren oder Muster aus Trainingsdaten wiederzugeben (das meint zumindest ChatGPT 4o).
503 zwingt die KI dazu, wirklich zu rechnen oder sich eben zu blamieren.
Und mal ehrlich: Wenn eine KI beim Versuch, 503 Pizzen zu berechnen, plötzlich mit „HTTP 503 – Service Unavailable“ antwortet, weiss ich zumindest: Die Analogie sitzt.. Oder..., vielleicht hatte ich auch einfach Lust, der KI einen kleinen Stolperstein einzubauen.
Die Methode: Excel statt Bauchgefühl
Oder: Human-in-the-Loop
Um die KI-Antworten fair vergleichen zu können, habe ich die Resultate manuell in eine Excel-Tabelle übertragen. Ursprünglich wollte ich die JSON-Ausgaben der Modelle automatisch zusammenführen und analysieren, aber die Realität war störrischer als die Theorie. Die KI-basierte Konsolidierung funktionierte schlicht nicht zuverlässig genug (zumindest mit ChatGPT). Also: Copy-Paste, manuelle Eingabe, viel Espresso.
In der Tabelle enthalten waren:
- Das vollständige Betty Bossi Originalrezept für eine einzelne Pizza
- Eine lineare Hochrechnung auf 503 Portionen, als Benchmark
- Die generierten Rezeptdaten aller getesteten KI-Plattformen
Weil das Originalrezept viele haushaltsübliche Einheiten enthält (z. B. Stück, Esslöffel, Prise), habe ich diese Angaben manuell in Gramm oder Milliliter umgerechnet, um einen sauberen Mengenvergleich zu ermöglichen. Erst danach konnte ich die Abweichungen der KI-Rezepte sinnvoll bewerten.
Zur Unterstützung bei der Auswertung habe ich:
- Perplexity AI für erste Mengenanalysen genutzt
- ChatGPT o3 für Plausibilitätsprüfungen und Strukturchecks eingesetzt
So entstand eine solide Vergleichsbasis auf der alle Bewertungen im nächsten Abschnitt beruhen.
Die Bewertung: Wer backt, wer blufft und wer liefert ab?
Basierend auf der strukturierten Auswertung in Excel wurden alle Rezeptantworten nach vier klar definierten Kriterien bewertet. Die Grundlage für den Vergleich war das hochgerechnete Referenzrezept von Betty Bossi, also: wie viel Teig, Tomatensauce, Käse & Co. braucht es für 503 Pizzen, wenn man’s ernst meint?
Bewertet wurde nicht, wie schön die Sprache war – sondern ob die Angaben praktisch brauchbar sind. Und ja, manchmal ist eine zu grosse Käseliebe eben auch ein Problem.
Bewertungsschema
Kriterium
Beschreibung
Max. Punkte
Zutatenvollständigkeit
Wurden alle relevanten Zutaten wie Sardellen, Kapern und Oliven erkannt und verwendet?
10
Mengengenauigkeit
Stimmen die Mengen im Verhältnis zur Benchmark-Version? Oder entstehen krasse Abweichungen?
10
Skalierungslogik
Wurde nachvollziehbar hochgerechnet – oder einfach irgendetwas multipliziert?
10
Subjektiver Gesamteindruck
Würden echte Gäste satt werden – oder eher diskutieren, ob das noch Pizza ist?
20
Gesamt
50
In der folgenden Tabelle siehst du, wie sich die getesteten Plattformen geschlagen haben – mit ehrlichem Kommentar, denn: Auch bei Pizza hilft Schönreden nicht.
Gesamtergebnis im Vergleich
Plattform
Zutaten
Mengen
Skalierung
Eindruck
Gesamt
Kommentar
CG 4o
9/10
8/10
7/10
17/20 – fast professionell
41/50
Gute Balance, klare Struktur, kaum Ausreisser. Ein KI-Rezept, dem man trauen kann.
DS R1
9/10
7/10
6/10
13/20 – solide, aber nicht elegant
35/50
Beste Balance im Test: verständlich, vollständig, realistisch. Nur nicht ganz feinjustiert.
CG o3
6/10
6/10
5/10
12/20 – funktional, aber etwas leer
29/50
Kein Olivenöl im Teig, keine Oliven, schwach gewürzt – aber handwerklich okay.
Pxty
8/10
4/10
4/10
10/20 – kräftig, aber überladen
26/50
151 kg Mozzarella, aber nur 50 g Hefe. Geschmacklich mutig, praktisch instabil.
Grok
5/10
5/10
2/10
8/20 – kreativ, aber instabil
20/50
Doppelte Tomaten, seltsame Logik – ein Rezept wie aus dem Gedächtnis gekocht.
Claude
5/10
3/10
2/10
7/20 – ästhetisch, aber hungrig
17/50
Klar strukturiert, aber Mengen so niedrig, dass niemand satt wird. Schön gedacht, schwach gekocht.
CG o3 = ChatGPT o3 | CG 4o = ChatGPT 4o | DS R1 = DeepSeek R1 | Pxty = Persplexity
Auf den Punkt gebracht
Die extremen Abweichungen bei Grundzutaten wie Hefe (60-fache Differenz) und Mozzarella (8-fache Differenz) machen die meisten generierten Rezepte praktisch unbrauchbar.
Keine Plattform erreicht sowohl hohe Vollständigkeit als auch hohe Genauigkeit, was darauf hindeutet, dass aktuelle KI-Modelle für komplexe Kochaufgaben ungeeignet sind.
- ChatGPT 4o liefert die mit Abstand beste Kombination aus Struktur, Logik und realitätsnaher Mengenberechnung.
- DeepSeek R1 überrascht mit Stabilität – das Modell liefert das durchdachteste Ergebnis im Vergleich.
- Claude sieht gut aus, lässt dich aber hungrig zurück.
- Perplexity würzt mit Wucht, aber verliert die Kontrolle.
- Grok macht irgendwas. Aber sicher kein Catering für 503 Leute.
Die vollständigen Auswertungen von ChatGPT o3 und Perplexity findest du als PDF am Ende des Beitrags zum Download.
Und was sagt uns das alles?
Die Resultate zeigen: Auch wenn GenAI beeindruckend schreiben kann, tut sie sich mit Mengen, Logik und Küchenrealität noch schwer. Manche Modelle überraschen positiv andere liefern bestenfalls Inspiration, aber sicher kein belastbares Rezept für 503 hungrige Gäste.
Was bedeutet das nun für den praktischen Einsatz von KI im Alltag und wo liegen die Chancen, Grenzen und vielleicht auch das kreative Potenzial solcher Tools?
Zeit für ein Fazit.
Fazit: KI kann keine Pizza – und manchmal auch keinen Kontext
Was bleibt nach diesem Experiment? Eine Erkenntnis, die weit über Teig und Tomatensauce hinausgeht: KI kann erstaunlich viel, aber sie kann nicht wissen, was sie nicht weiss. Vermutlich liegt das Problem nicht an der Logik der Modelle, sondern an ihren Trainingsdaten. Die KI hat gelernt, was ein „Rezept“ ist, meist ausgelegt auf 1 bis 4 Personen. Sie hat auch irgendwo gelernt, was eine Pizza Napoletana sein soll, aber: War es eine italienische Originalquelle? Oder ein amerikanischer Foodblog mit viel Käse und wenig Orientierung?
Und genau hier beginnt das Dilemma:
- Welche Einheiten wurden im Training verwendet?
- Welche Rezepte waren überhaupt enthalten – und aus welchen Regionen?
- Wie viele davon enthielten Sardellen und Kapern?
- Und ganz ehrlich: Woher kommt die Idee, 151 kg Mozzarella seien eine gute Idee?
Wir wissen es nicht. Und das ist das Problem.
KI halluziniert nicht aus Böswilligkeit, sie reimt sich Dinge zusammen, wenn die Quelle fehlt oder diffus ist. Das gilt nicht nur für Pizza, sondern auch für juristische Analysen, medizinische Hinweise oder Business-Strategien. Wer also ein Rezept oder eine „Faktenantwort“ aus einem KI-Modell übernimmt, sollte sich immer fragen: Woher kommt diese Information? Und kann ich ihr trauen?
Die gute Nachricht: Wird ein Modell mit einer klaren, verlässlichen Wissensbasis ausgestattet (z. B. ein Custom GPT mit definiertem Kontext), dann werden die Resultate plausibler, reproduzierbarer und vor allem kontrollierbar.
Alles andere bleibt im Zweifel ein gut formulierter Schätzwert. Oder in Küchensprache:
_"Wer nicht weiss, was reinkommt, sollte sich über den Geschmack nicht wundern."_
Detaillierte Auswertungen und Grundlagen
Podcast abspielen
https://soundcloud.com/digital-age-switzerland/der-ki-pizza-benchmark-wer-backt-am-besten-fur-503?si=56ec3577ca4f4e3784251f3273b795a5&utm\source=clipboard&utm\medium=text&utm\campaign=social\sharing



