AI Price Estimation From Images: 3 Attempts, 1 Working Solution — GridGarden

KI-Preisberechnung für Hochbeete aus Bildern: 3 Versuche, 1 funktionierende Lösung

16. April 2026

TL;DR: KI-Vision-Modelle liegen Berichten zufolge bei Messungen in 63 % der Fälle falsch. Jede Best Practice besagt: „Nicht von Bildern messen – stattdessen klassifizieren.“ Wir haben beides versucht. Klassifizierung bedeutete, unseren KI-Bildgenerator auf einen festen Katalog zu beschränken, was die kreative Ausgabe zunichtemachte. Also fanden wir einen dritten Weg: das Produkt selbst als Maßstab verwenden. Jede Schicht unseres modularen Systems ist exakt 12 cm hoch. Die KI zählt die Schichten, wir rechnen nach, und Sie erhalten in 5 Sekunden einen Preisvorschlag für 0,001 $.

Warum sagt jeder: „KI kann nicht von Fotos messen“?

Im Jahr 2024 veröffentlichten Forscher von Google SpatialVLM – einen Benchmark, der testet, wie gut Vision-Language-Modelle räumliche Beziehungen verstehen. Die Ergebnisse waren ernüchternd: Bei der Schätzung von Entfernungen und Dimensionen aus Fotos lagen die modernsten Modelle nur in 37,2 % der Fälle im korrekten Bereich (0,5× bis 2× der Realität). Fast zwei Drittel der Schätzungen wichen um mehr als das Doppelte ab.

Eine Folgestudie, SpatiaLab (2026), bestätigte, dass das Problem tief sitzt – frühere Benchmarks überschätzten tatsächlich, wie gut diese Modelle den Raum wahrnehmen. Die tatsächlichen Zahlen sind schlechter.

Das grundlegende Problem wird monokulare Ambiguität genannt: Aus einem einzelnen 2D-Bild ohne Referenzpunkt ist es physikalisch unmöglich, absolute 3D-Dimensionen wiederherzustellen. Ein aus der Nähe fotografierter 30-cm-Topf sieht identisch aus wie ein aus der Ferne aufgenommenes 3-m-Pflanzgefäß. Keine Menge an Trainingsdaten ändert dies – es ist keine KI-Einschränkung, sondern Geometrie.

Und KI-generierte Bilder machen es noch schwieriger. Echte Fotos enthalten zumindest EXIF-Metadaten (Brennweite, Sensorgröße), die theoretisch Perspektivberechnungen verankern könnten. Generierte Bilder haben nichts davon.

Interessanterweise zeigte die Forschung auch, wo der Engpass tatsächlich liegt: das Vision-Language-Handoff-Problem. Der visuelle Encoder repräsentiert räumliche Informationen intern korrekt – aber das Sprachmodell kann sie bei der Generierung von Textantworten nicht extrahieren. Das Modell „sieht“ die Dimensionen genauer, als es sie „ausdrücken“ kann.

Als wir uns also entschieden, automatische Preisvorschläge für KI-generierte Gartendesigns zu erstellen, war der akademische Konsens klar: Nicht messen. Klassifizieren.

Hier ist, was die Branche stattdessen tut:

Unternehmen	Ansatz	Misst von Fotos?
Zillow Zestimate	Klassifiziert Merkmale (Granit vs. Laminat), verwendet vergleichbare Verkaufsdaten	Nein – 1 Mio.+ Trainingsbeispiele, nur Klassifizierung
SimplyWise	Klassifiziert Projekttyp → regionale Preistabellen	Nein – ±10-15 % Genauigkeit, keine Pixelmessung
Hover	8-10 Fotos → 3D-Rekonstruktion + menschliche Qualitätssicherung	Ja – benötigt aber mehrere Winkel und dauert ca. 1 Stunde
KI Gartenplaner, Planner 5D, etc.	Nur Visualisierung – keine Preisgestaltung	N/A

Niemand im Bereich des KI-Gartendesigns (1,72 Mrd. $ Markt, wächst mit 21,4 % CAGR) bietet Preisvorschläge für generierte Designs an. Kein einziger Wettbewerber. Wir haben uns trotzdem entschieden, es zu versuchen.

🌿 Sie suchen ein fertiges Hochbeet? Sehen Sie sich das Hochbeet in I-Form (ab 149 €) an oder entdecken Sie alle Brick Premium Hochbeete.

Wie unsere KI Gartendesigns generiert (und warum das die Preisgestaltung erschwert)

Bevor wir uns mit der Preisgestaltung befassen, ist es hilfreich zu verstehen, was wir bepreisen. Unser KI-Gartendesigner ermöglicht es Benutzern, ein Foto ihres tatsächlichen Gartens hochzuladen. Die KI generiert dann eine fotorealistische Visualisierung, wie dieser Raum mit modularen Hochbeeten aussehen könnte.

Der Bildgenerator (Gemini Imagen) erhält zwei Arten von Eingaben:

Produktbeschränkungen: Drei Referenzfotos unseres tatsächlichen Brick-Systems – echte Produktaufnahmen, die die gestapelte Bohlenkonstruktion, Blockhaus-Ecken und die verwitterte Lärchentextur zeigen. Plus eine detaillierte Textbeschreibung: „Dicke Bohlen (120 mm hoch × 60 mm dick), horizontal gestapelt mit versetzten Fugen Reihe für Reihe wie Mauerwerk.“
Kreative Freiheit: Alles andere – wie viele Strukturen, wo sie platziert werden, welche Formen sie annehmen, wie sie sich zum bestehenden Garten verhalten. Die KI entscheidet über das Layout, die Anordnung, die Arten der Beete. Eine L-Form, die einen Baum umgibt? Eine in eine Stützmauer integrierte Bank? Eine Treppe, die einem Hang folgt? Alles liegt beim Modell.

Benutzer steuern einen Dichte-Schieberegler (0-100), der ungefähr 0-20 Strukturen zuordnet. Bei Dichte 25 erhalten Sie einen naturalistischen Garten mit einigen dezenten Beeten, die zwischen Wildblumen eingebettet sind. Bei Dichte 80 erhalten Sie einen vollständig organisierten Außenwohnbereich mit verschiedenen Zonen, die durch Wege verbunden sind. Die KI wählt aus, welche Arten von Strukturen für die Szene sinnvoll sind.

Diese kreative Freiheit ist der ganze Sinn des Tools. Niemand möchte einen Konfigurator, der jedes Mal die gleichen drei rechteckigen Beete ausgibt. Aber es schafft ein grundlegendes Preisproblem: Jedes generierte Bild ist einzigartig. Es gibt keine vordefinierte Stückliste. Keine SKU-Liste. Nur ein fotorealistisches Bild von Holzstrukturen, die alles sein könnten, von einem einzelnen Pflanzgefäß bis zu einem aufwendigen Mehrzonen-Garten.

Wie bepreist man also etwas, das noch nicht existiert, aus einem Bild, das vor 5 Sekunden generiert wurde?

Versuch #1: Die KI einfach nach Dimensionen fragen

// Der Prompt, den wir in Produktion genommen haben
You are an expert at estimating dimensions of garden structures
from photographs.

For EACH distinct wooden structure you can identify
(raised beds, benches, walls, stairs, planters),
estimate its dimensions in meters:
- length_m: the longest horizontal dimension
- width_m: the shorter horizontal dimension (depth)
- height_m: the vertical dimension

Return JSON:
{ "structures": [
    { "type": "raised_bed",
      "length_m": 2.0, "width_m": 1.0, "height_m": 0.6 }
]}

Die Preisgestaltung war einfache Geometrie – sichtbare Wandfläche berechnen und mit 125 €/m² multiplizieren:

// Wandflächenberechnung pro Strukturtyp:
// raised_bed: 2 × (Länge + Breite) × Höhe
// wall: 2 × Länge × Höhe
// stairs: Länge × Höhe × 1.5
const wallArea = 2 * (s.length_m + s.width_m) * s.height_m;
const price = wallArea * 125; // EUR per m²

Es funktionierte. Besser als erwartet. Ein Beet, das tatsächlich 1,8 m lang war, wurde als 1,4 m oder 2,2 m zurückgegeben – die einzelnen Dimensionen waren unpräzise, aber die Geometrie kompensierte: Wenn die Länge überschätzt wurde, wurde die Höhe tendenziell unterschätzt. Der Preisvorschlag lag letztendlich innerhalb von ±20-25 % der Realität. Für einen kostenlosen, sofortigen Vorschlag aus einem KI-generierten Bild fühlte sich das überraschend nützlich an.

Das Modell war besonders gut darin, Strukturen zu zählen – wenn das Bild 3 Hochbeete und eine Bank zeigte, fand es im Allgemeinen 3 Hochbeete und eine Bank. Es verstand, wie unser Brick-System aussieht. Die Dimensionen waren unscharf, aber die Strukturerkennung war solide.

Aber dann lasen wir die Studien. SpatialVLMs Genauigkeitsrate von 37,2 %. Googles eigene Dokumentation, die vor räumlichen Messungen aus einzelnen Bildern warnt. Stack Overflow-Threads voller „das ist grundsätzlich unmöglich“. Wir bekamen Angst.

„Das kann langfristig nicht funktionieren“, sagten wir uns. „Wir haben nur Glück. Machen wir es auf die richtige Weise – so, wie es jeder empfiehlt.“

Versuch #2: Der „richtige“ Weg – Katalogklassifizierung

Der empfohlene Ansatz ist klar: Nicht messen, sondern klassifizieren. Identifizieren Sie, um welche Art von Struktur es sich handelt, ordnen Sie sie einer Größenkategorie zu und suchen Sie einen festen Preis nach. Keine Messung, keine Mehrdeutigkeit. Das ist es, was Zillow tut. Das ist es, was SimplyWise tut. Das ist es, was die Forschung empfiehlt.

Die Idee war einfach:

// Strukturtyp + Größe klassifizieren → fester Preis nachschlagen
const PRICE_TABLE = {
  raised_bed: { small: 50, medium: 100, large: 180 },
  wall:       { small: 25, medium: 50,  large: 90 },
  bench:      { small: 30, medium: 60,  large: 100 },
  stairs:     { small: 45, medium: 90,  large: 140 },
  planter:    { small: 15, medium: 30,  large: 55 }
};

Aber wir stießen auf ein Problem, das wir nicht erwartet hatten – und es hatte nichts mit der KI-Genauigkeit zu tun.

Unser KI-Gartendesigner generiert kreative Designs. Ein Benutzer lädt ein Foto seines Gartens hoch, und Gemini Imagen erstellt eine einzigartige Visualisierung mit modularen Hochbeeten, die an diesen spezifischen Raum angepasst sind. Die generierten Strukturen sind vielfältig – L-Formen, Kurven, die einem Gartenweg folgen, in Hänge integrierte Beete, mit Hochbeeten verbundene Bänke, gestufte Anordnungen, die die Grenze zwischen „Treppe“ und „Mauer“ verwischen.

Um die Katalogklassifizierung zum Funktionieren zu bringen, hätten wir den Bildgenerator einschränken müssen. „Generiere nur diese 5 Typen. Generiere nur diese 3 Größen. Halte alles rechteckig.“ Das hätte die Preisgestaltung genau gemacht – aber es hätte das getötet, was das Tool wertvoll macht: die kreativen, personalisierten Designs.

Wir standen vor einem grundlegenden Kompromiss: genaue Preisgestaltung vs. kreative Freiheit bei generierten Bildern.

Und selbst als wir versuchten, die Klassifizierung ohne Einschränkung des Generators zum Laufen zu bringen, waren die Ergebnisse schlecht:

„Klein/Mittel/Groß“ bedeutete dem Modell nichts. Ohne ein Referenzobjekt im Bild war dasselbe Beet in einer Analyse „klein“ und in der nächsten „groß“. Es gibt keinen physischen Anker für diese Wörter – „mittel“ ist ein Sprachkonzept, keine Messung.
Kreative Strukturen passen nicht in saubere Kategorien. Ist ein L-förmiges Beet ein „großes“ Hochbeet oder zwei „mittlere“? Ist eine in ein Hochbeet integrierte Bank eine „Bank“ oder Teil des Beetes? Die Kategorien waren zu starr für das, was der Generator tatsächlich produzierte.
Wir fügten Hacks hinzu. Ein Überzählungsrabatt (-15 % für jede Struktur über 3, weil das Modell Extras halluzinierte). Ein Reklassifizierungsschritt. Eine manuelle Überschreibungstabelle. Jeder Hack war ein Zeichen dafür, dass der Ansatz nicht zu unserem Anwendungsfall passte.

Das Kernproblem: Katalogpreise setzen einen Katalog voraus. Es funktioniert für Zillow, weil Häuser bekannte Typen (Ranch, Kolonialstil, Split-Level) mit jahrzehntelangen vergleichbaren Verkaufsdaten haben. Es funktioniert für SimplyWise, weil Bauprojekte standardisierten Kategorien zugeordnet werden. Unsere KI generiert jedes Mal einzigartige Designs – es gibt keinen Katalog, gegen den klassifiziert werden könnte.

Wir haben diese Version nie ausgeliefert. Stattdessen kehrten wir zu dem zurück, was tatsächlich funktionierte – der Messung – aber mit einer entscheidenden Erkenntnis.

Versuch #3: Das Produkt zum Maßstab machen

Die Forschung hatte in einem Punkt Recht: Man kann aus einem einzelnen Bild ohne Referenzpunkt keine absoluten Dimensionen wiederherstellen. Aber sie lag in einer Annahme falsch – dass kein Referenzpunkt existiert.

Unser Produkt hat einen eingebauten Maßstab.

Das modulare Brick-System verwendet 60 mm dicke Holzbohlen, die übereinander gestapelt werden. Jede horizontale Schicht – in jedem generierten Bild als deutliche Linie sichtbar – ist exakt 12 cm (0,12 m) hoch. Dies ist eine physikalische Konstante des Produkts. Sie ist in jedem Bild, jedem Design, jedem Winkel gleich. Und der Bildgenerator weiß bereits davon – jeder Prompt spezifiziert „60 mm Brick-System“, sodass die Bohlen konsistent gerendert werden.

Bei V1 hatten wir gefragt: „Wie viele Meter lang ist dieses Beet?“ – eine Frage, die die Lösung des Problems der monokularen Ambiguität erforderte.

Bei V3 fragen wir: „Wie viele Bohlen-Schichten sehen Sie, und wie viel länger ist die Wand im Vergleich zu ihrer Höhe?“ – Fragen, die nur Zählen und Schätzen eines Verhältnisses erfordern. Beides sind Dinge, die Vision-Modelle gut können.

// Der tatsächliche Prompt in Produktion (v3)
SCALE REFERENCE: Each horizontal plank layer = exactly 12cm
(0.12m) tall. Count layers to get the height, then estimate
length relative to the known height.

MEASURE each structure:
- layers: count visible horizontal plank layers (each = 12cm)
- length_ratio: how many times longer the wall is vs its height
- visible_faces: how many wall faces are visible

VERIFY: Typical gardens have 2-5 structures.
If you found >6, you likely overcounted.

Return JSON:
{"structures": [
  {"reasoning": "4 horizontale Schichten sichtbar, Wand erstreckt sich
    etwa 3,5x die Höhe, Vorder- und Seitenansicht sichtbar",
   "type": "raised_bed",
   "layers": 4,
   "length_ratio": 3.5,
   "visible_faces": 2}
]}

Die Preisberechnungs-Engine führt die Arithmetik durch:

const LAYER_HEIGHT_M = 0.12;
const PRICE_PER_M2 = 120;

function calculatePrice(structure) {
  const height = structure.layers * LAYER_HEIGHT_M;
  // 4 Schichten = 0,48m

  const length = height * structure.length_ratio;
  // 0,48m × 3,5 = 1,68m

  const faceArea = height * length;
  // 0,48 × 1,68 = 0,81 m²

  const totalM2 = faceArea * structure.visible_faces;
  // 2 Flächen = 1,61 m²

  return totalM2 * PRICE_PER_M2;
  // 1,61 × 120 € = 193 €
}

Warum dies funktioniert, wo V1 und V2 versagten:

Zählen ist das, was Vision-Modelle gut können. Horizontale Linien in gestapelten Bohlenstrukturen sind kontrastreiche, repetitive visuelle Merkmale. Das Zählen diskreter Schichten unterscheidet sich grundlegend von der Schätzung „wie viele Meter“ – es ist Mustererkennung, nicht räumliches Denken.
Verhältnisse sind einfacher als absolute Werte. „Diese Wand ist etwa 3,5-mal länger als hoch“ ist eine visuelle Proportionsbeurteilung. Das Modell muss die absolute Größe nicht kennen – nur die Form. Dies umgeht die monokulare Ambiguität vollständig.
Die Skalenreferenz ist real. 12 cm pro Schicht ist keine Annahme – es ist eine Fertigungsspezifikation, die sowohl im physischen Produkt als auch im Bildgenerierungs-Prompt verankert ist. Die KI „kennt“ die Bohlenstärke, weil sie das Bild mit dieser Einschränkung generiert hat.
Kreative Freiheit bleibt erhalten. Im Gegensatz zum Katalogansatz von V2 schränken wir nicht ein, welche Strukturen der Generator erstellen kann. L-Formen, Kurven, integrierte Bänke – alles ist möglich. Der Schichtzählansatz funktioniert bei jeder Form, da er die sichtbare Wandfläche misst, nicht vordefinierte Kategorien.
Die KI beobachtet, Code berechnet. Wir haben die Aufgabe in das aufgeteilt, was KI gut kann (visuelle Mustererkennung), und das, was Code gut kann (Arithmetik). Keiner macht die Arbeit des anderen. Das Feld reasoning zwingt das Modell, zu beschreiben, was es sieht, bevor es Zahlen angibt, was schlechte Schätzungen in den Protokollen aufdeckt und die Ausgaben fundiert hält.

Was sich zwischen den Ansätzen geändert hat

	V1: Direkte Messung	V2: Katalogklassifizierung	V3: Schichtzählung
Was wir die KI fragen	„Wie viele Meter?“	„Welcher Typ und welche Größe?“	„Wie viele Schichten? Welches Verhältnis?“
Ankerpunkt	Keiner (raten)	Fester Katalog (einschränkend)	12cm Bohlen-Schicht (physisch)
Kreative Freiheit	Voll	Eingeschränkt (benötigt vordefinierte Typen)	Voll
Genauigkeit	±20-25 % (unvorhersehbar)	Inkonsistent (nie ausgeliefert)	±20 % (vorhersehbar, konservativ)
Preisspanne	±20 % symmetrisch	Fester Nachschlag (keine Spanne)	-20 % / +10 % (absichtlich konservativ)
Modell	Gemini 2.5 Pro (~0,005 $)	Gemini 2.5 Flash (~0,001 $)	Gemini 2.5 Flash (~0,001 $)
Status	Funktionierte, aber nach Forschung aufgegeben	Nie ausgeliefert – zu einschränkend	In Produktion

Die asymmetrische Preisspanne in V3 verdient eine Anmerkung. Wir neigen bewusst zur Unterschätzung: -20 % am unteren Ende, +10 % am oberen Ende. Wir würden lieber 160 €-210 € angeben und den tatsächlichen Preis bei 190 € liegen haben, als 190 €-250 € anzugeben und jemanden abzuschrecken, bevor er überhaupt fragt. Weniger versprechen und mehr liefern ist besser als umgekehrt.

Vom generierten Bild zum Preisvorschlag in 5 Sekunden

Hier ist, was passiert, nachdem ein Benutzer ein Gartendesign generiert hat:

Für registrierte Benutzer wird der Preisvorschlag automatisch ausgelöst – kein Klick auf einen Button erforderlich. Das generierte Bild wird auf 1024px skaliert und an ein zweites KI-Modell gesendet (Gemini 2.5 Flash, konfiguriert für die Visionsanalyse bei Temperatur 0,2 für deterministisches Zählen). Dies ist ein anderer Modellaufruf als der, der das Bild generiert hat – der Generator erstellt, der Analysator misst.

Der Analysator gibt ein JSON mit seiner Begründung für jede Struktur zurück: „4 horizontale Schichten sichtbar, Wand erstreckt sich etwa 3,5-mal die Höhe, Vorder- und Seitenansicht sichtbar.“ Unser Code multipliziert Schichten mit 0,12 m, wendet das Verhältnis an, berechnet m² und summiert alles auf.

Das Ergebnis erscheint direkt unter dem generierten Bild – ein grünes Panel mit einer Aufschlüsselungstabelle pro Struktur. Jede Zeile zeigt: Strukturtyp, Dimensionen (Höhe × Länge), sichtbare Flächen, Wandfläche in m² und geschätzter Preis. Die Gesamtsumme zeigt X.XX m² × 120 €/m² mit der Preisspanne in großem Text. Keine Blackbox – Benutzer können genau sehen, wie der Vorschlag berechnet wurde, und selbst beurteilen, ob die Schichtanzahl korrekt aussieht.

Gleichzeitig kommt eine E-Mail mit derselben Aufschlüsselung plus dem Gartenbild an. Wenn der Benutzer innerhalb von 3 Tagen nicht antwortet, folgt eine einzelne Erinnerung: „Denken Sie noch über Ihren Garten nach?“ mit einem Ein-Klick-Button, um ein genaues Angebot von einem Menschen anzufordern. Die gesamte Kette – von der Bildgenerierung über den Preisvorschlag bis zur E-Mail – kostet unter 0,01 $.

Die Wirtschaftlichkeit: 0,135 $ pro Bild, 0,001 $ pro Preisangebot

Ein KI-gestütztes Tool zu entwickeln ist eine Sache. Es wirtschaftlich nachhaltig zu machen, eine andere. So sehen die Zahlen tatsächlich aus.

Die Bildgenerierung kostet 0,134 $ pro Bild. Wir verwenden Geminis Pro-Bildmodell – die teuerste Stufe. Wir haben das günstigere Flash-Modell frühzeitig ausprobiert. Die Ausgabequalität war nicht gut genug: Texturen sahen flach aus, die Holzmaserung war inkonsistent, die Brick-Bohlenproportionen drifteten ab. Für ein Tool, bei dem die visuelle Qualität das Produkt ist, war es kein lohnender Kompromiss, 60 % der Generierungskosten zu sparen und dabei Bilder zu produzieren, die nicht überzeugend aussahen. Nur Pro, kein Fallback.

Die Preisvorschlagserstellung kostet 0,001 $ pro Angebot. Hier ist die Rechnung umgekehrt – wir verwenden Gemini 2.5 Flash für die Visionsanalyse. Das Zählen von Bohlen-Schichten und das Schätzen von Proportionen erfordert nicht dasselbe Modell, das fotorealistische Bilder generiert. Flash bewältigt Zählaufgaben zuverlässig zu einem Bruchteil der Kosten. Die Wahl des richtigen Modells für jede Aufgabe – Pro, wo Qualität zählt, Flash, wo die Genauigkeit einer spezifischen, engen Aufgabe zählt – ist der Unterschied zwischen einem nachhaltigen und einem nicht nachhaltigen Produkt.

Eine typische Benutzersitzung sieht so aus:

Schritt	Modell	Kosten
Gartendesign generieren (×2 kostenlos)	Gemini Pro (Bild)	0,268 $
Preisvorschlag	Gemini 2.5 Flash (Vision)	0,001 $
Preisberechnung + E-Mail	Node.js (kein API-Aufruf)	0,000 $
Gesamt pro Sitzung		~0,27 $

Jeder Benutzer erhält 2 kostenlose Generierungen ohne Registrierung. Die Angabe einer E-Mail schaltet 3 weitere frei (insgesamt 5 pro Tag). Darüber hinaus kaufen Benutzer Kreditpakete – 3 Bilder für 1 € bis zu 50 für 10 €. Bei 0,134 $ pro Generierung belaufen sich die Margen je nach Paketgröße auf etwa 40-60 %.

Der Preisvorschlag selbst ist immer kostenlos – bei 0,001 $ pro Angebot würde das Verbergen hinter einer Paywall mehr an verlorenem Engagement kosten, als es an API-Gebühren spart. Und die Preisberechnung (Schichten × 0,12 m × Verhältnis × Flächen × 120 €/m²) läuft vollständig in unserem Code mit null API-Aufrufen. Sobald Gemini Flash die Schichtanzahlen zurückgibt, ist alles andere deterministische Arithmetik.

Wir optimieren auch die Inputkosten bei jedem Schritt. Vom Benutzer hochgeladene Fotos werden mit Sharp vorverarbeitet – auf maximal 2048px skaliert und von EXIF-Daten befreit, bevor sie die API erreichen. Für die Preisangebotsanalyse wird das generierte Bild weiter auf 1024px JPEG komprimiert. Drei Referenzproduktfotos werden lokal zwischengespeichert und von der Festplatte bereitgestellt, anstatt bei jeder Anfrage vom CDN abgerufen zu werden. Der Generierungs-Prompt wird unter 150 Wörtern gehalten – über 200 beginnt das Bildmodell, Teile der Anweisung zu ignorieren.

Das Geschäftsmodell: Wir verlieren Geld bei der Generierung. Das ist der Punkt.

Seien wir ehrlich, was die Wirtschaftlichkeit angeht. Die meisten Benutzer generieren 2-5 Bilder mit ihrem kostenlosen Kontingent und kaufen nie ein Kreditpaket. Die wenigen, die Credits kaufen, decken bei weitem nicht die gesamten API-Kosten für alle Benutzer. Rein aus den Generierungseinnahmen betrachtet, arbeiten wir mit Verlust.

Das ist Absicht. Der KI-Gartendesigner ist kein Produkt – er ist ein Trichter.

Hier ist, was wir tatsächlich von einem Benutzer erhalten, der ein Gartendesign generiert und seine E-Mail-Adresse eingibt:

Ein warmer Lead mit Kaufabsicht. Jemand, der ein Foto seines Gartens hochlädt, ein Design mit Hochbeeten generiert und einen Preisvorschlag prüft, ist kein Gelegenheitsbesucher. Er zieht aktiv ein Gartenprojekt in Betracht. Das unterscheidet sich qualitativ von jemandem, der auf eine Anzeige geklickt hat.
Ein personalisierter Preisanker. Der Benutzer hat jetzt eine bestimmte Zahl im Kopf – „mein Garten würde etwa 350 € kosten.“ Das ist weitaus effektiver als eine generische Produktseite, die Bohlenpreise pro Stück auflistet.
Ein Bild, in das sie sich bereits verliebt haben. Sie haben das Design selbst generiert. Sie haben die Dichte, den Stil, die Anordnung gewählt. In diesem Bild steckt eine Eigenverantwortung, die kein Katalogfoto erreichen kann.

Die E-Mail-Sequenz verstärkt dies. Unmittelbar nach der Generierung eines Designs erhält der Benutzer eine Preisangebot-E-Mail mit seinem eingebetteten Gartenbild – dem spezifischen Design, das er erstellt hat, nicht einem Stockfoto. Die E-Mail enthält eine Aufschlüsselung pro Struktur (Typ, Wandfläche, geschätzter Preis) und einen prominenten Button, um ein genaues Angebot von einem Menschen anzufordern.

Wenn sie innerhalb von drei Tagen nicht antworten, kommt eine einzelne Erinnerung: „Denken Sie noch über Ihren Garten nach?“ – dasselbe Bild, dieselbe Preisspanne, derselbe Ein-Klick-Button. Nur eine Erinnerung, keine Drip-Kampagne. Wir wollen hilfreich sein, nicht lästig.

Unterhalb des generierten Designs auf der Website gibt es immer zwei CTAs: einen Link zum 3D-Konfigurator, wo sie genaue Dimensionen festlegen können, und einen Link zum Durchsuchen des E-Shops. Die Reise von „Ich frage mich, wie mein Garten aussehen könnte“ zu „Ich konfiguriere meine Bestellung“ kann in einer einzigen Sitzung stattfinden.

Zum Datenschutz: Die E-Mail-Einreichung wird immer von einem Link zu unserer Datenschutzerklärung und einem klaren Hinweis begleitet, dass Benutzer sich jederzeit abmelden können. Die Preisangebot-E-Mail ist transaktional – der Benutzer hat ausdrücklich einen Preisvorschlag angefordert. Marketing-E-Mails (Newsletter) erfordern ein separates, explizites Opt-in-Kontrollkästchen. Wir speichern nur das Nötigste: E-Mail, Region, das Designbild und die Preisaufschlüsselung. Die DSGVO-Konformität ist nicht nur eine rechtliche Anforderung – sie ist der einzige Weg, Vertrauen bei Menschen aufzubauen, die Ihnen ihre Kontaktdaten zusammen mit einem Foto ihres Hauses geben.

Die größere Lektion: Die KI soll beobachten, nicht antworten

Der Fehler in V1 war nicht die Verwendung von KI für räumliche Aufgaben – es war, das Modell zu bitten, die endgültige Antwort direkt zu produzieren. „Wie viele Meter lang ist das?“ erfordert vom Modell, die monokulare Ambiguität zu lösen, visuelle Merkmale in physikalische Einheiten umzuwandeln und eine kalibrierte Zahl zu produzieren. Das sind drei schwierige Probleme, die übereinander gestapelt sind.

V3 zerlegt es in Teile. „Wie viele horizontale Schichten?“ ist eine Zählaufgabe – eine der zuverlässigsten Dinge, die Vision-Modelle tun. „Wie viele Male länger als hoch?“ ist eine Proportionsschätzung – ebenfalls zuverlässig, da Verhältnisse skaleninvariant sind. Die Umwandlung von Schichten in Meter und von Verhältnissen in absolute Dimensionen ist deterministischer Code mit einer bekannten physikalischen Konstante.

Dasselbe Prinzip gilt über unseren Anwendungsfall hinaus:

Fragen Sie nicht „wie hoch ist dieses Gebäude?“ – fragen Sie „wie viele Stockwerke?“ und multiplizieren Sie mit der Standardstockwerkshöhe.
Fragen Sie nicht „wie breit ist dieser Raum?“ – fragen Sie „wie viele Fliesen quer?“ und multiplizieren Sie mit der Fliesengröße.
Fragen Sie nicht „wie lang ist dieser Zaun?“ – fragen Sie „wie viele Pfosten?“ und multiplizieren Sie mit dem Standardabstand.

Wenn Ihr Produkt oder Ihre Szene ein wiederholtes, sichtbares, dimensional konsistentes Element enthält, haben Sie bereits einen Maßstab. Sie brauchen die KI nicht zum Messen – Sie brauchen sie nur zum Zählen.

Probieren Sie es selbst aus

Laden Sie ein Foto Ihres Gartens hoch, lassen Sie die KI ihn mit modularen Hochbeeten gestalten und erhalten Sie einen sofortigen Preisvorschlag. Der gesamte Prozess dauert etwa 30 Sekunden. Das Design und der Preisvorschlag sind kostenlos.

Erhalten Sie einen Preisvorschlag in 30 Sekunden

Foto hochladen → KI generiert Ihr Gartendesign → sofortige Preisaufschlüsselung.

KI-Gartendesigner testen Oder nutzen Sie den 3D-Konfigurator

Häufig gestellte Fragen

Wie genau sind KI-generierte Preisvorschläge für Gartenbilder?

Unser System erreicht eine Genauigkeit von etwa ±20 %, mit einer bewusst konservativen asymmetrischen Spanne (-20 %/+10 %). Das bedeutet, dass die Schätzungen tendenziell etwas niedriger als der tatsächliche Preis ausfallen, anstatt höher – wir versprechen lieber weniger, als zu viel zu schätzen.

Welches KI-Modell wird für die Preisvorschlagserstellung verwendet?

Wir verwenden Googles Gemini 2.5 Flash für die Visionsanalyse. Jeder Vorschlag kostet ungefähr 0,001 $ (ein Zehntel Cent). Wir sind vom teureren Gemini 2.5 Pro gewechselt, nachdem wir festgestellt haben, dass Flash für unseren spezifischen Anwendungsfall des Zählens von Strukturschichten vergleichbare Leistungen erbringt.

Kann KI wirklich Dimensionen aus einem einzelnen Foto messen?

Nicht direkt – die Forschung zeigt, dass KI-Vision-Modelle in 63 % der Fälle bei absoluten Messungen falsch liegen. Unser Ansatz umgeht dies, indem er die eigene Struktur des Produkts (12 cm Bohlen-Schichten) als eingebauten Maßstab verwendet. Die KI zählt die Schichten und schätzt Proportionen, dann führt unser Code die Berechnung durch.

Warum nicht GPT-4 Vision anstelle von Gemini verwenden?

Gemini Flash ist etwa 4-mal günstiger mit vergleichbarer räumlicher Denkfähigkeit für unseren spezifischen Anwendungsfall. Da wir einen API-Aufruf pro Vorschlag tätigen, sind die Kosten pro Aufruf wichtig – bei 0,001 $ pro Stück können wir unbegrenzt kostenlose Vorschläge anbieten.

Kann dieser Ansatz auch für andere Produkte funktionieren?

Ja – wenn Ihr Produkt ein bekanntes, sichtbares, dimensional konsistentes Merkmal aufweist, das in Bildern erscheint. Mauerwerksreihen, Bodenfliesen, Standardholzbreiten, Betonsteine – alles mit einer festen realen Dimension, die die KI zählen kann, kann als Maßstab dienen.

Ist der Preisvorschlag ein verbindliches Angebot?

Nein, es ist ein Richtwert, der Ihnen bei der Planung helfen soll. Sie können mit einem Klick ein genaues Angebot anfordern – ein Mensch prüft das Design und erstellt innerhalb von 24 Stunden einen präzisen Preis.

Zurück zum Blog