AI Price Estimation From Images: 3 Attempts, 1 Working Solution — GridGarden

Mesterséges intelligencia árbecslés képek alapján: 3 kísérlet, 1 működő megoldás

TL;DR: Az AI látásmodellek állítólag 63%-ban tévednek a méretezésnél. Minden bevált módszer azt mondja: „ne mérj képekből – inkább osztályozz”. Kipróbáltunk mindkettőt. Az osztályozás azt jelentette, hogy az AI képgenerátorunkat egy rögzített katalógusra korlátoztuk, ami megölte a kreatív kimenetet. Így találtunk egy harmadik utat: magát a terméket használjuk vonalzónak. Moduláris rendszerünk minden rétege pontosan 12 cm. Az AI megszámolja a rétegeket, mi elvégezzük a számítást, te pedig 5 másodperc alatt kapsz egy árbecslést 0,001 dollárért.

Miért mondja mindenki, hogy „az AI nem tud mérni fotókról”?

2024-ben a Google kutatói publikálták a SpatialVLM-et – egy benchmarkot, amely teszteli, mennyire jól értik a látás-nyelv modellek a térbeli kapcsolatokat. Az eredmények lehangolóak voltak: amikor fotókról kellett távolságokat és méreteket becsülni, a legmodernebb modellek csak 37,2%-ban találták el a helyes tartományt (a valóság 0,5× és 2×-e között). Az becslések közel kétharmada több mint kétszeres hibával volt.

Egy későbbi, 2026-os SpatiaLab tanulmány megerősítette, hogy a probléma mélyen gyökerezik – korábbi benchmarkok valójában túlbecsülték, mennyire jól érzékelik ezek a modellek a teret. A valós számok rosszabbak.

Az alapvető probléma neve monokuláris ambiguitás: egyetlen 2D képből, referenciapont nélkül fizikailag lehetetlen abszolút 3D méreteket kinyerni. Egy 30 cm-es virágláda, amelyet közelről fotóztak, megegyezik egy 3 méteres növénytartóval, amelyet távolról lőttek. Egyik sem változtat ezen a képzési adatok mennyisége – ez nem AI korlát, hanem geometria.

Az AI által generált képek pedig még nehezebbé teszik a helyzetet. A valós fotók legalább EXIF metaadatokat ( tiêu, szenzor mérete) hordoznak, amelyek elméletileg rögzíthetnék a perspektíva számításokat. A generált képeknek nincs ilyenje.

Érdekes módon a kutatás azt is kimutatta, hol van valójában a szűk keresztmetszet: a látás-nyelv átadási probléma. A vizuális enkóder belsőleg helyesen reprezentálja a térbeli információt – de a nyelvi modell nem tudja kinyerni azt szöveges válaszok generálásakor. A modell pontosabban „látja” a méreteket, mint ahogy „el tudja mondani” őket.

Tehát amikor úgy döntöttünk, hogy automatikus árbecsléseket készítünk az AI által generált kerti tervekhez, az akadémiai konszenzus egyértelmű volt: ne mérj, osztályozz.

Íme, mit csinál az iparág helyette:

Cég Megközelítés Mér fotókról?
Zillow Zestimate Jellemzők osztályozása (gránit vs. laminált), hasonló eladási adatok használata Nem – 1M+ minta, csak osztályozás
SimplyWise Projekt típus osztályozása → regionális árlisták Nem – ±10-15% pontosság, nincs pixelmérés
Hover 8-10 fotó → 3D rekonstrukció + emberi QA Igen – de több szöget igényel és ~1 órát vesz igénybe
AI Garden Planner, Planner 5D, stb. Csak vizualizáció – nincs árazás N/A

Az AI kerti tervezés terén ($1,72 milliárdos piac, 21,4% CAGR növekedéssel) senki sem kínál árbecslést generált tervek alapján. Egyetlen versenytárs sem. Úgy döntöttünk, mégis megpróbáljuk.

Hogyan generál az AI kerti terveket (és miért nehéz árazni)?

Mielőtt belevágnánk az árazásba, hasznos megérteni, mit árazunk. Az AI Kerttervezőnk lehetővé teszi a felhasználóknak, hogy feltöltsenek egy fotót a valós kertjükről. Az AI ezután fotorealisztikus vizualizációt generál arról, hogyan nézhetne ki az a tér moduláris magaságyásokkal.

A képgenerátor (Gemini Imagen) kétféle bemenetet kap:

  • Termékkorlátok: Három referenciakép a valós Brick rendszerünkről – valós termékfotók, amelyek a rakott deszkák szerkezetét, a rönkház sarkokat, az időjárás-sújtotta vörösfenyő textúrát mutatják. Plusz egy részletes szöveges leírás: „vastag deszkák (120 mm magas × 60 mm vastag), vízszintesen egymásra rakva, a fugák soronként eltolva, mint a téglafalazat”.
  • Kreatív szabadság: Minden más – hány struktúra, hol helyezkednek el, milyen alakúak, hogyan viszonyulnak a meglévő kerthez. Az AI dönti el az elrendezést, a struktúrát, az ágyások típusait. Egy L-alakú, egy fa körülívelő ágyás? Egy pad, amely egy támfalba van beépítve? Lépcsősor, amely követi a lejtőt? Mindez a modell döntése.

A felhasználók egy sűrűségcsúszkát (0-100) vezérelnek, amely körülbelül 0-20 struktúrának felel meg. 25-ös sűrűségnél egy természetes kertet kapsz, kevés finom ágyással, amely vadon növő virágok között helyezkedik el. 80-as sűrűségnél egy teljesen rendezett kültéri életteret kapsz, különálló zónákkal, amelyeket ösvények kötnek össze. Az AI kiválasztja, milyen típusú struktúrák illenek a jelenetbe.

Ez a kreatív szabadság a célja az eszköznek. Senki sem akar egy konfigurátort, amely minden alkalommal ugyanazt a három téglalap alakú ágyást adja ki. De ez alapvető árazási problémát teremt: minden generált kép egyedi. Nincs előre meghatározott anyagjegyzék. Nincs cikkszám lista. Csak egy fotorealisztikus kép fa struktúrákról, amelyek lehetnek egyetlen virágládától egy bonyolult, többzónás kertig bármi.

Tehát hogyan árazunk valamit, ami még nem létezik, egy olyan kép alapján, amelyet 5 másodperccel ezelőtt generáltak?

1. kísérlet: Csak kérdezzük meg az AI-t a méretekről

Az első megközelítésünk a legnaivabb volt: adjuk oda a Gemini 2.5 Pro-nak a generált kerti képet, és kérjük meg, hogy becsülje meg a méreteket méterben.

// A prompt, amit a gyártásba szállítottunk
Szakértő vagy a kerti struktúrák méreteinek becslésében
fényképek alapján.

Minden egyes azonosítható fa struktúrára
(magaságyások, padok, falak, lépcsők, virágládák),
becsüld meg a méreteit méterben:
- hossz_m: a leghosszabb vízszintes méret
- szelesseg_m: a rövidebb vízszintes méret (mélység)
- magassag_m: a függőleges méret

JSON formátumban add vissza:
{ "struktúrák": [
    { "típus": "magaságyás",
      "hossz_m": 2.0, "szelesseg_m": 1.0, "magassag_m": 0.6 }
]}

Az árazás egyszerű geometriát követett – a látható fal felületének kiszámítása és szorzása 125 €/m²-rel:

// Fal terület számítás struktúra típusonként:
// magaságyás: 2 × (hossz + szélesség) × magasság
// fal: 2 × hossz × magasság
// lépcső: hossz × magasság × 1.5
const falTerulet = 2 * (s.hossz_m + s.szelesseg_m) * s.magassag_m;
const ar = falTerulet * 125; // EUR per m²

Működött. Jobban, mint vártuk. Egy ágyás, amely valójában 1,8 méter hosszú volt, 1,4 méter vagy 2,2 méter értéket adott vissza – az egyes méretek pontatlanok voltak, de a geometria kompenzált: amikor a hosszt túlbecsülték, a magasságot általában alulbecsülték. Az árbecslés a valósághoz képest ±20-25%-on belül maradt. Ingyenes, azonnali becsléshez egy AI által generált kép alapján ez meglepően hasznosnak tűnt.

A modell különösen jól teljesített a struktúrák számlálásában – ha a képen 3 magaságyás és egy pad volt látható, általában 3 magaságyást és egy padot talált. Megértette, hogyan néz ki a Brick rendszerünk. A méretek homályosak voltak, de a struktúra detektálás szilárd volt.

De aztán elolvastuk a cikkeket. A SpatialVLM 37,2%-os pontossága. A Google saját dokumentációja, amely óva int a térbeli méréstől egyetlen kép alapján. Stack Overflow szálak tele „ez alapvetően lehetetlen” mondatokkal. Megijedtünk.

„Ez nem működhet hosszú távon” – mondtuk magunknak. „Csak szerencsések vagyunk. Csináljuk a helyes módon – ahogy mindenki javasolja.”

2. kísérlet: A „megfelelő” mód – Katalógus osztályozás

Az ajánlott megközelítés egyértelmű: ne mérj, osztályozz. Azonosítsd a struktúra típusát, rendeld hozzá egy méretkategóriához, keress egy rögzített árat. Nincs mérés, nincs kétértelműség. Ezt csinálja a Zillow. Ezt csinálja a SimplyWise. Ezt javasolja a kutatás.

Az ötlet egyszerű volt:

// Struktúra típus + méret osztályozása → rögzített ár lekérdezés
const AR_TABLAZAT = {
  magasagyar: { kicsi: 50, kozepes: 100, nagy: 180 },
  fal:       { kicsi: 25, kozepes: 50,  nagy: 90 },
  pad:      { kicsi: 30, kozepes: 60,  nagy: 100 },
  lepcso:     { kicsi: 45, kozepes: 90,  nagy: 140 },
  viraglada:    { kicsi: 15, kozepes: 30,  nagy: 55 }
};

De beleütköztünk egy olyan problémába, amit nem vártunk – és semmi köze nem volt az AI pontosságához.

Az AI kerti tervezőnk kreatív terveket generál. A felhasználó feltölt egy képet a kertjéről, és a Gemini Imagen egyedi vizualizációt hoz létre moduláris magaságyásokkal, amelyek az adott térhez illeszkednek. Az általa generált struktúrák változatosak – L-alakúak, görbék, amelyek követik a kerti ösvényt, ágyások, amelyek lejtőkbe vannak beépítve, padok, amelyek magaságyásokhoz kapcsolódnak, lépcsőzetes elrendezések, amelyek elmosják a határt a „lépcső” és a „fal” között.

Ahhoz, hogy a katalógus osztályozás működjön, korlátoznunk kellett volna a képgenerátort. „Csak ezt az 5 típust generáld. Csak ezt a 3 méretet generáld. Mindent tarts téglalap alakúnak.” Ez pontossá tette volna az árazást – de megölte volna azt, ami az eszközt értékessé teszi: a kreatív, személyre szabott terveket.

Egy alapvető kompromisszummal néztünk szembe: pontos árazás vs. kreatív szabadság a generált képekben.

És még akkor is, amikor megpróbáltuk működtetni az osztályozást a generátor korlátozása nélkül, az eredmények rosszak voltak:

  • A „kicsi/közepes/nagy” semmit sem jelentett a modell számára. Referencia tárgy nélkül a képen ugyanaz az ágyás az egyik elemzésben „kicsi”, a következőben pedig „nagy” volt. Nincs fizikai horgony ezeknek a szavaknak – a „közepes” egy nyelvi fogalom, nem pedig mérés.
  • A kreatív struktúrák nem illeszkednek tiszta kategóriákba. Az L-alakú ágyás egy „nagy” magaságyásnak vagy kettő „közepesnek” számít? A magaságyásba integrált pad „pad” vagy az ágyás része? A kategóriák túl merevek voltak ahhoz, amit a generátor valójában produkált.
  • Hackeket kellett hozzáadnunk. Túlszámlálási kedvezmény (-15% minden 3-nál több struktúrára, mert a modell extrakat hallucinált). Újraosztályozási lépés. Manuális felülbírálati táblázat. Minden hack jelezte, hogy a megközelítés nem felelt meg a használati esetünknek.

Az alapvető probléma: a katalógus árazás feltételez egy katalógust. Működik a Zillow számára, mert a házaknak ismerős típusai vannak (ranch, gyarmati, osztott szintű) évtizedes összehasonlítható eladási adatokkal. Működik a SimplyWise számára, mert az építési projektek szabványos kategóriákhoz kapcsolódnak. Az AI minden alkalommal egyedi terveket generál – nincs katalógus, amihez osztályozni lehetne.

Ezt a verziót soha nem szállítottuk le. Ehelyett visszatértünk ahhoz, ami valójában működött – a méréshez –, de egy kulcsfontosságú felismeréssel.

3. kísérlet: Legyen a termék a vonalzó

A kutatás egy dologban igaza volt: nem lehet abszolút méreteket kinyerni egyetlen képből referenciapont nélkül. De tévedett egy feltételezésben – hogy nem létezik referenciapont.

A termékünk beépített vonalzót tartalmaz.

A Brick moduláris rendszer 60 mm vastag fa deszkákat használ, amelyek egymásra rakódnak. Minden vízszintes réteg – amely minden generált képen jól látható vonalként jelenik meg – pontosan 12 cm (0,12 m) magas. Ez a termék fizikai állandója. Ugyanaz minden képen, minden tervben, minden szögből. És a képgenerátor már tud róla – minden prompt „60 mm-es Brick rendszert” specifikál, így a deszkák konzisztensen vannak renderelve.

Az 1. verzióval azt kérdeztük: „Hány méter hosszú ez az ágyás?” – egy olyan kérdés, amely megoldást igényel a monokuláris ambiguitás problémájára.

A 3. verzióval azt kérdezzük: „Hány deszkaréteget látsz, és hányszor hosszabb a fal a magasságához képest?” – olyan kérdések, amelyek csak számlálást és arány becslését igényelnek. Mindkettő olyan dolog, amit a látásmodellek jól csinálnak.

// A tényleges prompt a gyártásban (v3)
SKÁLA REFERENCIA: Minden vízszintes deszkaréteg = pontosan 12 cm
(0,12 m) magas. Számold meg a rétegeket a magasság meghatározásához,
majd becsüld meg a hosszt a ismert magassághoz viszonyítva.

MÉRD MEG minden struktúrát:
- rétegek: számold meg a látható vízszintes deszkarétegeket (mindegyik = 12 cm)
- hosszarany: hányszor hosszabb a fal a magasságához képest
- lathato_feluletek: hány fal látható

ELLENŐRIZD: A tipikus kertekben 2-5 struktúra van.
Ha >6-ot találtál, valószínűleg túlszámláltál.

JSON formátumban add vissza:
{"struktúrák": [
  {"indoklas": "4 vízszintes réteg látható, a fal a magasság kb. 3,5-szerese,
elöl és oldalt látható",
   "típus": "magaságyás",
   "rétegek": 4,
   "hosszarany": 3.5,
   "lathato_feluletek": 2}
]}

Az árazó motor elvégzi az aritmetikát:

const RETEG_MAGASSAG_M = 0.12;
const AR_PER_M2 = 120;

function szamolAr(struktura) {
  const magassag = struktura.rétegek * RETEG_MAGASSAG_M;
  // 4 réteg = 0,48 m

  const hossz = magassag * struktura.hosszarany;
  // 0,48 m × 3,5 = 1,68 m

  const feluletTerulet = magassag * hossz;
  // 0,48 × 1,68 = 0,81 m²

  const osszesM2 = feluletTerulet * struktura.lathato_feluletek;
  // 2 felület = 1,61 m²

  return osszesM2 * AR_PER_M2;
  // 1,61 × 120 € = 193 €
}

Miért működik itt, ahol az 1. és 2. verzió nem:

  • A számlálás az, amit a látásmodellek jól csinálnak. A vízszintes vonalak a rakott deszka struktúrákban nagy kontrasztú, ismétlődő vizuális jellemzők. A diszkrét rétegek számlálása alapvetően különbözik a „hány méter” becslésétől – ez mintázatfelismerés, nem térbeli érvelés.
  • Az arányok könnyebbek, mint az abszolútumok. „Ez a fal körülbelül 3,5-szer hosszabb, mint amilyen magas” – ez egy vizuális arány becslés. A modellnek nem kell ismernie az abszolút méretet – csak az alakot. Ez teljesen megkerüli a monokuláris ambiguitást.
  • A skála referencia valós. A 12 cm rétegenként nem feltételezés – ez egy gyártási specifikáció, amely mind a fizikai termékbe, mind a képgenerálási promptba be van építve. Az AI „tudja” a deszka vastagságát, mert azzal a korlátozással generálta a képet.
  • A kreatív szabadság megmarad. A 2. verzió katalógus megközelítésével ellentétben nem korlátozzuk, hogy a generátor milyen struktúrákat hozhat létre. L-alakok, görbék, integrált padok – bármi jöhet. A rétegszámláló megközelítés bármilyen alakzaton működik, mert a látható fal felületét méri, nem előre definiált kategóriákat.
  • Az AI megfigyel, a kód számol. A feladatot szétválasztottuk arra, amit az AI jól csinál (vizuális mintázatfelismerés) és amit a kód jól csinál (aritmetika). Egyik sem csinálja a másik munkáját. A reasoning mező arra kényszeríti a modellt, hogy írja le, mit lát, mielőtt számokat adna meg, ami a naplókban feltárja a rossz becsléseket, és a kimeneteket földhözragadtan tartja.

Mi változott a megközelítések között

V1: Közvetlen mérés V2: Katalógus osztályozás V3: Réteg számlálás
Mit kérdezünk az AI-tól „Hány méter?” „Milyen típus és méret?” „Hány réteg? Milyen arány?”
Horgony pont Nincs (tippelés) Rögzített katalógus (korlátozó) 12 cm deszka réteg (fizikai)
Kreatív szabadság Teljes Korlátozott (előre definiált típusokat igényel) Teljes
Pontosság ±20-25% (kiszámíthatatlan) Következetlen (soha nem szállították le) ±20% (kiszámítható, konzervatív)
Ár tartomány ±20% szimmetrikus Rögzített lekérdezés (nincs tartomány) -20% / +10% (szándékosan konzervatív)
Modell Gemini 2.5 Pro (~0,005 $) Gemini 2.5 Flash (~0,001 $) Gemini 2.5 Flash (~0,001 $)
Állapot Működött, de a kutatás után elhagytuk Soha nem szállították le – túl korlátozó Gyártásban

A V3 aszimmetrikus ár tartománya megérdemel egy megjegyzést. Szándékosan az alulbecslés felé hajlik: -20% a legalacsonyabb, +10% a legmagasabb végén. Inkább idézzünk 160-210 €-t, és a valós ár legyen 190 €, mintsem 190-250 €-t idézzünk, és elriasszunk valakit, mielőtt még kérdezni merne. Az alulígérés és a túlteljesítés jobb, mint az ellenkezője.

Generált képtől az árbecslésig 5 másodperc alatt

Íme, mi történik, miután egy felhasználó generált egy kerti tervet:

Regisztrált felhasználók számára az árbecslés automatikusan elindul – nincs szükség gombnyomásra. A generált képet 1024px-re átméretezzük, és elküldjük egy második AI modellnek (Gemini 2.5 Flash, látáselemzésre konfigurálva, 0,2-es hőmérsékleten a determinisztikus számlálás érdekében). Ez egy másik modellhívás, mint amelyik a képet generálta – a generátor alkot, az elemző mér.

Az elemző JSON-t ad vissza az egyes struktúrákra vonatkozó érvelésével: „4 vízszintes réteg látható, a fal a magasság kb. 3,5-szerese, elöl és oldalt látható”. A kódunk megszorozza a rétegeket 0,12 méterrel, alkalmazza az arányt, kiszámítja a m²-t, és összeadja az egészet.

Az eredmény közvetlenül a generált kép alatt jelenik meg – egy zöld panel egy struktúránkénti bontási táblázattal. Minden sor tartalmazza: struktúra típusa, méretei (magasság × hossz), látható felületek, fal területe m²-ben, és becsült ár. A teljes összeg mutatja az X.XX m² × 120 €/m² értéket, nagy szöveggel az ár tartományával. Nincs fekete doboz – a felhasználók pontosan láthatják, hogyan készült a becslés, és maguk dönthetik el, hogy a réteg szám helyesnek tűnik-e.

Ezzel egyidejűleg egy e-mail érkezik ugyanezzel a bontással, plusz a kerti képpel. Ha a felhasználó 3 napon belül nem válaszol, egy emlékeztető következik: „Még gondolkodsz a kerteden?” egy kattintással elérhető gombbal, amellyel pontos árajánlatot kérhetsz egy embertől. Az egész lánc – képgenerálás árbecslésig és e-mailig – kevesebb mint 0,01 dollárba kerül.

A gazdaságosság: 0,135 dollár képenként, 0,001 dollár árajánlatonként

Egy AI-alapú eszköz építése egyik dolog. Gazdaságilag fenntarthatóvá tétele pedig más. Íme, hogyan néznek ki valójában a számok.

A képgenerálás 0,134 dollárba kerül képenként. A Gemini Pro képmodelljét használjuk – a legdrágább szintet. Korábban kipróbáltuk az olcsóbb Flash modellt. A kimeneti minőség nem volt elég jó: a textúrák laposnak tűntek, a fa erezete következetlen volt, a Brick deszka arányai eltolódtak. Egy olyan eszköz esetében, ahol a vizuális minőség a termék, a generálási költség 60%-os megtakarítása, miközben nem meggyőző képeket produkálunk, nem volt olyan kompromisszum, ami megérte volna. Csak Pro, nincs visszaesés.

Az árbecslés 0,001 dollárba kerül idézetenként. Itt a kalkulus fordított – a Gemini 2.5 Flash-t használjuk a látáselemzéshez. A deszkarétegek számlálása és az arányok becslése nem igényel ugyanazt a modellt, amely fotorealisztikus képeket generál. A Flash töredék áron megbízhatóan kezeli a számlálási feladatokat. A megfelelő modell kiválasztása minden feladathoz – Pro, ahol a minőség számít, Flash, ahol egy adott szűk feladat pontossága számít – a fenntartható és a fenntarthatatlan termék közötti különbség.

Egy tipikus felhasználói munkamenet így néz ki:

Lépés Modell Költség
Generálj kerti tervet (×2 ingyenes) Gemini Pro (kép) 0,268 $
Árbecslés Gemini 2.5 Flash (látás) 0,001 $
Árazási számítás + e-mail Node.js (nincs API hívás) 0,000 $
Összesen munkamenetenként ~0,27 $

Minden felhasználó 2 ingyenes generálást kap regisztráció nélkül. Az e-mail megadása további 3-at nyit meg (naponta 5 összesen). Ezen felül a felhasználók hitelcsomagokat vásárolnak – 3 kép 1 €-ért, akár 50 kép 10 €-ért. 0,134 dolláros generálásonként a marzsok nagyjából 40-60%-ot tesznek ki, a csomag méretétől függően.

Maga az árbecslés mindig ingyenes – 0,001 dolláros idézetenként a fizetős fal mögé helyezése többe kerülne az elveszett elköteleződésben, mint amennyit API díjakon megtakarítana. És az árazási matematika (rétegek × 0,12 m × arány × felületek × 120 €/m²) teljes egészében a kódunkban fut, nulla API hívással. Miután a Gemini Flash visszaadta a réteg számokat, minden más determinisztikus aritmetika.

Minden lépésnél optimalizáljuk a bemeneti költségeket is. A felhasználó által feltöltött fotókat a Sharp előfeldolgozza – legfeljebb 2048 pixelesre átméretezi és eltávolítja az EXIF adatokat, mielőtt az API-hoz érnének. Az árbecslés elemzéséhez a generált képet tovább tömörítjük 1024 pixeles JPEG-re. Három referenciatermék fotót helyben tárolunk, és lemezről szolgálunk ki, ahelyett, hogy minden kérésre CDN-ről töltenénk le. A generálási prompt 150 szó alatt marad – 200 szó felett a képmodell kezdi figyelmen kívül hagyni az utasítás részeit.

A modell: veszteségesek vagyunk a generáláson. Ez a lényeg.

Legyünk őszinték a gazdaságosságról. A legtöbb felhasználó 2-5 képet generál az ingyenes keretéből, és soha nem vásárol hitelcsomagot. Azok, akik hitelt vásárolnak, nem fedezik a minden felhasználó teljes API költségeit. Csak a generálási bevételen alapulva veszteségesen működünk.

Ez szándékos. Az AI Kerttervező nem egy termék – ez egy tölcsér.

Íme, mit kapunk valójában egy olyan felhasználótól, aki kerti tervet generál és megadja az e-mail címét:

  • Meleg érdeklődő vásárlási szándékkal. Valaki, aki feltölt egy képet a kertjéről, magaságyásokkal generál egy tervet, és áttekint egy árbecslést, nem egy alkalmi böngésző. Aktívan fontolgatnak egy kerti projektet. Ez minőségileg különbözik attól, aki egy hirdetésre kattintott.
  • Személyre szabott árhorgony. A felhasználónak most már van egy konkrét száma a fejében – „az én kertem körülbelül 350 €-ba kerülne”. Ez sokkal hatékonyabb, mint egy általános termékoldal, amely deszkákat darabonként listáz.
  • Egy vizuális, amelybe már beleszerettek. Maguk generálták a tervet. Kiválasztották a sűrűséget, a stílust, az elrendezést. Van egy tulajdonosi érzés ebben a képben, amit egy katalógus fotó sem tud pótolni.

Az e-mail sorozat megerősíti ezt. Közvetlenül a terv generálása után a felhasználó kap egy árbecslési e-mailt a beágyazott kerti képpel – a konkrét tervvel, amelyet ők maguk hoztak létre, nem egy stock fotóval. Az e-mail tartalmaz egy struktúránkénti bontást (típus, fal területe, becsült ár) és egy kiemelt gombot, amellyel pontos árajánlatot kérhetnek egy embertől.

Ha három napon belül nem válaszolnak, egyetlen emlékeztető érkezik: „Még gondolkodsz a kerteden?” – ugyanaz a kép, ugyanaz az ár tartomány, ugyanaz az egy kattintással elérhető gomb. Csak egy emlékeztető, nem egy csepegtető kampány. Segíteni akarunk, nem bosszantani.

A weboldalon a generált terv alatt mindig két CTA található: egy link a 3D Konfigurátorhoz, ahol pontos méreteket specifikálhatnak, és egy link a webshop böngészéséhez. Az út „Csodálom, hogyan nézhetne ki a kertem” és „Konfigurálom a rendelésemet” között egyetlen munkamenetben megtörténhet.

Adatvédelem: az e-mail megadásához mindig csatolva van egy link az adatvédelmi szabályzatunkhoz, és egy világos megjegyzés, hogy a felhasználók bármikor leiratkozhatnak. Az árbecslési e-mail tranzakciós jellegű – a felhasználó kifejezetten árajánlatot kért. A marketing e-mailek (hírlevél) külön, kifejezett opt-in jelölőnégyzetet igényelnek. Csak azt tároljuk, ami szükséges: e-mail, tartózkodási hely, a terv képe és az ár bontása. A GDPR megfelelőség nem csak jogi követelmény – ez az egyetlen módja annak, hogy bizalmat építsünk azokkal, akik megadják az elérhetőségeiket, és egy fotót az otthonukról.

A nagyobb tanulság: Kérd meg az AI-t, hogy figyeljen, ne válaszoljon

Az 1. verzió hibája nem az volt, hogy AI-t használtunk térbeli feladatokhoz – hanem az, hogy megkértük a modellt, hogy közvetlenül adja meg a végső választ. „Hány méter hosszú ez?” megköveteli a modellnek a monokuláris ambiguitás megoldását, a vizuális jellemzők fizikai egységekre való átváltását, és egy kalibrált szám előállítását. Ez három nehéz probléma egymásra halmozva.

A V3 részekre bontja. „Hány vízszintes réteg?” – ez egy számlálási feladat, az egyik legmegbízhatóbb dolog, amit a látásmodellek csinálnak. „Hányszor hosszabb, mint amilyen magas?” – ez egy arány becslés, szintén megbízható, mert az arányok skála-invariánsak. A rétegekből méterbe, arányokból abszolút méretekbe való átváltás determinisztikus kód, ismert fizikai állandóval.

Ugyanez az elv érvényes a mi használati esetünkön túl is:

  • Ne kérdezd: „Milyen magas ez az épület?” – kérdezd: „Hány emelet?” és szorozd meg egy standard emeletmagassággal.
  • Ne kérdezd: „Milyen széles ez a szoba?” – kérdezd: „Hány csempe van egymás mellett?” és szorozd meg egy csempe méretével.
  • Ne kérdezd: „Milyen hosszú ez a kerítés?” – kérdezd: „Hány oszlop?” és szorozd meg egy standard távolsággal.

Ha a terméked vagy a jeleneted ismétlődő, látható, méretileg konzisztens elemet tartalmaz, már van egy vonalzód. Nem kell, hogy az AI mérjen – csak számolnia kell.

Próbáld ki magad

Tölts fel egy képet a kertedről, hagyd, hogy az AI tervezze meg moduláris magaságyásokkal, és kapj azonnali árbecslést. Az egész folyamat körülbelül 30 másodpercet vesz igénybe. A terv és az árbecslés ingyenes.

Kapj árbecslést 30 másodperc alatt

Tölts fel egy képet → az AI generálja a kerti tervedet → azonnali ár bontás.

Próbáld ki az AI Kerttervezőt Vagy használd a 3D Konfigurátort

Gyakran Ismételt Kérdések

Milyen pontosak az AI által generált árbecslések kerti képek alapján?

Rendszerünk körülbelül ±20% pontosságot ér el, szándékosan konzervatív, aszimmetrikus tartománnyal (-20%/+10%). Ez azt jelenti, hogy a becslések általában alacsonyabbak a tényleges árnál, mint magasabbak – inkább alulígérjünk, mintsem túlbecsüljünk.

Milyen AI modellt használnak az árbecsléshez?

A Google Gemini 2.5 Flash-t használjuk a látáselemzéshez. Minden becslés körülbelül 0,001 dollárba kerül (tized cent). Áttértünk a drágább Gemini 2.5 Pro-ról, miután megállapítottuk, hogy a Flash összehasonlíthatóan teljesít a mi specifikus, szerkezeti rétegek számlálására irányuló használati esetünkben.

Tud az AI valóban méreteket mérni egyetlen fotóról?

Nem közvetlenül – a kutatások azt mutatják, hogy az AI látásmodellek 63%-ban tévednek az abszolút méretezésnél. Megközelítésünk ezt megkerüli azáltal, hogy a termék saját szerkezetét (12 cm-es deszka rétegek) használja beépített skála referenciaként. Az AI megszámolja a rétegeket és becsüli az arányokat, majd a kódunk elvégzi a számítást.

Miért nem használják a GPT-4 Vision-t a Gemini helyett?

A Gemini Flash körülbelül 4-szer olcsóbb, összehasonlítható térbeli érvelési teljesítménnyel a mi specifikus használati esetünkben. Mivel minden becsléshez egy API hívást végzünk, az egységnyi költség számít – 0,001 dolláronként, így korlátlan ingyenes becsléseket kínálhatunk.

Működhet ez a megközelítés más termékeknél is?

Igen – ha a termékednek van bármilyen ismert, látható, méretileg konzisztens eleme, amely megjelenik a képeken. Téglafalazat, padlólapok, standard fűrészáru szélességek, betonblokkok – bármi, ami rögzített valós mérettel rendelkezik, és az AI megszámolhatja, skála referenciaként szolgálhat.

A becsült ár kötelező érvényű ajánlat?

Nem, ez egy tájékoztató becslés, amely segít a tervezésben. Egy kattintással kérhetsz pontos árajánlatot – egy ember áttekinti a tervet, és 24 órán belül pontos árat ad.

Vissza a blogba