AI Price Estimation From Images: 3 Attempts, 1 Working Solution — GridGarden

AI Price Estimation From Images: 3 Attempts, 1 Working Solution

TL;DR: Modele wizyjne AI podobno mylą się w pomiarach w 63% przypadków. Każda dobra praktyka mówi: „nie mierz ze zdjęć – klasyfikuj”. Próbowaliśmy obu podejść. Klasyfikacja wymagała ograniczenia naszego generatora obrazów AI do ustalonego katalogu, co zabijało kreatywność. Znaleźliśmy więc trzecią drogę: użyj produktu jako linijki. Każda warstwa naszego modułowego systemu ma dokładnie 12 cm. AI liczy warstwy, my wykonujemy obliczenia, a Ty otrzymujesz wycenę w 5 sekund za 0,001 USD.

Dlaczego wszyscy mówią „AI nie potrafi mierzyć ze zdjęć”?

W 2024 roku badacze z Google opublikowali SpatialVLM – benchmark testujący, jak dobrze modele wizyjno-językowe rozumieją relacje przestrzenne. Wyniki były przygnębiające: podczas szacowania odległości i wymiarów ze zdjęć, najnowocześniejsze modele trafiały w prawidłowy zakres (0,5× do 2× rzeczywistości) tylko w 37,2% przypadków. Prawie dwie trzecie szacunków było błędne o ponad dwukrotność.

Późniejsze badanie, SpatiaLab (2026), potwierdziło, że problem jest głęboki – wcześniejsze benchmarki faktycznie *przeszacowywały*, jak dobrze te modele postrzegają przestrzeń. Rzeczywiste liczby są gorsze.

Fundamentalny problem nazywa się niejednoznacznością monokularną: z pojedynczego obrazu 2D bez punktu odniesienia fizycznie niemożliwe jest odzyskanie absolutnych wymiarów 3D. Doniczka o średnicy 30 cm sfotografowana z bliska wygląda identycznie jak skrzynia o średnicy 3 m sfotografowana z daleka. Żadna ilość danych treningowych tego nie zmieni – to nie ograniczenie AI, to geometria.

A obrazy generowane przez AI utrudniają sprawę jeszcze bardziej. Prawdziwe zdjęcia przynajmniej zawierają metadane EXIF (ogniskowa, rozmiar sensora), które teoretycznie mogłyby stanowić punkt odniesienia dla obliczeń perspektywy. Wygenerowane obrazy nie mają niczego z tego.

Co ciekawe, badania wykazały również, gdzie faktycznie leży wąskie gardło: problem przekazania danych między modułem wizyjnym a językowym. Enkoder wizyjny *faktycznie* poprawnie reprezentuje informacje przestrzenne wewnętrznie – ale model językowy nie potrafi ich wydobyć podczas generowania odpowiedzi tekstowych. Model „widzi” wymiary dokładniej, niż potrafi je „powiedzieć”.

Kiedy więc postanowiliśmy zbudować automatyczne wyceny dla projektów ogrodów generowanych przez AI, konsensus akademicki był jasny: nie mierz, klasyfikuj.

Oto, co robi branża zamiast tego:

Firma Podejście Mierzy ze zdjęć?
Zillow Zestimate Klasyfikuje cechy (granit vs laminat), wykorzystuje dane porównawcze Nie – ponad 1 milion próbek treningowych, tylko klasyfikacja
SimplyWise Klasyfikuje typ projektu → regionalne tabele cenowe Nie – dokładność ±10-15%, brak pomiaru pikseli
Hover 8-10 zdjęć → rekonstrukcja 3D + weryfikacja przez człowieka Tak – ale wymaga wielu kątów i zajmuje ok. 1 godziny
AI Garden Planner, Planner 5D, itp. Tylko wizualizacja – brak wyceny N/A

Nikt w przestrzeni projektowania ogrodów przez AI (rynek o wartości 1,72 miliarda USD, rosnący w tempie 21,4% CAGR) nie oferuje wycen dla generowanych projektów. Ani jeden konkurent. Postanowiliśmy spróbować mimo to.

Jak nasz AI generuje projekty ogrodów (i dlaczego utrudnia to wycenę)

Zanim zagłębimy się w wycenę, warto zrozumieć, co wyceniamy. Nasz AI Garden Designer pozwala użytkownikom przesłać zdjęcie swojego rzeczywistego ogrodu. AI następnie generuje fotorealistyczną wizualizację, jak ta przestrzeń mogłaby wyglądać z modułowymi podwyższonymi grządkami.

Generator obrazów (Gemini Imagen) otrzymuje dwa rodzaje danych wejściowych:

  • Ograniczenia produktu: Trzy zdjęcia referencyjne naszego rzeczywistego systemu Brick – zdjęcia produktu pokazujące konstrukcję z ułożonych desek, narożniki w stylu „log-cabin”, teksturę wietrzonego modrzewiu. Plus szczegółowy opis tekstowy: „grube deski (wysokość 120 mm × grubość 60 mm), ułożone poziomo z przesuniętymi spoinami w każdym rzędzie, jak mur ceglany”.
  • Swoboda twórcza: Wszystko inne – ile struktur, gdzie się znajdują, jakie mają kształty, jak odnoszą się do istniejącego ogrodu. AI decyduje o układzie, rozmieszczeniu, typach grządek. Kształt L otaczający drzewo? Ławka zintegrowana z murem oporowym? Stopnie podążające za nachyleniem terenu? Wszystko zależy od modelu.

Użytkownicy kontrolują suwak gęstości (0-100), który odpowiada mniej więcej 0-20 strukturom. Przy gęstości 25 otrzymujesz naturalny ogród z kilkoma subtelnymi grządkami wciśniętymi między dzikie kwiaty. Przy gęstości 80 otrzymujesz w pełni zorganizowaną przestrzeń życiową na świeżym powietrzu z wyraźnymi strefami połączonymi ścieżkami. AI wybiera, jakie typy struktur pasują do sceny.

Ta swoboda twórcza jest całym celem narzędzia. Nikt nie chce konfiguratora, który za każdym razem generuje te same trzy prostokątne grządki. Ale stwarza to fundamentalny problem z wyceną: każdy wygenerowany obraz jest unikalny. Nie ma predefiniowanego kosztorysu. Brak listy SKU. Tylko fotorealistyczny obraz drewnianych konstrukcji, które mogą być wszystkim, od pojedynczej doniczki po skomplikowany, wielostrefowy ogród.

Jak więc wycenić coś, co jeszcze nie istnieje, na podstawie obrazu wygenerowanego 5 sekund temu?

Próba nr 1: Po prostu poproś AI o wymiary

Nasze pierwsze podejście było najbardziej naiwne: daliśmy Gemini 2.5 Pro wygenerowany obraz ogrodu i poprosiliśmy o oszacowanie wymiarów w metrach.

// Prompt, który wdrożyliśmy do produkcji
Jesteś ekspertem w szacowaniu wymiarów konstrukcji ogrodowych
ze zdjęć.

Dla KAŻDEJ odrębnej drewnianej konstrukcji, którą potrafisz zidentyfikować
(podwyższone grządki, ławki, mury, schody, doniczki),
oszacuj jej wymiary w metrach:
- dlugosc_m: najdłuższy wymiar poziomy
- szerokosc_m: krótszy wymiar poziomy (głębokość)
- wysokosc_m: wymiar pionowy

Zwróć JSON:
{ "structures": [
    { "type": "raised_bed",
      "length_m": 2.0, "width_m": 1.0, "height_m": 0.6 }
]}

Wycena była prostą geometrią – oblicz widoczną powierzchnię ściany i pomnóż przez 125 €/m²:

// Obliczenie powierzchni ściany dla każdego typu konstrukcji:
// podwyższona_grządka: 2 × (długość + szerokość) × wysokość
// mur: 2 × długość × wysokość
// schody: długość × wysokość × 1.5
const wallArea = 2 * (s.length_m + s.width_m) * s.height_m;
const price = wallArea * 125; // EUR za m²

To działało. Lepiej, niż się spodziewaliśmy. Grządka, która miała faktycznie 1,8 m długości, wracała jako 1,4 m lub 2,2 m – poszczególne wymiary były niedokładne, ale geometria kompensowała: gdy długość była przeszacowana, wysokość miała tendencję do niedoszacowania. Szacowana cena końcowa mieściła się w granicach ±20-25% rzeczywistości. Dla darmowego, natychmiastowego szacunku z wygenerowanego obrazu, wydawało się to zaskakująco użyteczne.

Model był szczególnie dobry w liczeniu struktur – jeśli na obrazie znajdowały się 3 podwyższone grządki i ławka, zazwyczaj znajdował 3 podwyższone grządki i ławkę. Rozumiał, jak wygląda nasz system Brick. Wymiary były nieprecyzyjne, ale detekcja struktur była solidna.

Ale potem przeczytaliśmy artykuły. 37,2% dokładności SpatialVLM. Dokumentacja Google ostrzegająca przed pomiarami przestrzennymi z pojedynczych zdjęć. Wątki na Stack Overflow pełne „to jest fundamentalnie niemożliwe”. Przestraszyliśmy się.

„To nie może działać długoterminowo” – powiedzieliśmy sobie. „Po prostu mamy szczęście. Zróbmy to właściwie – tak, jak wszyscy zalecają.”

Próba nr 2: „Właściwy” sposób – Klasyfikacja katalogowa

Zalecane podejście jest jasne: nie mierz, klasyfikuj. Zidentyfikuj typ struktury, przypisz ją do kategorii rozmiaru, wyszukaj stałą cenę. Bez pomiaru, bez niejednoznaczności. Tak robi Zillow. Tak robi SimplyWise. Tak mówią badania.

Pomysł był prosty:

// Klasyfikuj typ struktury + rozmiar → wyszukiwanie stałej ceny
const PRICE_TABLE = {
  raised_bed: { small: 50, medium: 100, large: 180 },
  wall:       { small: 25, medium: 50,  large: 90 },
  bench:      { small: 30, medium: 60,  large: 100 },
  stairs:     { small: 45, medium: 90,  large: 140 },
  planter:    { small: 15, medium: 30,  large: 55 }
};

Ale napotkaliśmy problem, którego nie przewidzieliśmy – i nie miał on nic wspólnego z dokładnością AI.

Nasz generator projektów ogrodów AI tworzy kreatywne projekty. Użytkownik przesyła zdjęcie swojego ogrodu, a Gemini Imagen tworzy unikalną wizualizację z modułowymi podwyższonymi grządkami dopasowanymi do *tej konkretnej przestrzeni*. Generowane struktury są zróżnicowane – kształty L, łuki podążające za ścieżką ogrodową, grządki zintegrowane z pochyłościami, ławki połączone z podwyższonymi grządkami, aranżacje tarasowe zacierające granicę między „schodami” a „murem”.

Aby klasyfikacja katalogowa działała, musielibyśmy ograniczyć generator obrazów. „Generuj tylko te 5 typów. Generuj tylko te 3 rozmiary. Utrzymuj wszystko prostokątne.” To zapewniłoby dokładną wycenę – ale zabiłoby to, co czyni narzędzie wartościowym: kreatywne, spersonalizowane projekty.

Staliśmy przed fundamentalnym kompromisem: dokładna wycena vs. swoboda twórcza w generowanych obrazach.

A nawet gdy próbowaliśmy sprawić, by klasyfikacja działała bez ograniczania generatora, wyniki były słabe:

  • „Mały/Średni/Duży” nic nie znaczyły dla modelu. Bez obiektu referencyjnego na zdjęciu, ta sama grządka była „mała” w jednej analizie i „duża” w następnej. Nie ma fizycznego punktu zaczepienia dla tych słów – „średni” to pojęcie językowe, a nie pomiar.
  • Kreatywne struktury nie pasują do prostych kategorii. Czy grządka w kształcie L to jedna „duża” podwyższona grządka, czy dwie „średnie”? Czy ławka zintegrowana z podwyższoną grządką to „ławka”, czy część grządki? Kategorie były zbyt sztywne dla tego, co faktycznie produkował generator.
  • Znaleźliśmy się w sytuacji, gdy dodawaliśmy obejścia. Rabat za nadmierne liczenie (-15% za każdą strukturę powyżej 3, ponieważ model halucynował dodatkowe elementy). Krok ponownej klasyfikacji. Tabela ręcznych nadpisań. Każde obejście było oznaką, że podejście nie pasuje do naszego przypadku użycia.

Główny problem: wycena katalogowa zakłada istnienie katalogu. Działa dla Zillow, ponieważ domy mają znane typy (ranczo, kolonialny, split-level) z dziesięcioleciami danych porównawczych. Działa dla SimplyWise, ponieważ projekty budowlane odpowiadają standardowym kategoriom. Nasz AI generuje unikalne projekty za każdym razem – nie ma katalogu, do którego można by się odnieść.

Nigdy nie wdrożyliśmy tej wersji. Zamiast tego wróciliśmy do tego, co faktycznie działało – pomiaru – ale z kluczowym spostrzeżeniem.

Próba nr 3: Uczyń produkt linijką

Badania miały rację w jednej kwestii: nie można odzyskać absolutnych wymiarów z pojedynczego obrazu bez punktu odniesienia. Ale myliły się w jednym założeniu – że żaden punkt odniesienia nie istnieje.

Nasz produkt ma wbudowaną linijkę.

System modułowy Brick wykorzystuje deski o grubości 60 mm, które układają się jedna na drugiej. Każda pozioma warstwa – widoczna jako wyraźna linia na każdym wygenerowanym obrazie – ma dokładnie 12 cm (0,12 m) wysokości. Jest to stała fizyczna produktu. Jest taka sama na każdym obrazie, w każdym projekcie, pod każdym kątem. A generator obrazów już o tym wie – każdy prompt określa „system Brick 60 mm”, więc deski są renderowane spójnie.

W wersji 1 zapytaliśmy: „Ile metrów długości ma ta grządka?” – pytanie wymagające rozwiązania problemu niejednoznaczności monokularnej.

W wersji 3 pytamy: „Ile warstw desek widzisz i ile razy ściana jest dłuższa od swojej wysokości?” – pytania wymagające jedynie liczenia i szacowania proporcji. Oba są rzeczami, w których modele wizyjne radzą sobie dobrze.

// Rzeczywisty prompt w produkcji (v3)
ODNIESIENIE SKALI: Każda pozioma warstwa deski = dokładnie 12 cm
(0,12 m) wysokości. Policz warstwy, aby uzyskać wysokość, a następnie oszacuj
długość względem znanej wysokości.

ZMIERZ każdą konstrukcję:
- warstwy: policz widoczne poziome warstwy desek (każda = 12 cm)
- stosunek_dlugosci: ile razy ściana jest dłuższa od swojej wysokości
- widoczne_sciany: ile ścian jest widocznych

SPRAWDŹ: Typowe ogrody mają 2-5 konstrukcji.
Jeśli znalazłeś >6, prawdopodobnie policzyłeś za dużo.

Zwróć JSON:
{"structures": [
  {"reasoning": "Widoczne 4 warstwy poziome, ściana rozciąga się około 3,5x
    wyżej, widoczny przód i bok",
   "type": "raised_bed",
   "layers": 4,
   "length_ratio": 3.5,
   "visible_faces": 2}
]}

Silnik wyceny wykonuje obliczenia:

const LAYER_HEIGHT_M = 0.12;
const PRICE_PER_M2 = 120;

function calculatePrice(structure) {
  const height = structure.layers * LAYER_HEIGHT_M;
  // 4 warstwy = 0,48 m

  const length = height * structure.length_ratio;
  // 0,48 m × 3,5 = 1,68 m

  const faceArea = height * length;
  // 0,48 × 1,68 = 0,81 m²

  const totalM2 = faceArea * structure.visible_faces;
  // 2 ściany = 1,61 m²

  return totalM2 * PRICE_PER_M2;
  // 1,61 × 120 € = 193 €
}

Dlaczego to działa tam, gdzie V1 i V2 zawiodły:

  • Liczenie to coś, w czym modele wizyjne są dobre. Poziome linie w konstrukcjach z ułożonych desek to cechy wizualne o wysokim kontraście i powtarzalności. Liczenie dyskretnych warstw to fundamentalnie coś innego niż szacowanie „ile metrów” – to rozpoznawanie wzorców, a nie rozumowanie przestrzenne.
  • Proporcje są łatwiejsze niż wartości absolutne. „Ta ściana jest około 3,5 razy dłuższa niż wysoka” to ocena proporcji wizualnej. Model nie musi znać absolutnego rozmiaru – tylko kształt. Omija to całkowicie problem niejednoznaczności monokularnej.
  • Odnośnik skali jest prawdziwy. 12 cm na warstwę to nie założenie – to specyfikacja produkcyjna wbudowana zarówno w fizyczny produkt, jak i w prompt generatora obrazów. AI „wie”, jaka jest grubość deski, ponieważ wygenerował obraz z tym ograniczeniem.
  • Zachowana jest swoboda twórcza. W przeciwieństwie do podejścia katalogowego z V2, nie ograniczamy tego, jakie struktury może tworzyć generator. Kształty L, łuki, zintegrowane ławki – wszystko jest dozwolone. Podejście liczenia warstw działa na każdym kształcie, ponieważ mierzy widoczną powierzchnię ściany, a nie predefiniowane kategorie.
  • AI obserwuje, kod oblicza. Podzieliliśmy zadanie na to, co AI robi dobrze (rozpoznawanie wzorców wizualnych) i co kod robi dobrze (arytmetyka). Żadne z nich nie wykonuje pracy drugiego. Pole reasoning zmusza model do opisania tego, co widzi, zanim poda liczby, co ujawnia błędy w logach i utrzymuje wyniki w ryzach.

Co się zmieniło między podejściami

V1: Bezpośredni pomiar V2: Klasyfikacja katalogowa V3: Liczenie warstw
O co pytamy AI „Ile metrów?” „Jaki typ i rozmiar?” „Ile warstw? Jaki stosunek?”
Punkt zaczepienia Brak (zgadywanie) Stały katalog (ograniczający) Warstwa deski 12 cm (fizyczna)
Swoboda twórcza Pełna Ograniczona (wymaga predefiniowanych typów) Pełna
Dokładność ±20-25% (nieprzewidywalna) Niespójna (nigdy nie wdrożono) ±20% (przewidywalna, konserwatywna)
Zakres cenowy ±20% symetryczny Stałe wyszukiwanie (brak zakresu) -20% / +10% (celowo konserwatywny)
Model Gemini 2.5 Pro (~0,005 USD) Gemini 2.5 Flash (~0,001 USD) Gemini 2.5 Flash (~0,001 USD)
Status Działało, ale porzucono po badaniach Nigdy nie wdrożono – zbyt ograniczające W produkcji

Asymetryczny zakres cenowy w V3 zasługuje na uwagę. Celowo skłaniamy się ku niedoszacowaniu: -20% na dole, +10% na górze. Wolimy podać cenę 160-210 € i mieć rzeczywistą cenę 190 €, niż podać 190-250 € i odstraszyć kogoś, zanim nawet zapyta. Lepiej obiecywać mniej, a dostarczać więcej, niż odwrotnie.

Od wygenerowanego obrazu do wyceny w 5 sekund

Oto, co dzieje się po tym, jak użytkownik wygeneruje projekt ogrodu:

Dla zarejestrowanych użytkowników wycena uruchamia się automatycznie – bez klikania przycisku. Wygenerowany obraz jest przeskalowywany do 1024px i wysyłany do drugiego modelu AI (Gemini 2.5 Flash, skonfigurowanego do analizy wizualnej z temperaturą 0,2 dla deterministycznego liczenia). Jest to inne wywołanie modelu niż to, które wygenerowało obraz – generator tworzy, analizator mierzy.

Analizator zwraca JSON z uzasadnieniem dla każdej struktury: „Widoczne 4 warstwy poziome, ściana rozciąga się około 3,5x wyżej, widoczny przód i bok”. Nasz kod mnoży warstwy przez 0,12 m, stosuje stosunek, oblicza m² i sumuje wszystko.

Wynik pojawia się bezpośrednio pod wygenerowanym obrazem – zielony panel z tabelą szczegółowego podziału dla każdej struktury. Każdy wiersz pokazuje: typ struktury, wymiary (wysokość × długość), widoczne ściany, powierzchnię ściany w m² i szacowaną cenę. Suma pokazuje X.XX m² × 120 €/m² z zakresem cenowym w dużym tekście. Bez czarnej skrzynki – użytkownicy mogą zobaczyć dokładnie, jak została obliczona wycena i sami ocenić, czy liczba warstw wygląda poprawnie.

Jednocześnie przychodzi e-mail z tym samym podziałem plus obraz ogrodu. Jeśli użytkownik nie odpowie w ciągu 3 dni, następuje jedno przypomnienie: „Nadal myślisz o swoim ogrodzie?” z przyciskiem do żądania dokładnej wyceny od człowieka. Cały łańcuch – generowanie obrazu do wyceny do e-maila – kosztuje poniżej 0,01 USD.

Ekonomia: 0,135 USD za obraz, 0,001 USD za wycenę

Budowanie narzędzia opartego na AI to jedno. Uczynienie go ekonomicznie zrównoważonym to drugie. Oto, jak wyglądają faktyczne liczby.

Generowanie obrazu kosztuje 0,134 USD za obraz. Używamy modelu obrazów Pro firmy Gemini – najwyższej klasy. Wcześniej próbowaliśmy tańszego modelu Flash. Jakość wyników nie była wystarczająca: tekstury wyglądały płasko, usłojenie drewna było niespójne, proporcje desek Brick dryfowały. W przypadku narzędzia, gdzie jakość wizualna *jest* produktem, oszczędność 60% na kosztach generowania przy jednoczesnym tworzeniu obrazów, które nie wyglądają przekonująco, nie była opłacalnym kompromisem. Tylko Pro, bez alternatywy.

Wycena kosztuje 0,001 USD za wycenę. Tutaj rachunek jest odwrócony – używamy Gemini 2.5 Flash do analizy wizualnej. Liczenie warstw desek i szacowanie proporcji nie wymaga tego samego modelu, który generuje fotorealistyczne obrazy. Flash niezawodnie obsługuje zadania liczenia przy ułamku kosztów. Wybór odpowiedniego modelu do każdego zadania – Pro tam, gdzie liczy się jakość, Flash tam, gdzie liczy się dokładność konkretnego, wąskiego zadania – to różnica między zrównoważonym a niezrównoważonym produktem.

Typowa sesja użytkownika wygląda tak:

Krok Model Koszt
Generowanie projektu ogrodu (×2 za darmo) Gemini Pro (obraz) 0,268 USD
Wycena Gemini 2.5 Flash (wizja) 0,001 USD
Obliczenia cenowe + e-mail Node.js (bez wywołania API) 0,000 USD
Suma na sesję ~0,27 USD

Każdy użytkownik otrzymuje 2 darmowe generacje bez rejestracji. Podanie adresu e-mail odblokowuje kolejne 3 (łącznie 5 dziennie). Poza tym użytkownicy kupują pakiety kredytów – 3 obrazy za 1 € do 50 za 10 €. Przy cenie 0,134 USD za generację, marże wynoszą około 40-60% w zależności od wielkości pakietu.

Sama wycena jest zawsze darmowa – przy cenie 0,001 USD za wycenę, ograniczenie jej płatnym dostępem kosztowałoby więcej utraconego zaangażowania niż zaoszczędziłoby na opłatach API. A matematyka wyceny (warstwy × 0,12 m × stosunek × ściany × 120 €/m²) działa całkowicie w naszym kodzie bez żadnych wywołań API. Gdy Gemini Flash zwróci liczbę warstw, wszystko inne to deterministyczna arytmetyka.

Optymalizujemy również koszty wejściowe na każdym kroku. Przesłane przez użytkownika zdjęcia są wstępnie przetwarzane za pomocą Sharp – przeskalowywane do maksymalnie 2048px i pozbawiane danych EXIF przed wysłaniem do API. W przypadku analizy wyceny, wygenerowany obraz jest dodatkowo kompresowany do JPEG 1024px. Trzy zdjęcia referencyjne produktu są buforowane lokalnie i serwowane z dysku, zamiast pobierania z CDN przy każdym żądaniu. Prompt generowania pozostaje poniżej 150 słów – powyżej 200, model obrazu zaczyna ignorować części instrukcji.

Model Biznesowy: Tracimy pieniądze na generowaniu. I o to chodzi.

Bądźmy szczerzy co do ekonomii. Większość użytkowników generuje 2-5 obrazów, korzystając z darmowego limitu, i nigdy nie kupuje pakietów kredytów. Nieliczni, którzy kupują kredyty, nie pokrywają nawet kosztów API dla wszystkich użytkowników. Na czystych przychodach z generowania działamy ze stratą.

To celowe. AI Garden Designer nie jest produktem – to lejek sprzedażowy.

Oto, co faktycznie otrzymujemy od użytkownika, który generuje projekt ogrodu i podaje swój adres e-mail:

  • Ciepły lead z intencją zakupu. Ktoś, kto przesyła zdjęcie swojego ogrodu, generuje projekt z podwyższonymi grządkami i przegląda wycenę, nie jest przypadkowym przeglądającym. Aktywnie rozważa projekt ogrodowy. To jakośćowo inne niż ktoś, kto kliknął w reklamę.
  • Spersonalizowany punkt odniesienia cenowego. Użytkownik ma teraz w głowie konkretną liczbę – „mój ogród kosztowałby około 350 €”. To znacznie skuteczniejsze niż ogólna strona produktu z cenami desek za sztukę.
  • Wizualizacja, w której już się zakochał. Sam wygenerował projekt. Wybrał gęstość, styl, aranżację. Jest w tym obrazie poczucie własności, którego żadne zdjęcie katalogowe nie może dorównać.

Sekwencja e-maili to wzmacnia. Natychmiast po wygenerowaniu projektu użytkownik otrzymuje e-mail z wyceną, zawierający osadzony obraz jego ogrodu – konkretny projekt, który stworzył, a nie zdjęcie stockowe. E-mail zawiera szczegółowy podział dla każdej struktury (typ, powierzchnia ściany, szacowana cena) i widoczny przycisk do żądania dokładnej wyceny od człowieka.

Jeśli nie odpowiedzą w ciągu trzech dni, przychodzi jedno przypomnienie: „Nadal myślisz o swoim ogrodzie?” – ten sam obraz, ten sam zakres cenowy, ten sam przycisk jednym kliknięciem. Tylko jedno przypomnienie, nie kampania drip. Chcemy być pomocni, a nie irytujący.

Poniżej wygenerowanego projektu na stronie internetowej zawsze znajdują się dwa CTA: link do Konfiguratora 3D, gdzie można określić dokładne wymiary, oraz link do sklepu e-commerce. Podróż od „Ciekawe, jak mógłby wyglądać mój ogród” do „Konfiguruję moje zamówienie” może odbyć się w jednej sesji.

O prywatności: podanie adresu e-mail jest zawsze poprzedzone linkiem do naszej polityki prywatności i jasną informacją, że użytkownicy mogą w każdej chwili zrezygnować z subskrypcji. E-mail z wyceną ma charakter transakcyjny – użytkownik wyraźnie zażądał wyceny. E-maile marketingowe (newsletter) wymagają oddzielnej, wyraźnej zgody zaznaczonej w polu wyboru. Przechowujemy tylko to, co jest potrzebne: e-mail, lokalizację, obraz projektu i podział ceny. Zgodność z RODO to nie tylko wymóg prawny – to jedyny sposób na zbudowanie zaufania z ludźmi, którzy podają Ci swoje dane kontaktowe wraz ze zdjęciem swojego domu.

Większa lekcja: Poproś AI o obserwację, nie o odpowiedź

Błąd w V1 nie polegał na użyciu AI do zadań przestrzennych – polegał na proszeniu modelu o bezpośrednie podanie ostatecznej odpowiedzi. „Ile metrów długości ma to?” wymaga od modelu rozwiązania problemu niejednoznaczności monokularnej, konwersji cech wizualnych na jednostki fizyczne i wyprodukowania skalibrowanej liczby. To trzy trudne problemy nałożone na siebie.

V3 dzieli to na części. „Ile warstw poziomych?” to zadanie liczenia – jedna z najbardziej niezawodnych rzeczy, jakie robią modele wizyjne. „Ile razy dłuższe niż wysokie?” to szacowanie proporcji – również niezawodne, ponieważ stosunki są niezmienne w skali. Konwersja z warstw na metry i z proporcji na wymiary absolutne to deterministyczny kod ze znaną stałą fizyczną.

Ta sama zasada dotyczy innych zastosowań:

  • Nie pytaj „jak wysoki jest ten budynek?” – zapytaj „ile pięter?” i pomnóż przez standardową wysokość piętra.
  • Nie pytaj „jak szeroki jest ten pokój?” – zapytaj „ile płytek w poprzek?” i pomnóż przez rozmiar płytki.
  • Nie pytaj „jak długie jest to ogrodzenie?” – zapytaj „ile słupków?” i pomnóż przez standardowy rozstaw.

Jeśli Twój produkt lub scena zawiera jakikolwiek powtarzalny, widoczny, spójny wymiarowo element, masz już linijkę. Nie potrzebujesz AI do mierzenia – potrzebujesz tylko, żeby policzyła.

Wypróbuj sam

Prześlij zdjęcie swojego ogrodu, pozwól AI zaprojektować go z modułowymi podwyższonymi grządkami i uzyskaj natychmiastową wycenę. Cały proces zajmuje około 30 sekund. Projekt i wycena są darmowe.

Uzyskaj wycenę w 30 sekund

Prześlij zdjęcie → AI generuje projekt Twojego ogrodu → natychmiastowy podział ceny.

Wypróbuj AI Garden Designer Lub użyj konfiguratora 3D

Często zadawane pytania

Jak dokładne są szacunki cenowe AI z obrazów ogrodów?

Nasz system osiąga około ±20% dokładności, z celowo konserwatywnym asymetrycznym zakresem (-20%/+10%). Oznacza to, że szacunki mają tendencję do bycia nieco niższymi niż rzeczywista cena, a nie wyższymi – wolimy obiecywać mniej niż przeszacowywać.

Jakiego modelu AI używa się do szacowania cen?

Używamy Gemini 2.5 Flash firmy Google do analizy wizualnej. Każda wycena kosztuje około 0,001 USD (jedna dziesiąta centa). Przeszliśmy z droższego Gemini 2.5 Pro po stwierdzeniu, że Flash działa porównywalnie w naszym specyficznym przypadku użycia liczenia warstw konstrukcyjnych.

Czy AI naprawdę potrafi mierzyć wymiary z pojedynczego zdjęcia?

Nie bezpośrednio – badania pokazują, że modele wizyjne AI mylą się w pomiarach absolutnych w 63% przypadków. Nasze podejście omija ten problem, wykorzystując strukturę produktu (12 cm warstwy desek) jako wbudowane odniesienie skali. AI liczy warstwy i szacuje proporcje, a następnie nasz kod wykonuje obliczenia.

Dlaczego nie użyć GPT-4 Vision zamiast Gemini?

Gemini Flash jest około 4x tańszy przy porównywalnej wydajności rozumowania przestrzennego w naszym specyficznym przypadku użycia. Ponieważ wykonujemy jedno wywołanie API na wycenę, koszt wywołania ma znaczenie – przy 0,001 USD za każde, możemy oferować nieograniczone darmowe wyceny.

Czy to podejście może działać dla innych produktów?

Tak – jeśli Twój produkt ma jakikolwiek znany, widoczny, spójny wymiarowo element, który pojawia się na zdjęciach. Warstwy cegieł w murze, płytki podłogowe, standardowe szerokości drewna, pustaki – wszystko, co ma stały wymiar rzeczywisty, który AI może policzyć, może służyć jako odniesienie skali.

Czy szacunek ceny jest wiążącą ofertą?

Nie, jest to orientacyjny szacunek pomagający w planowaniu. Możesz poprosić o dokładną wycenę jednym kliknięciem – człowiek sprawdzi projekt i poda precyzyjną cenę w ciągu 24 godzin.

Powrót do blogu