2026. május 8. · #ai-gateway #cost-saving #openai #tutorial #developer

AI Gateway: 30-50% spórolás OpenAI-számládon, egy sornyi kód-csere alatt

Cache, rate-limit, fallback, logging — a Cloudflare AI Gateway proxy-réteg a OpenAI / Anthropic / Google hívásaid előtt. Ismétlődő promptok cache-ből jönnek, és a számládat hónapokban félbevágja.

Ha havi 100+ USD-t költesz OpenAI-, Anthropic-, vagy Google-API-ra, és nem használsz cache-elési-réteget — bizonyítottan túlfizetsz 30-50%-ot. Az AI Gateway plugin egy proxy-réteg, ami ugyanazt a promptot 2× nem fizeti ki. Ebben a posztban arról, hogy hogyan működik, mennyit spórol, és mi a setup.

⚠️ A klasszikus probléma

Tegyük fel, hogy van egy SaaS-od, ami GPT-4-tel generál termék-leírásokat. A felhasználó beír egy nevet (“bio méz, 250 g”), és egy 200-szavas leírás jön ki.

Mit nem veszel észre:

❌ Sok felhasználó UGYANAZT írja be (“bio méz”, “kávé”, “cipő”)
❌ Az OpenAI minden alkalommal lefizeti a teljes promptot + a választ (tokens × model-ár)
❌ A válaszok 80%-a hasonló — nincs értelme újraszámolni

Konkrét számolás GPT-4-Turbo-val:

Tétel	Érték
Felhasználói prompt	~50 token
Output	~250 token
Cost per call	~$0.008
Hívások / nap	1000
Havi költség	~$240

⚠️ Ha a hívások 50%-a ismétlődő prompt — havi $120 a kuka.

💡 Az AI Gateway megoldása

Az AI Gateway egy proxy — átveszi az OpenAI-hívásaidat, cache-eli az ismétlődő promptokat, és csak az új promptokat továbbítja.

flowchart LR
    A[A te kódod] -->|OpenAI SDK| B[AI Gateway]
    B -->|cache-hit| C[(Cache &lt;10ms)]
    B -->|cache-miss| D[OpenAI API]
    D -->|response| E[Log + Cache write]
    E --> A
    C --> A

Mit nyersz?

⚡ Cache-hit → válasz <10 ms latency, 0 USD cost
📊 Cache-miss → normál OpenAI-call, de logolva
⚠️ Rate-limit → saját napi/havi költés-cap
✅ Fallback → ha az OpenAI-down, automatikus Anthropic-átkapcsolás
📊 Audit-trail — minden request láthatóan, debugolható

🎨 A `/app/ai-gateway` UI

Magyar UI-on:

[itt screenshot — AI Gateway dashboard, cost-grafikon]

Komponensek:

Új gateway gomb
Provider-választás — OpenAI / Anthropic / Google / Mistral / Workers AI
Cache-policy:
- aggressive — minden response cache-elve 1 óra
- moderate (default) — exact-match prompts cache-elve 1 óra
- disabled — nincs cache
Rate-limit — max XY USD / nap, max XY req / perc
Fallback-chain — ha primary fail, kapcsolj Y-ra

A “Mentés” után kapsz egy gateway-URL-t:

https://gateway.ai.cloudflare.com/v1/<account_id>/<gateway_name>/openai

Ezt használod az api.openai.com helyett a kódodban.

📝 Példa — egy sornyi cserélés

Régi kód:

import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY,
});

// hívás:
const response = await openai.chat.completions.create({
  model: "gpt-4-turbo",
  messages: [{ role: "user", content: "Írj egy termék-leírást..." }],
});

Új kód:

import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY,
  baseURL: process.env.AI_GATEWAY_URL,  // <-- EZ AZ EGY SOR
});

// hívás:
const response = await openai.chat.completions.create({
  model: "gpt-4-turbo",
  messages: [{ role: "user", content: "Írj egy termék-leírást..." }],
});

✅ Egyetlen sor változott. A cache, rate-limit, log automatikusan működik. A Gateway URL-t a /app/ai-gateway/<id> oldalról másolod ki.

✅ Példa — fallback-chain

Tegyük fel, hogy az OpenAI 2 órája down (ez megtörténik, néha többször évente). Eddig a saját SaaS-od is down volt erre az időre. Az AI Gateway-szel: automatikusan Anthropic-ra kapcsol, és a felhasználó nem veszi észre.

Konfig:

# /app/ai-gateway/<id> UI-on:
primary: openai
fallback_1: anthropic (claude-3-5-sonnet)
fallback_2: workers-ai (llama-3.3-70b)

Sorrend:

Primary OpenAI — ha fennakadás (5xx, timeout), megy fallback-1
Anthropic Claude — ha az is fail, megy fallback-2
Workers AI Llama — utolsó-eset, biztos hogy fut (CF-en belül)

A modelleknek hasonló prompt-formátum kell, de a Gateway a header-fordítást automatikusan intézi (OpenAI-formátum → Anthropic-formátum).

📊 A Cost-grafikon

A /app/ai-gateway/<id>/stats oldalon valós-idejű cost-tracking:

[itt screenshot — cost-grafikon, cache-hit-rate-grafikon]

Total cost (havi USD)
Cache-hit rate (%) — mennyi pénzt spórolsz cache-szel
Top promptok — melyik típusú prompt fut a legtöbbször
Error-rate — melyik provider hibázik a leggyakrabban

Példa-felhasználó dashboardján:

Hónap	Cost (without GW)	Cost (with GW)	Cache-hit-rate	Megtakarítás
Jan 2026	$240	$240	0% (frissen indult)	$0
Feb 2026	$240	$148	38%	$92
Mar 2026	$240	$115	52%	$125
Apr 2026	$240	$98	59%	$142

💡 Tipp: A cache-hit-rate fokozatosan nő, ahogy a userbase több ismétlődő promptot generál. Stabil-állapotban 40-60% hit-rate reális.

⚠️ A Rate-limit

Egy másik kritikus funkció: napi/havi költés-cap. Ha valaki véletlenül egy infinite-loop-ot ír, ami percenként 100 OpenAI-callt csinál, tönkre tudja menni a hónapod. Eddig a védelem: te 24/7 figyelsz.

Az AI Gateway-szel:

# /app/ai-gateway/<id> UI-on:
max_cost_per_day: $20
max_cost_per_month: $300
max_req_per_minute: 60
max_req_per_user: 100  # per Authorization-header

✅ Eredmény: ha a limit elérve, a Gateway 429-et ad vissza, az OpenAI-felé nem megy hívás — a számládat NEM növeli.

❌ Mire NEM jó az AI Gateway?

Szituáció	Cache-példa	Cache OK?
❌ Stochastic-text (kreatív)	“Írj egy verset”-prompt	NEM — minden vers más
⚠️ Real-time chatbot	Felhasználó-specifikus kontextus	Részben (rövid TTL)
⚠️ Tool-call (függvényhívás)	Strukturált	Részben
✅ Determinisztikus	”Mi a 2 + 2?”	Igen
✅ Termék-leírás (sablon)	“bio méz” → kész leírás	Igen (fő use-case)
✅ Fordítás (ismétlődő szöveg)	“Hello” → “Szia”	Igen

💡 A szabály: ha ugyanaz a prompt ugyanazt a választ várja, cache-eld. Ha minden output kreatív, ne cache-eld.

🔒 Adatvédelem

Az AI Gateway Európában fut (CF EU-régiók). A request-payload a saját CF-account-odban logolódik (te látod, én nem, a CF nem tanítja). A logok 30 napig maradnak (alapértelmezett), után törlődnek.

⚠️ GDPR-figyelem: az AI Gateway nem ment PII-t külön, ami a request body-ban volt — az a cache-be is bekerül 1 órára. Ha a felhasználói promptban van személyes adat (pl. név, email), gondoskodj a redactálásról kliensoldalon.

A /sugo/ai/gateway-pii cikk a részletes guide.

💰 Pricing

A CF AI Gateway ingyenes a CF-Workers-csomagban. Nem számláz extra-USD-t — csak az alatta levő OpenAI/Anthropic/Google-cost a tényleges kiadás. A megtakarítás 100%-ban a tied.

PromNET-oldalról:

Tétel	Költség
Gateway-alap	0 — beépítve a fiókodba
Cache-storage	0.05 USD / GB / hó (jelentéktelen)
Log-storage	0.05 USD / GB / hó (30 nap retention)

✅ Egyetlen vásárlás és azonnal megtérül.

🚀 Hogyan kezdj?

/app/ai-gateway/uj → új gateway
Provider kiválaszt (OpenAI legtöbb-eset)
Cache-policy = moderate (default)
Mentés → másold a Gateway URL-t
A kódodban: baseURL: process.env.AI_GATEWAY_URL egy sor csere
Deploy és vissza nézd a stats-ot 1 hét múlva

🔮 Mi jön ezután?

Q2 2026 — Per-user cost-tracking (melyik felhasználó mennyit fogyaszt)
Q2 2026 — Smart cache-keying (semantic-similarity, nem csak exact-match)
Q3 2026 — Cost-alert (Slack/Email-notification ha túllépsz egy küszöböt)
Q3 2026 — Multi-region failover

🎯 Próbáld ki

/app/ai-gateway — 5 perc setup, azonnali spórolás. Kérdés: /community/ai vagy /app/support.

Polyák Csaba