2026. május 8. · #ai-gateway #cost-saving #openai #tutorial #developer
AI Gateway: 30-50% spórolás OpenAI-számládon, egy sornyi kód-csere alatt
Cache, rate-limit, fallback, logging — a Cloudflare AI Gateway proxy-réteg a OpenAI / Anthropic / Google hívásaid előtt. Ismétlődő promptok cache-ből jönnek, és a számládat hónapokban félbevágja.
Ha havi 100+ USD-t költesz OpenAI-, Anthropic-, vagy Google-API-ra, és nem használsz cache-elési-réteget — bizonyítottan túlfizetsz 30-50%-ot. Az AI Gateway plugin egy proxy-réteg, ami ugyanazt a promptot 2× nem fizeti ki. Ebben a posztban arról, hogy hogyan működik, mennyit spórol, és mi a setup.
⚠️ A klasszikus probléma
Tegyük fel, hogy van egy SaaS-od, ami GPT-4-tel generál termék-leírásokat. A felhasználó beír egy nevet (“bio méz, 250 g”), és egy 200-szavas leírás jön ki.
Mit nem veszel észre:
- ❌ Sok felhasználó UGYANAZT írja be (“bio méz”, “kávé”, “cipő”)
- ❌ Az OpenAI minden alkalommal lefizeti a teljes promptot + a választ (tokens × model-ár)
- ❌ A válaszok 80%-a hasonló — nincs értelme újraszámolni
Konkrét számolás GPT-4-Turbo-val:
| Tétel | Érték |
|---|---|
| Felhasználói prompt | ~50 token |
| Output | ~250 token |
| Cost per call | ~$0.008 |
| Hívások / nap | 1000 |
| Havi költség | ~$240 |
⚠️ Ha a hívások 50%-a ismétlődő prompt — havi $120 a kuka.
💡 Az AI Gateway megoldása
Az AI Gateway egy proxy — átveszi az OpenAI-hívásaidat, cache-eli az ismétlődő promptokat, és csak az új promptokat továbbítja.
flowchart LR
A[A te kódod] -->|OpenAI SDK| B[AI Gateway]
B -->|cache-hit| C[(Cache <10ms)]
B -->|cache-miss| D[OpenAI API]
D -->|response| E[Log + Cache write]
E --> A
C --> A
Mit nyersz?
- ⚡ Cache-hit → válasz <10 ms latency, 0 USD cost
- 📊 Cache-miss → normál OpenAI-call, de logolva
- ⚠️ Rate-limit → saját napi/havi költés-cap
- ✅ Fallback → ha az OpenAI-down, automatikus Anthropic-átkapcsolás
- 📊 Audit-trail — minden request láthatóan, debugolható
🎨 A /app/ai-gateway UI
Magyar UI-on:
[itt screenshot — AI Gateway dashboard, cost-grafikon]
Komponensek:
- Új gateway gomb
- Provider-választás — OpenAI / Anthropic / Google / Mistral / Workers AI
- Cache-policy:
aggressive— minden response cache-elve 1 óramoderate(default) — exact-match prompts cache-elve 1 óradisabled— nincs cache
- Rate-limit — max XY USD / nap, max XY req / perc
- Fallback-chain — ha primary fail, kapcsolj Y-ra
A “Mentés” után kapsz egy gateway-URL-t:
https://gateway.ai.cloudflare.com/v1/<account_id>/<gateway_name>/openai
Ezt használod az api.openai.com helyett a kódodban.
📝 Példa — egy sornyi cserélés
Régi kód:
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY,
});
// hívás:
const response = await openai.chat.completions.create({
model: "gpt-4-turbo",
messages: [{ role: "user", content: "Írj egy termék-leírást..." }],
});
Új kód:
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY,
baseURL: process.env.AI_GATEWAY_URL, // <-- EZ AZ EGY SOR
});
// hívás:
const response = await openai.chat.completions.create({
model: "gpt-4-turbo",
messages: [{ role: "user", content: "Írj egy termék-leírást..." }],
});
✅ Egyetlen sor változott. A cache, rate-limit, log automatikusan működik. A Gateway URL-t a
/app/ai-gateway/<id>oldalról másolod ki.
✅ Példa — fallback-chain
Tegyük fel, hogy az OpenAI 2 órája down (ez megtörténik, néha többször évente). Eddig a saját SaaS-od is down volt erre az időre. Az AI Gateway-szel: automatikusan Anthropic-ra kapcsol, és a felhasználó nem veszi észre.
Konfig:
# /app/ai-gateway/<id> UI-on:
primary: openai
fallback_1: anthropic (claude-3-5-sonnet)
fallback_2: workers-ai (llama-3.3-70b)
Sorrend:
- Primary OpenAI — ha fennakadás (5xx, timeout), megy fallback-1
- Anthropic Claude — ha az is fail, megy fallback-2
- Workers AI Llama — utolsó-eset, biztos hogy fut (CF-en belül)
A modelleknek hasonló prompt-formátum kell, de a Gateway a header-fordítást automatikusan intézi (OpenAI-formátum → Anthropic-formátum).
📊 A Cost-grafikon
A /app/ai-gateway/<id>/stats oldalon valós-idejű cost-tracking:
[itt screenshot — cost-grafikon, cache-hit-rate-grafikon]
- Total cost (havi USD)
- Cache-hit rate (%) — mennyi pénzt spórolsz cache-szel
- Top promptok — melyik típusú prompt fut a legtöbbször
- Error-rate — melyik provider hibázik a leggyakrabban
Példa-felhasználó dashboardján:
| Hónap | Cost (without GW) | Cost (with GW) | Cache-hit-rate | Megtakarítás |
|---|---|---|---|---|
| Jan 2026 | $240 | $240 | 0% (frissen indult) | $0 |
| Feb 2026 | $240 | $148 | 38% | $92 |
| Mar 2026 | $240 | $115 | 52% | $125 |
| Apr 2026 | $240 | $98 | 59% | $142 |
💡 Tipp: A cache-hit-rate fokozatosan nő, ahogy a userbase több ismétlődő promptot generál. Stabil-állapotban 40-60% hit-rate reális.
⚠️ A Rate-limit
Egy másik kritikus funkció: napi/havi költés-cap. Ha valaki véletlenül egy infinite-loop-ot ír, ami percenként 100 OpenAI-callt csinál, tönkre tudja menni a hónapod. Eddig a védelem: te 24/7 figyelsz.
Az AI Gateway-szel:
# /app/ai-gateway/<id> UI-on:
max_cost_per_day: $20
max_cost_per_month: $300
max_req_per_minute: 60
max_req_per_user: 100 # per Authorization-header
✅ Eredmény: ha a limit elérve, a Gateway 429-et ad vissza, az OpenAI-felé nem megy hívás — a számládat NEM növeli.
❌ Mire NEM jó az AI Gateway?
| Szituáció | Cache-példa | Cache OK? |
|---|---|---|
| ❌ Stochastic-text (kreatív) | “Írj egy verset”-prompt | NEM — minden vers más |
| ⚠️ Real-time chatbot | Felhasználó-specifikus kontextus | Részben (rövid TTL) |
| ⚠️ Tool-call (függvényhívás) | Strukturált | Részben |
| ✅ Determinisztikus | ”Mi a 2 + 2?” | Igen |
| ✅ Termék-leírás (sablon) | “bio méz” → kész leírás | Igen (fő use-case) |
| ✅ Fordítás (ismétlődő szöveg) | “Hello” → “Szia” | Igen |
💡 A szabály: ha ugyanaz a prompt ugyanazt a választ várja, cache-eld. Ha minden output kreatív, ne cache-eld.
🔒 Adatvédelem
Az AI Gateway Európában fut (CF EU-régiók). A request-payload a saját CF-account-odban logolódik (te látod, én nem, a CF nem tanítja). A logok 30 napig maradnak (alapértelmezett), után törlődnek.
⚠️ GDPR-figyelem: az AI Gateway nem ment PII-t külön, ami a request body-ban volt — az a cache-be is bekerül 1 órára. Ha a felhasználói promptban van személyes adat (pl. név, email), gondoskodj a redactálásról kliensoldalon.
A /sugo/ai/gateway-pii cikk a részletes guide.
💰 Pricing
A CF AI Gateway ingyenes a CF-Workers-csomagban. Nem számláz extra-USD-t — csak az alatta levő OpenAI/Anthropic/Google-cost a tényleges kiadás. A megtakarítás 100%-ban a tied.
PromNET-oldalról:
| Tétel | Költség |
|---|---|
| Gateway-alap | 0 — beépítve a fiókodba |
| Cache-storage | 0.05 USD / GB / hó (jelentéktelen) |
| Log-storage | 0.05 USD / GB / hó (30 nap retention) |
✅ Egyetlen vásárlás és azonnal megtérül.
🚀 Hogyan kezdj?
- /app/ai-gateway/uj → új gateway
- Provider kiválaszt (OpenAI legtöbb-eset)
- Cache-policy = moderate (default)
- Mentés → másold a Gateway URL-t
- A kódodban:
baseURL: process.env.AI_GATEWAY_URLegy sor csere - Deploy és vissza nézd a stats-ot 1 hét múlva
🔮 Mi jön ezután?
- Q2 2026 — Per-user cost-tracking (melyik felhasználó mennyit fogyaszt)
- Q2 2026 — Smart cache-keying (semantic-similarity, nem csak exact-match)
- Q3 2026 — Cost-alert (Slack/Email-notification ha túllépsz egy küszöböt)
- Q3 2026 — Multi-region failover
🎯 Próbáld ki
/app/ai-gateway — 5 perc setup, azonnali spórolás. Kérdés: /community/ai vagy /app/support.
Polyák Csaba
© 2026 PromNET — Polyák Csaba. ← Vissza a blog-ra
Betöltés…