AI Gateway — BYOK proxy az OpenAI / Anthropic / Gemini előtt
Cache + analytics + rate-limit a saját LLM-API-id előtt, BYOK módon. 30-50% token-spórolás cache-szel, magyar UX, NAV-számla.
Ha kkv-ként már használsz OpenAI, Anthropic, vagy Gemini API-kat (havi 100k+ Ft számlával), az AI Gateway plugin 30-50% token-spórolást ad cache-szel: azonos prompt → cached válasz, 0 token-költség.
1. Hogyan működik?
A saját API-kulcsod nem kerül hozzánk — a kliens-szoftvered közvetlenül Cloudflare-AI Gateway-re küldi. Mi csak proxy-zunk + cache-elünk + analytics-ezünk.
[saját Worker / app] ──[saját OpenAI-kulcs]──> [PromNET-AI-Gateway] ──> [OpenAI]
│
▼
[/app/ai-gateway/{id}]
(cache-hit-rate, costs, latency)
2. Aktiválás
/app/plugins → AI Gateway proxy → ”+ Aktiválom”. Free-tier: 1 gateway. Start (1990 Ft): 5. Pro (4990 Ft): 25.
3. Új gateway
/app/ai-gateway → ”➕ Új gateway”:
- Név — UI-only (pl. “Production OpenAI”)
- Slug — URL-ben szerepel (
prod-openai) - Cache TTL — 0 = no-cache, default 3600 mp (1 óra)
- Rate-limit (RPM) — opcionális per-minute cap
- Spend-cap (Ft/hó) — riasztás-küszöb
4. Kliens-konfiguráció
Az endpoint-URL formátuma:
https://gateway.ai.cloudflare.com/v1/<account_id>/<gateway_slug>/<provider>/<api-path>
OpenAI Python-SDK példa:
from openai import OpenAI
client = OpenAI(
api_key="sk-... (saját OpenAI-kulcsod)",
base_url="https://gateway.ai.cloudflare.com/v1/<account_id>/<slug>/openai",
)
client.chat.completions.create(model="gpt-4o-mini", messages=[...])
Anthropic:
import anthropic
client = anthropic.Anthropic(
api_key="sk-ant-...",
base_url="https://gateway.ai.cloudflare.com/v1/<account_id>/<slug>/anthropic",
)
Vertex / Gemini / Workers AI / Mistral / Cohere — ugyanígy, csak a <provider>
szakasz cseréljen.
5. Analytics
A /app/ai-gateway/{id} oldalon (max 1000 utolsó request):
- Request-szám + success/error breakdown
- Cache hit-rate (a fő spórolás-mutató)
- Token-IO (in / out)
- Avg latency (ms)
- Total cost (USD, CF-becslés)
Period-switcher: 1 nap / 7 nap / 30 nap.
6. Mire való?
- 30-50% spórolás cache-szel: 100× azonos prompt → 1× pay, 99× cached
- Spend-monitoring: 1 fejlesztő bug-os kód-dal végtelen-loop-ba kerül → riasztunk a spend-cap-nél
- Per-model analytics: melyik model mennyibe kerül, mi a latency, mi a hibarata
- BYOK biztonság: a saját kulcsod sosem jön hozzánk — a kliens közvetlenül CF-re küldi
7. Multi-provider váltás
Mivel az endpoint-URL provider-független, könnyen összehasonlíthatod a providereket:
- A/B test két provider között
- Fallback: ha OpenAI 429, automatikusan Anthropic-ra
- Cost-comparison: ugyanaz a prompt-szet 3 providerre, dashboard
8. Törlés
A “Törlés” gombbal a gateway megszűnik a CF-en is. Az analytics-history elvész.