AI Gateway — BYOK proxy az OpenAI / Anthropic / Gemini előtt

Cache + analytics + rate-limit a saját LLM-API-id előtt, BYOK módon. 30-50% token-spórolás cache-szel, magyar UX, NAV-számla.

Ha kkv-ként már használsz OpenAI, Anthropic, vagy Gemini API-kat (havi 100k+ Ft számlával), az AI Gateway plugin 30-50% token-spórolást ad cache-szel: azonos prompt → cached válasz, 0 token-költség.

1. Hogyan működik?

A saját API-kulcsod nem kerül hozzánk — a kliens-szoftvered közvetlenül Cloudflare-AI Gateway-re küldi. Mi csak proxy-zunk + cache-elünk + analytics-ezünk.

[saját Worker / app]  ──[saját OpenAI-kulcs]──>  [PromNET-AI-Gateway]  ──>  [OpenAI]
                                                       │
                                                       ▼
                                                 [/app/ai-gateway/{id}]
                                                 (cache-hit-rate, costs, latency)

2. Aktiválás

/app/plugins → AI Gateway proxy → ”+ Aktiválom”. Free-tier: 1 gateway. Start (1990 Ft): 5. Pro (4990 Ft): 25.

3. Új gateway

/app/ai-gateway → ”➕ Új gateway”:

Név — UI-only (pl. “Production OpenAI”)
Slug — URL-ben szerepel (prod-openai)
Cache TTL — 0 = no-cache, default 3600 mp (1 óra)
Rate-limit (RPM) — opcionális per-minute cap
Spend-cap (Ft/hó) — riasztás-küszöb

4. Kliens-konfiguráció

Az endpoint-URL formátuma:

https://gateway.ai.cloudflare.com/v1/<account_id>/<gateway_slug>/<provider>/<api-path>

OpenAI Python-SDK példa:

from openai import OpenAI
client = OpenAI(
    api_key="sk-... (saját OpenAI-kulcsod)",
    base_url="https://gateway.ai.cloudflare.com/v1/<account_id>/<slug>/openai",
)
client.chat.completions.create(model="gpt-4o-mini", messages=[...])

Anthropic:

import anthropic
client = anthropic.Anthropic(
    api_key="sk-ant-...",
    base_url="https://gateway.ai.cloudflare.com/v1/<account_id>/<slug>/anthropic",
)

Vertex / Gemini / Workers AI / Mistral / Cohere — ugyanígy, csak a <provider> szakasz cseréljen.

5. Analytics

A /app/ai-gateway/{id} oldalon (max 1000 utolsó request):

Request-szám + success/error breakdown
Cache hit-rate (a fő spórolás-mutató)
Token-IO (in / out)
Avg latency (ms)
Total cost (USD, CF-becslés)

Period-switcher: 1 nap / 7 nap / 30 nap.

6. Mire való?

30-50% spórolás cache-szel: 100× azonos prompt → 1× pay, 99× cached
Spend-monitoring: 1 fejlesztő bug-os kód-dal végtelen-loop-ba kerül → riasztunk a spend-cap-nél
Per-model analytics: melyik model mennyibe kerül, mi a latency, mi a hibarata
BYOK biztonság: a saját kulcsod sosem jön hozzánk — a kliens közvetlenül CF-re küldi

7. Multi-provider váltás

Mivel az endpoint-URL provider-független, könnyen összehasonlíthatod a providereket:

A/B test két provider között
Fallback: ha OpenAI 429, automatikusan Anthropic-ra
Cost-comparison: ugyanaz a prompt-szet 3 providerre, dashboard

8. Törlés

A “Törlés” gombbal a gateway megszűnik a CF-en is. Az analytics-history elvész.

← AI integráció Frissítve: 2026. 05. 07.