PromNET

SÚGÓ AI integráció

AI Gateway — BYOK proxy az OpenAI / Anthropic / Gemini előtt

Cache + analytics + rate-limit a saját LLM-API-id előtt, BYOK módon. 30-50% token-spórolás cache-szel, magyar UX, NAV-számla.


Ha kkv-ként már használsz OpenAI, Anthropic, vagy Gemini API-kat (havi 100k+ Ft számlával), az AI Gateway plugin 30-50% token-spórolást ad cache-szel: azonos prompt → cached válasz, 0 token-költség.

1. Hogyan működik?

A saját API-kulcsod nem kerül hozzánk — a kliens-szoftvered közvetlenül Cloudflare-AI Gateway-re küldi. Mi csak proxy-zunk + cache-elünk + analytics-ezünk.

[saját Worker / app]  ──[saját OpenAI-kulcs]──>  [PromNET-AI-Gateway]  ──>  [OpenAI]


                                                 [/app/ai-gateway/{id}]
                                                 (cache-hit-rate, costs, latency)

2. Aktiválás

/app/plugins → AI Gateway proxy → ”+ Aktiválom”. Free-tier: 1 gateway. Start (1990 Ft): 5. Pro (4990 Ft): 25.

3. Új gateway

/app/ai-gateway → ”➕ Új gateway”:

  • Név — UI-only (pl. “Production OpenAI”)
  • Slug — URL-ben szerepel (prod-openai)
  • Cache TTL — 0 = no-cache, default 3600 mp (1 óra)
  • Rate-limit (RPM) — opcionális per-minute cap
  • Spend-cap (Ft/hó) — riasztás-küszöb

4. Kliens-konfiguráció

Az endpoint-URL formátuma:

https://gateway.ai.cloudflare.com/v1/<account_id>/<gateway_slug>/<provider>/<api-path>

OpenAI Python-SDK példa:

from openai import OpenAI
client = OpenAI(
    api_key="sk-... (saját OpenAI-kulcsod)",
    base_url="https://gateway.ai.cloudflare.com/v1/<account_id>/<slug>/openai",
)
client.chat.completions.create(model="gpt-4o-mini", messages=[...])

Anthropic:

import anthropic
client = anthropic.Anthropic(
    api_key="sk-ant-...",
    base_url="https://gateway.ai.cloudflare.com/v1/<account_id>/<slug>/anthropic",
)

Vertex / Gemini / Workers AI / Mistral / Cohere — ugyanígy, csak a <provider> szakasz cseréljen.

5. Analytics

A /app/ai-gateway/{id} oldalon (max 1000 utolsó request):

  • Request-szám + success/error breakdown
  • Cache hit-rate (a fő spórolás-mutató)
  • Token-IO (in / out)
  • Avg latency (ms)
  • Total cost (USD, CF-becslés)

Period-switcher: 1 nap / 7 nap / 30 nap.

6. Mire való?

  • 30-50% spórolás cache-szel: 100× azonos prompt → 1× pay, 99× cached
  • Spend-monitoring: 1 fejlesztő bug-os kód-dal végtelen-loop-ba kerül → riasztunk a spend-cap-nél
  • Per-model analytics: melyik model mennyibe kerül, mi a latency, mi a hibarata
  • BYOK biztonság: a saját kulcsod sosem jön hozzánk — a kliens közvetlenül CF-re küldi

7. Multi-provider váltás

Mivel az endpoint-URL provider-független, könnyen összehasonlíthatod a providereket:

  • A/B test két provider között
  • Fallback: ha OpenAI 429, automatikusan Anthropic-ra
  • Cost-comparison: ugyanaz a prompt-szet 3 providerre, dashboard

8. Törlés

A “Törlés” gombbal a gateway megszűnik a CF-en is. Az analytics-history elvész.


← AI integráció Frissítve: 2026. 05. 07.