2026. május 8. · #vectorize #ai #rag #tutorial #product-update

Vectorize: szemantikus kereső a saját dokumentumaidon — RAG-as-a-service magyarul

PDF-jeidet, Word-jeidet, fórum-archívumodat feltöltöd, és magyarul kérdezel rájuk. Ügyvédnek, tanácsadónak, oktatónak, könyvelőnek — a saját szakmai tudásod kereshetővé téve. Cloudflare Vectorize, magyar UI.

Ha egyszer is kerestél egy 5 éves szerződésben egy konkrét passzust, és nem találtad meg, mert nem emlékeztél a pontos szóra csak a jelentésére — a Vectorize neked szól. Ebben a posztban arról, hogy mit csinál, mire jó, és hogyan tölthetsz fel az első dokumentumodat 5 perc alatt.

⚠️ A probléma: a “Ctrl+F” nem érti a szándékot

Klasszikus szöveg-kereső (Word “Search”, Adobe Reader “Find”, Gmail “szűrő”) a karakter-egyezést keresi. Ha “felmondási idő” volt írva a szerződésben, de te most “felbontási feltétel”-re emlékszel — nem találod meg.

A magyar SMB-vállalkozó — ügyvéd, könyvelő, oktató, tanácsadó — éves szinten több száz PDF-et generál. Szerződések, jelentések, e-mail-mellékletek, jegyzőkönyvek. Mind nyelvileg gazdag, mind szemantikailag rétegzett, és mind elveszik a fájlrendszer mélyén egy év alatt.

💡 A megoldás a szemantikus keresés: a kérdést és a dokumentumot vektor-térbe vetíted, és a közelség alapján keresel — jelentés szerint, nem szó-szerint.

🔧 Hogyan működik a Vectorize?

flowchart LR
    A[PDF / Word / MD<br/>feltöltés] --> B[Chunking<br/>500-1000 token]
    B --> C[Workers AI<br/>Embedding BGE-M3]
    C --> D[(Vectorize Index<br/>1024-dim vektorok)]
    Q[Magyar kérdés] --> E[Query Embedding]
    E --> F[Top-K közelség<br/>keresés]
    D --> F
    F --> G[Top-5 forrás-részlet<br/>+ idézet]

Három komponens, mindhárom Cloudflare-en:

🤖 Workers AI embedding — a Llama-szerű modell minden szöveg-darabhoz ad egy 1024-dimenziós vektort (számokká alakítja a jelentést)
🔍 Vectorize index — a vektorok adatbázisa, <10 ms keresés <100K dokumentumon
⚡ Workers — a query-orchestrátor: kérdés → vektor → top-K eredmény → válasz

🇭🇺 A magyar kontextus jól kezelt: a használt embedding-modell (BGE-M3 multilingual) 103 nyelvet ismer, a magyart is. Azt jelenti hogy a magyar kérdés és a magyar dokumentum ugyanabban a vektor-térben van — nem kell fordítgatni.

🇭🇺 Use-case-ek a magyar piacon

Ügyvédi iroda — szerződés-archív

Probléma: 200 db korábbi ügyfél-szerződés, mind eltérő. Új ügyfél kérdez egy speciális passzust (“milyen kötbér-klauzulát szoktatok?”). Eddig: átolvas 30-50 PDF-et vagy megpróbál emlékezni, hogy melyikben volt.

✅ Vectorize-zal: feltölt mind a 200 PDF-et a /app/vectorize-search-be. Beírja a kérdést. 5 másodpercen belül megkapja a top-5 szerződés-részlet, idézettel. A keresés nem jutalmazza a sok szöveget — pontosan azokat a passzusokat húzza fel, ahol a kötbér szemantikailag jelen van.

Könyvelő — adójogi-ügyfél-történet

Probléma: 50 ügyfélre vezeti, mindegyiknek 2-3 éves levelezés-archívuma van (NAV-levelek, ügyfél-emailek, feljegyzések). Ha ügyfél felhívja hogy “a múltkori ÁFA-kérdéses helyzet — emlékszel?”, 5 perc kell hogy megtalálja a kontextust.

✅ Vectorize-zal: az ügyfél-mappákat egyszer feltölti, és a beszélgetés-közben élőben kérdezi a saját archívumát. 30 másodperc alatt visszahozható a kontextus.

Oktató — kurzus-tartalmak közti link

Probléma: 12 leckés Astro-kurzust ad, és diák kérdezi: “a 7. leckében volt valami a Astro.glob-ról, hol volt pontosan?”. Az oktató nem emlékszik percre.

✅ Vectorize-zal: a kurzus minden szövegét bevetette. Beírja a kérdést, és kapja a pontos lecke + bekezdés-t.

Tanácsadó — saját jegyzet-archívum

Probléma: 5 éve vezet jegyzeteket Notion-ban, Markdown-ban. 2000+ oldal, és nehéz közte navigálni.

✅ Vectorize-zal: Notion-export → ZIP → drop-zone. Egy óra alatt indexelve. Onnantól a saját 5 éves szakmai-tudása élő, kereshető asszisztens.

🚀 Hogyan használd?

1. lépés — Belépés

A /app/vectorize-search útvonalon nyílik a UI. Belépés a PromNET-fiókoddal.

2. lépés — Új collection

Egy collection = egy témakör. Például:

szerzodesek-2026
nav-levelezes
kurzus-asztro-alapok

💡 Ne keverj össze nagyon különböző témákat — a keresés akkor a legjobb, ha a kontextus homogén.

3. lépés — Feltöltés

Drop-zone támogatja:

✅ PDF (max 50 MB / fájl)
✅ Markdown (.md)
✅ TXT (.txt)
✅ Word (.docx) — a háttérben Mammoth-tal Markdown-ra konvertál
✅ HTML (egyetlen oldal)

A háttérben:

Chunking — 500-1000 token / chunk, átfedéssel (overlap 100 token), így nem törik szét a jelentés
Embedding — minden chunk Workers AI-on át vektorrá alakul
Indexelés — a Vectorize-ba beillesztve, metadata-val (filename, page, chunk-id)

💰 Ami kreditbe kerül: az embedding-számolás. Egy átlag-PDF (10 oldal, ~5000 token) ~5 kredit. 100 PDF feltöltés ~500 kredit.

4. lépés — Kérdés

Beírod a kérdést. Például: “milyen pénznemben fizet a vevő, ha külföldi bankon át utal?”

A kérdést vektorrá alakítom, összehasonlítom a chunk-vektorokkal, top-5 legközelebbit visszaadom.

Eredmény-formátum:

[1] szerzodes-2025-X.pdf, 4. oldal:
"Külföldi bankátutalás esetén EUR-ban, az MNB-középárfolyam szerint
számolva..."
similarity: 0.87

[2] szerzodes-2024-Y.pdf, 7. oldal:
"...amennyiben a vevő nem magyarországi székhelyű, a számla EUR-ban
vagy USD-ben kerül kiállításra..."
similarity: 0.81

...

5. lépés — AI-összefoglaló (opcionális)

Ha egy generatív választ akarsz: a top-5 chunkot kontextusként átküldöm Workers AI Llama-modellhez, és összegzett választ adok.

💰 Ez +10-20 kredit / kérdés. Az alap-keresés olcsóbb, ha csak a forráshelyek érdekelnek.

❌ Mire NEM jó?

A Vectorize NEM jó:

❌ Tabláázat-kereső — egy Excel-fájlban “kik az ügyfelek X városból”-jellegű strukturált kérdésre. Erre SQL-t kell vagy a D1-et használd
❌ Reális-idejű adat — ha frissül a forrás (pl. webshop-stock), a Vectorize az utolsó indexelt verziót keresi. Frissíteni kell
❌ Pontos szám-kérdés — “mennyi a 2025-ös bevételem?” nem Vectorize-feladat — egy SQL-aggregáció
❌ Multi-modal (kép-bőlés) — egyelőre csak szöveg-alapú

✅ A Vectorize a prózai-tudásra való: szerződések, levelek, oktatás, jegyzetek, dokumentációk.

🔒 Adatvédelem — fontos

A feltöltött dokumentumok:

🔒 Az R2-ben tárolódnak (eredeti fájl), a CF Vectorize-ban a vektorok (chunk-szövegek + embedding-ek)
✅ Nem tanítjuk a CF-en sem az OpenAI-on sem semmi külső modellt
🌍 Európai régióban maradnak (EU-only data residency)
✅ Te tudod törölni őket bármikor — egyetlen klikkel a collection törlésre

🇭🇺 A magyar GDPR-megfelelőséget így automatikusan megoldja a tárolás- konfiguráció. Külön DPA (data processing agreement) kérhető a [email protected]-n keresztül.

💰 Ár

Tétel	Költség
💰 Embedding (feltöltéskor)	~1 kredit / 1000 token
💰 Keresés	0.5 kredit / kérdés
💰 AI-összefoglaló	+10-20 kredit / kérdés
💰 R2-tárolás	0.015 USD / GB / hó (eredeti fájlok)
💰 Vectorize-index	0.04 USD / 1M vektor / hó

✅ Egy átlag-felhasználó (100 PDF, napi 10 keresés) havi költsége körülbelül 2-3 EUR + a kreditegyenleg-fogyasztás.

🔮 Mi jön ezután?

A roadmapen:

Q2 2026 — OCR-pipeline (kép-PDF-ekből szöveg-kinyerés)
Q2 2026 — Slack/Teams-bot — kérdezz Slacken, válasz Vectorize-ból
Q3 2026 — Multi-collection cross-search
Q3 2026 — Hibrid kereső (szemantikus + keyword + boost)
Q4 2026 — Magyar finomhangolt embedding (BGE-M3 → magyar-tuned)

🎯 Próbáld ki

A /app/vectorize-search ingyen indítható — a beépített starter-credit elég ~50-100 oldalas dokumentum-feltöltésre és 20-30 kérdésre.

Ha tetszik, tölts kreditet és skálázd amikor szükséges.

Polyák Csaba