2026. május 8. · #vectorize #ai #rag #tutorial #product-update
Vectorize: szemantikus kereső a saját dokumentumaidon — RAG-as-a-service magyarul
PDF-jeidet, Word-jeidet, fórum-archívumodat feltöltöd, és magyarul kérdezel rájuk. Ügyvédnek, tanácsadónak, oktatónak, könyvelőnek — a saját szakmai tudásod kereshetővé téve. Cloudflare Vectorize, magyar UI.
Ha egyszer is kerestél egy 5 éves szerződésben egy konkrét passzust, és nem találtad meg, mert nem emlékeztél a pontos szóra csak a jelentésére — a Vectorize neked szól. Ebben a posztban arról, hogy mit csinál, mire jó, és hogyan tölthetsz fel az első dokumentumodat 5 perc alatt.
⚠️ A probléma: a “Ctrl+F” nem érti a szándékot
Klasszikus szöveg-kereső (Word “Search”, Adobe Reader “Find”, Gmail “szűrő”) a karakter-egyezést keresi. Ha “felmondási idő” volt írva a szerződésben, de te most “felbontási feltétel”-re emlékszel — nem találod meg.
A magyar SMB-vállalkozó — ügyvéd, könyvelő, oktató, tanácsadó — éves szinten több száz PDF-et generál. Szerződések, jelentések, e-mail-mellékletek, jegyzőkönyvek. Mind nyelvileg gazdag, mind szemantikailag rétegzett, és mind elveszik a fájlrendszer mélyén egy év alatt.
💡 A megoldás a szemantikus keresés: a kérdést és a dokumentumot vektor-térbe vetíted, és a közelség alapján keresel — jelentés szerint, nem szó-szerint.
🔧 Hogyan működik a Vectorize?
flowchart LR
A[PDF / Word / MD<br/>feltöltés] --> B[Chunking<br/>500-1000 token]
B --> C[Workers AI<br/>Embedding BGE-M3]
C --> D[(Vectorize Index<br/>1024-dim vektorok)]
Q[Magyar kérdés] --> E[Query Embedding]
E --> F[Top-K közelség<br/>keresés]
D --> F
F --> G[Top-5 forrás-részlet<br/>+ idézet]
Három komponens, mindhárom Cloudflare-en:
- 🤖 Workers AI embedding — a Llama-szerű modell minden szöveg-darabhoz ad egy 1024-dimenziós vektort (számokká alakítja a jelentést)
- 🔍 Vectorize index — a vektorok adatbázisa, <10 ms keresés <100K dokumentumon
- ⚡ Workers — a query-orchestrátor: kérdés → vektor → top-K eredmény → válasz
🇭🇺 A magyar kontextus jól kezelt: a használt embedding-modell (BGE-M3 multilingual) 103 nyelvet ismer, a magyart is. Azt jelenti hogy a magyar kérdés és a magyar dokumentum ugyanabban a vektor-térben van — nem kell fordítgatni.
🇭🇺 Use-case-ek a magyar piacon
Ügyvédi iroda — szerződés-archív
Probléma: 200 db korábbi ügyfél-szerződés, mind eltérő. Új ügyfél kérdez egy speciális passzust (“milyen kötbér-klauzulát szoktatok?”). Eddig: átolvas 30-50 PDF-et vagy megpróbál emlékezni, hogy melyikben volt.
✅ Vectorize-zal: feltölt mind a 200 PDF-et a
/app/vectorize-search-be. Beírja a kérdést. 5 másodpercen belül megkapja a top-5 szerződés-részlet, idézettel. A keresés nem jutalmazza a sok szöveget — pontosan azokat a passzusokat húzza fel, ahol a kötbér szemantikailag jelen van.
Könyvelő — adójogi-ügyfél-történet
Probléma: 50 ügyfélre vezeti, mindegyiknek 2-3 éves levelezés-archívuma van (NAV-levelek, ügyfél-emailek, feljegyzések). Ha ügyfél felhívja hogy “a múltkori ÁFA-kérdéses helyzet — emlékszel?”, 5 perc kell hogy megtalálja a kontextust.
✅ Vectorize-zal: az ügyfél-mappákat egyszer feltölti, és a beszélgetés-közben élőben kérdezi a saját archívumát. 30 másodperc alatt visszahozható a kontextus.
Oktató — kurzus-tartalmak közti link
Probléma: 12 leckés Astro-kurzust ad, és diák kérdezi: “a 7. leckében
volt valami a Astro.glob-ról, hol volt pontosan?”. Az oktató nem
emlékszik percre.
✅ Vectorize-zal: a kurzus minden szövegét bevetette. Beírja a kérdést, és kapja a pontos lecke + bekezdés-t.
Tanácsadó — saját jegyzet-archívum
Probléma: 5 éve vezet jegyzeteket Notion-ban, Markdown-ban. 2000+ oldal, és nehéz közte navigálni.
✅ Vectorize-zal: Notion-export → ZIP → drop-zone. Egy óra alatt indexelve. Onnantól a saját 5 éves szakmai-tudása élő, kereshető asszisztens.
🚀 Hogyan használd?
1. lépés — Belépés
A /app/vectorize-search útvonalon nyílik a UI. Belépés a PromNET-fiókoddal.
2. lépés — Új collection
Egy collection = egy témakör. Például:
szerzodesek-2026nav-levelezeskurzus-asztro-alapok
💡 Ne keverj össze nagyon különböző témákat — a keresés akkor a legjobb, ha a kontextus homogén.
3. lépés — Feltöltés
Drop-zone támogatja:
- ✅ PDF (max 50 MB / fájl)
- ✅ Markdown (
.md) - ✅ TXT (
.txt) - ✅ Word (
.docx) — a háttérben Mammoth-tal Markdown-ra konvertál - ✅ HTML (egyetlen oldal)
A háttérben:
- Chunking — 500-1000 token / chunk, átfedéssel (overlap 100 token), így nem törik szét a jelentés
- Embedding — minden chunk Workers AI-on át vektorrá alakul
- Indexelés — a Vectorize-ba beillesztve, metadata-val (filename, page, chunk-id)
💰 Ami kreditbe kerül: az embedding-számolás. Egy átlag-PDF (10 oldal, ~5000 token) ~5 kredit. 100 PDF feltöltés ~500 kredit.
4. lépés — Kérdés
Beírod a kérdést. Például: “milyen pénznemben fizet a vevő, ha külföldi bankon át utal?”
A kérdést vektorrá alakítom, összehasonlítom a chunk-vektorokkal, top-5 legközelebbit visszaadom.
Eredmény-formátum:
[1] szerzodes-2025-X.pdf, 4. oldal:
"Külföldi bankátutalás esetén EUR-ban, az MNB-középárfolyam szerint
számolva..."
similarity: 0.87
[2] szerzodes-2024-Y.pdf, 7. oldal:
"...amennyiben a vevő nem magyarországi székhelyű, a számla EUR-ban
vagy USD-ben kerül kiállításra..."
similarity: 0.81
...
5. lépés — AI-összefoglaló (opcionális)
Ha egy generatív választ akarsz: a top-5 chunkot kontextusként átküldöm Workers AI Llama-modellhez, és összegzett választ adok.
💰 Ez +10-20 kredit / kérdés. Az alap-keresés olcsóbb, ha csak a forráshelyek érdekelnek.
❌ Mire NEM jó?
A Vectorize NEM jó:
- ❌ Tabláázat-kereső — egy Excel-fájlban “kik az ügyfelek X városból”-jellegű strukturált kérdésre. Erre SQL-t kell vagy a D1-et használd
- ❌ Reális-idejű adat — ha frissül a forrás (pl. webshop-stock), a Vectorize az utolsó indexelt verziót keresi. Frissíteni kell
- ❌ Pontos szám-kérdés — “mennyi a 2025-ös bevételem?” nem Vectorize-feladat — egy SQL-aggregáció
- ❌ Multi-modal (kép-bőlés) — egyelőre csak szöveg-alapú
✅ A Vectorize a prózai-tudásra való: szerződések, levelek, oktatás, jegyzetek, dokumentációk.
🔒 Adatvédelem — fontos
A feltöltött dokumentumok:
- 🔒 Az R2-ben tárolódnak (eredeti fájl), a CF Vectorize-ban a vektorok (chunk-szövegek + embedding-ek)
- ✅ Nem tanítjuk a CF-en sem az OpenAI-on sem semmi külső modellt
- 🌍 Európai régióban maradnak (EU-only data residency)
- ✅ Te tudod törölni őket bármikor — egyetlen klikkel a collection törlésre
🇭🇺 A magyar GDPR-megfelelőséget így automatikusan megoldja a tárolás- konfiguráció. Külön DPA (data processing agreement) kérhető a [email protected]-n keresztül.
💰 Ár
| Tétel | Költség |
|---|---|
| 💰 Embedding (feltöltéskor) | ~1 kredit / 1000 token |
| 💰 Keresés | 0.5 kredit / kérdés |
| 💰 AI-összefoglaló | +10-20 kredit / kérdés |
| 💰 R2-tárolás | 0.015 USD / GB / hó (eredeti fájlok) |
| 💰 Vectorize-index | 0.04 USD / 1M vektor / hó |
✅ Egy átlag-felhasználó (100 PDF, napi 10 keresés) havi költsége körülbelül 2-3 EUR + a kreditegyenleg-fogyasztás.
🔮 Mi jön ezután?
A roadmapen:
- Q2 2026 — OCR-pipeline (kép-PDF-ekből szöveg-kinyerés)
- Q2 2026 — Slack/Teams-bot — kérdezz Slacken, válasz Vectorize-ból
- Q3 2026 — Multi-collection cross-search
- Q3 2026 — Hibrid kereső (szemantikus + keyword + boost)
- Q4 2026 — Magyar finomhangolt embedding (BGE-M3 → magyar-tuned)
🎯 Próbáld ki
A /app/vectorize-search ingyen indítható — a beépített starter-credit
elég ~50-100 oldalas dokumentum-feltöltésre és 20-30 kérdésre.
Ha tetszik, tölts kreditet és skálázd amikor szükséges.
Polyák Csaba
© 2026 PromNET — Polyák Csaba. ← Vissza a blog-ra
Betöltés…