04 · AI és automatizáció

Mi az a RAG?

↑ Rövid válasz

A RAG olyan AI-megközelítés, ahol a modell külső tudásbázisból vagy dokumentumokból keres információt, és ezek alapján ad választ.

Részletes magyarázat

A RAG lényege, hogy az AI ne csak általános tudásból válaszoljon, hanem a cég saját dokumentumaiból, tudástárából vagy szabályaiból dolgozzon. Hasznos lehet belső ügyfélszolgálati tudásbázisnál, terméktámogatásnál, dokumentációban, oktatási anyagokban és vállalati keresőben. A RAG (Retrieval-Augmented Generation) lényege, hogy a modell prompt-ban kap egy saját adatból kihúzott releváns kontextust. Lépések: 1) az adatot chunkokra (kis részekre, jellemzően 200–500 token) bontjuk; 2) embedding modellel (pl. text-embedding-3-small) számolunk a chunkokhoz vektort; 3) vektoradatbázisba (Pinecone, Qdrant, Weaviate, pgvector) mentjük; 4) lekérdezéskor a kérdés embeddingjét keressük a legközelebbi N chunkkal; 5) a chunk-okat a system promptba tesszük. A pontosság javítható: hybrid search (vektor + kulcsszó), re-ranking (Cohere rerank), contextual retrieval (Anthropic 2024-es technika, ami minden chunkhoz hozzátesz egy 1 mondatos kontextust). RAG vs fine-tuning vs long-context vita: RAG akkor erős, ha az adat sokat változik vagy nagy, fine-tune akkor, ha stílust kell tanulni, long-context akkor, ha egyszeri elemzés < 200k tokenből.

Tipikus hibák

  • Túl nagy chunkokra bontják az adatot — a modell elveszik benne, a retrieval pontatlan.
  • Csak vektor-keresést használnak, kulcsszó nélkül — pontos termékkód, jogi paragrafus így nem talál.
  • Nem re-rankelnek — a top-5 chunkból a legjobb sokszor a 4-5., de a modell már csak az első 1-2-t veszi figyelembe.
  • RAG-ot építenek olyan használatra, ahol fine-tune vagy long-context kontextus jobb lenne.