RAG הוא ראשי תיבות של Retrieval-Augmented Generation. במילים פשוטות: לתת למודל שפה גישה לידע ספציפי שלכם, לפני שהוא עונה. זו אחת השיטות החזקות ביותר לקבל תשובות מדויקות מ-AI על תכנים שהוא לא ראה בזמן האימון.
הבעיה ש-RAG פותר
מודלי שפה כמו Claude, ChatGPT או Gemini אומנו על המון טקסט פתוח באינטרנט. הם יודעים המון על העולם, אבל הם לא יודעים את:
- המסמכים הפנימיים שלכם
- מחירי המוצרים שלכם
- נהלי החברה שלכם
- ההיסטוריה של הלקוחות שלכם
- תוכן ספציפי שלא היה זמין באימון
אם תשאלו אותם שאלה על משהו פנימי — הם יענו תשובה משכנעת, אבל לא תמיד נכונה. זו תופעה שנקראת “הזיה” (hallucination), והיא הסיבה שאי אפשר להסתמך עליהם לעבודה רצינית בלי טיפול.
איך RAG עובד
הרעיון פשוט בעיקרון:
- לוקחים את הידע (מסמכים, FAQ, מאמרים, נהלים, מה שיש) ומפרקים אותו לקטעים קטנים
- ממירים כל קטע ל-Embedding — וקטור מספרי שמייצג את המשמעות
- שומרים את הוקטורים במסד נתונים מיוחד (Vector DB)
- כשמשתמש שואל שאלה, ממירים את השאלה ל-Embedding באותו אופן
- מחפשים את הקטעים הקרובים ביותר במסד הנתונים
- שולחים למודל את השאלה + הקטעים הרלוונטיים ומבקשים תשובה מבוססת רק עליהם
התוצאה: המודל עונה על השאלה שלכם, מבוסס על המידע שלכם, ועם אפשרות לציין מאיפה כל פיסת מידע הגיעה.
איפה RAG מבריק
הוא חזק במיוחד לתרחישים כמו:
- מערכת שאלות־תשובות על מסמכי חברה (נהלים, כללים, חוזים)
- צ׳אטבוט שיודע על המוצרים שלכם בלי לבלבל ביניהם
- עוזר שמכיר את ההיסטוריה של לקוח ספציפי
- חיפוש סמנטי בארכיון תוכן גדול
מתי RAG לא הפתרון הנכון
- כשהמידע משתנה כל הזמן ואין זמן לעדכן את האינדקס — אולי עדיף API ישיר
- כשהשאלה דורשת חישוב או לוגיקה, לא רק שליפת מידע
- כשהמידע קטן (כמה דפים) — אפשר פשוט לשים אותו ב-prompt ולחסוך את כל הסיפור
RAG הוא לא קסם. הוא ארכיטקטורה מאוד שימושית, שעובדת מצוין כשמיישמים אותה נכון — ופחות טוב כשמנסים לדחוף אותה לכל בעיה. כמו רוב הדברים בעולם ה-AI: הכלי הנכון למקום הנכון.