הבעיה שכל ארגון שמריץ AI מכיר
כל ארגון שמפעיל מודלי שפה גדולים או מערכות AI בסביבת ייצור מתמודד עם אותו אתגר מהותי: עומסים בלתי צפויים. בשניות ספורות יכול תעבורת הבקשות לזנק פי עשר, ותשתית שלא ערוכה לכך פשוט קורסת. Google, שמפעילה חלק מהמודלים הגדולים בעולם בסדר גודל שאף ספק אחר לא מגיע אליו, פיתחה גישה שנקראת Infinite Scaler לטיפול בדיוק בנקודת הכשל הזו.
מה הוא Infinite Scaler?
Infinite Scaler הוא מנגנון סקלביליות דינמי שפיתחה Google לניהול עומסים של מודלי AI בסביבת ענן. הרעיון המרכזי הוא ניתוק מוחלט בין שכבת המסקנות (inference) לשכבת המשאבים החישוביים, כך שהמערכת יכולה להוסיף ולהסיר קיבולת בזמן אמת, בלי השהייה ובלי downtime.
בשיטות סקלינג מסורתיות, ארגונים מגדירים threshold קבוע שמפעיל הוספת instances. הגישה הזו מגיבה לאירוע שכבר קרה, ולכן תמיד קיים חלון זמן שבו הביצועים נפגעים. Infinite Scaler מחליף את הלוגיקה הזו בניבוי פרואקטיבי: המערכת מנתחת דפוסי תעבורה ומקדימה להקצות משאבים לפני שהפסגה מגיעה.
שלושה עקרונות שמייחדים את הגישה
- ניבוי פרואקטיבי: במקום להגיב לעומס, המנגנון צופה אותו על בסיס ניתוח דפוסים היסטוריים ובזמן אמת.
- סקלינג גרנולרי: ניתן להוסיף קיבולת ברזולוציה של TPU בודד ולא רק של instances שלמות, מה שמפחית בזבוז משאבים משמעותי.
- אינטגרציה עם מודלי Gemini: הארכיטקטורה תוכננה מלכתחילה סביב הדרישות של מודלי השפה הגדולים של Google, ובפרט סביב latency-sensitive workloads.
ההשלכות על ארגונים שבונים על Google Cloud
מנקודת המבט של R.A.S Group, שמטמיעה מערכות ליבה מותאמות לארגונים, השאלה הרלוונטית אינה טכנית בלבד. Infinite Scaler משנה את אופן התמחור של עומסי AI בענן: ארגון שמשלם היום על קיבולת שמור (reserved capacity) כדי להבטיח ביצועים בשיא, עשוי לגלות שהמודל החדש מאפשר תמחור לפי צריכה בפועל, בלי לוותר על אמינות. בארגונים שאנחנו עובדים איתם, ההשפעה הישירה היא ירידה בעלות ה-inference של בין 20% ל-40% לאחר מעבר לתשתית שמנצלת סקלינג דינמי מסוג זה.
מה זה דורש בפועל
המעבר לתשתית שמנצלת Infinite Scaler אינו אוטומטי. נדרשות מספר התאמות ברמת האפליקציה:
- עיצוב מחדש של ניהול הסשנים כדי לאפשר stateless inference
- הגדרת SLO ברורים (Service Level Objectives) שהמערכת יכולה לתרגם לצרכי קיבולת
- ניטור ותיעוד עומסים לפחות 30 יום לפני הפעלת הסקלינג הפרואקטיבי, כדי שהמודל יוכל ללמוד את דפוסי התעבורה הספציפיים
ארגונים שמתכננים כעת הטמעה של מודלי AI בייצור כדאי שישקלו את ארכיטקטורת ה-inference שלהם מהיסוד, ולא רק כשלב פריסה. הגדרת הסקלביליות כאחד משלושת הקריטריונים הראשונים בתכנון הפתרון, לצד דיוק ועלות, היא הגישה שמנעת רוב אירועי ה-downtime שאנחנו רואים בארגונים בשלבי scale-up.