מה זה Google Infinite Scaler?

Infinite Scaler הוא מנגנון סקלביליות דינמי שפיתחה Google לניהול עומסים של מודלי AI. הוא מבוסס על ניבוי פרואקטיבי של עומסים ועל קיבולת גרנולרית, במקום הגדלה תגובתית של instances.

האם Infinite Scaler רלוונטי רק לחברות גדולות?

לא. כל ארגון שמריץ מודלי AI בסביבת ייצור עם תעבורה משתנה יכול להרוויח מסקלינג דינמי. הרלוונטיות גבוהה במיוחד לאפליקציות עם שיאי שימוש לא צפויים.

מה ההבדל בין סקלינג מסורתי לבין Infinite Scaler?

סקלינג מסורתי מגיב לעומס שכבר קרה ולכן יש תמיד עיכוב. Infinite Scaler מנבא ומקצה משאבים מראש, לפני שהפסגה מגיעה, מה שמבטיח ביצועים עקביים.

כמה ניתן לחסוך בעלויות inference עם סקלינג דינמי?

הניסיון מהשטח מראה ירידה של 20% עד 40% בעלויות inference לאחר מעבר לתשתית עם סקלינג דינמי, לעומת שמירת קיבולת קבועה.

מה צריך לשנות בארכיטקטורת האפליקציה כדי לנצל Infinite Scaler?

נדרש מעבר ל-stateless inference, הגדרת SLO ברורים, וניטור עומסים היסטוריים שמאפשר למנגנון ללמוד את דפוסי התעבורה הספציפיים של הארגון.

Google Infinite Scaler: כך Google פותרת את בעיית הסקלביליות של מודלי AI בקנה מידה עולמי

הבעיה שכל ארגון שמריץ AI מכיר

כל ארגון שמפעיל מודלי שפה גדולים או מערכות AI בסביבת ייצור מתמודד עם אותו אתגר מהותי: עומסים בלתי צפויים. בשניות ספורות יכול תעבורת הבקשות לזנק פי עשר, ותשתית שלא ערוכה לכך פשוט קורסת. Google, שמפעילה חלק מהמודלים הגדולים בעולם בסדר גודל שאף ספק אחר לא מגיע אליו, פיתחה גישה שנקראת Infinite Scaler לטיפול בדיוק בנקודת הכשל הזו.

מה הוא Infinite Scaler?

Infinite Scaler הוא מנגנון סקלביליות דינמי שפיתחה Google לניהול עומסים של מודלי AI בסביבת ענן. הרעיון המרכזי הוא ניתוק מוחלט בין שכבת המסקנות (inference) לשכבת המשאבים החישוביים, כך שהמערכת יכולה להוסיף ולהסיר קיבולת בזמן אמת, בלי השהייה ובלי downtime.

בשיטות סקלינג מסורתיות, ארגונים מגדירים threshold קבוע שמפעיל הוספת instances. הגישה הזו מגיבה לאירוע שכבר קרה, ולכן תמיד קיים חלון זמן שבו הביצועים נפגעים. Infinite Scaler מחליף את הלוגיקה הזו בניבוי פרואקטיבי: המערכת מנתחת דפוסי תעבורה ומקדימה להקצות משאבים לפני שהפסגה מגיעה.

שלושה עקרונות שמייחדים את הגישה

ניבוי פרואקטיבי: במקום להגיב לעומס, המנגנון צופה אותו על בסיס ניתוח דפוסים היסטוריים ובזמן אמת.
סקלינג גרנולרי: ניתן להוסיף קיבולת ברזולוציה של TPU בודד ולא רק של instances שלמות, מה שמפחית בזבוז משאבים משמעותי.
אינטגרציה עם מודלי Gemini: הארכיטקטורה תוכננה מלכתחילה סביב הדרישות של מודלי השפה הגדולים של Google, ובפרט סביב latency-sensitive workloads.

ההשלכות על ארגונים שבונים על Google Cloud

מנקודת המבט של R.A.S Group, שמטמיעה מערכות ליבה מותאמות לארגונים, השאלה הרלוונטית אינה טכנית בלבד. Infinite Scaler משנה את אופן התמחור של עומסי AI בענן: ארגון שמשלם היום על קיבולת שמור (reserved capacity) כדי להבטיח ביצועים בשיא, עשוי לגלות שהמודל החדש מאפשר תמחור לפי צריכה בפועל, בלי לוותר על אמינות. בארגונים שאנחנו עובדים איתם, ההשפעה הישירה היא ירידה בעלות ה-inference של בין 20% ל-40% לאחר מעבר לתשתית שמנצלת סקלינג דינמי מסוג זה.

מה זה דורש בפועל

המעבר לתשתית שמנצלת Infinite Scaler אינו אוטומטי. נדרשות מספר התאמות ברמת האפליקציה:

עיצוב מחדש של ניהול הסשנים כדי לאפשר stateless inference
הגדרת SLO ברורים (Service Level Objectives) שהמערכת יכולה לתרגם לצרכי קיבולת
ניטור ותיעוד עומסים לפחות 30 יום לפני הפעלת הסקלינג הפרואקטיבי, כדי שהמודל יוכל ללמוד את דפוסי התעבורה הספציפיים

ארגונים שמתכננים כעת הטמעה של מודלי AI בייצור כדאי שישקלו את ארכיטקטורת ה-inference שלהם מהיסוד, ולא רק כשלב פריסה. הגדרת הסקלביליות כאחד משלושת הקריטריונים הראשונים בתכנון הפתרון, לצד דיוק ועלות, היא הגישה שמנעת רוב אירועי ה-downtime שאנחנו רואים בארגונים בשלבי scale-up.