- Google Cloud תארח את מעבדי ה-GPU מסוג Vera Rubin ו-Blackwell של NVIDIA.
- Baseten מספקת תמיכת יום אפס למודל ג'מה 4 של גוגל.
- אופטימיזציות חדשות כמו TensorRT LLM ו-NVFP4 משפרות את ביצועי ה-LLM.
בכנס שנערך לאחרונה, מנהלי NVIDIA ו-Baseten פירטו את שותפותם האסטרטגית עם Google Cloud, תוך התמקדות בהתקדמות פורצת דרך בהיסק AI. שיתוף הפעולה מבטיח לספק מהירות, אמינות ומדרגיות חסרות תקדים ליישומי AI, תוך מינוף חומרה מהדור הבא ואופטימיזציות תוכנה מתוחכמות.
הדיון נפתח עם זרקור על חידושי החומרה האחרונים של NVIDIA, אשר צפויים לשפר משמעותית את היסק ואימון ה-AI ב-Google Cloud. ג'יי ראג' מ-NVIDIA הודיע כי Google Cloud תהיה בין הספקיות הראשונות שתציע את Vera Rubin, חומרת הדור הבא של NVIDIA, בהמשך השנה. בנוסף, מעבדי Blackwell GPU, ובמיוחד ה-RTX Pro 6000 עם זיכרון VRAM מרשים של 96GB, יאפשרו פריסה של מודלים מרובים על GPU יחיד, מה שמסמן קפיצת מדרגה משמעותית ביעילות. פיליפ קיילי מ-Baseten הדגיש כי היסק הוא קריטי להגשמת ההבטחה של יישומי AI, בכך שהוא מבטיח חוויות משתמש עם זמן אחזור נמוך ואמינות גבוהה בקנה מידה של צמיחה מהירה.
Baseten, שותפה מרכזית, פירטה את גישתה להיסק בקנה מידה, תוך עיבוד מיליארדי היסקים מדי יום. הם הדגישו את שיתוף הפעולה ההדוק שלהם עם NVIDIA הן בחומרה והן בתוכנה, כולל אימוץ מוקדם של NVIDIA Dynamo ומעבדי Blackwell GPU. תכונה בולטת היא יכולת הפריסה מרובת האזורים של Baseten ב-Google Cloud, המאחדת משאבי מחשוב גלובליים כדי למזער את זמן האחזור ולמקסם את הנגישות. יתרה מכך, Baseten סיפקה תמיכת יום אפס למודל ג'מה 4 של גוגל, ושיבחה את הרב-מודאליות שלו עבור קלטי תמונה ואת מגוון הגדלים הרחב שלו (מ-2 מיליארד ועד 30 מיליארד פרמטרים), מה שהופך אותו לאידיאלי לכוונון עדין של פתרונות ארגוניים ספציפיים למשימות כמו KYC וחילוץ מסמכים.
אופטימיזציית היסק LLM היא מוקד מרכזי, כאשר NVIDIA ממליצה על TensorRT LLM, ערכת SDK בקוד פתוח המספקת ביצועי שיא על חומרת NVIDIA עם כמה שורות קוד בלבד. זה, בשילוב עם פורמט הדיוק NVFP4 של NVIDIA ומעבדי Blackwell GPU, מספק מהירות חסרת תקדים. במהלך הדגמה חיה, פיליפ הציג את הפלטפורמה של Baseten, והדגים פריסה חלקה של ג'מה 4 מ-Hugging Face לייצור על GPU מסוג L4, יחד עם נקודת קצה של API תואמת OpenAI. ההדגמה הדגישה גם את יכולות הקנה מידה האוטומטיות החזקות של הפלטפורמה, המבטיחות זמני תגובה יציבים ועמידה בהסכמי רמת שירות (SLA) קריטיים גם תחת תנועה משתנה. Baseten מציעה גם ממשקי API חסכוניים מבוססי אסימונים עבור מודלים כמו NeMo Triton, וייעצה לגבי בחירת מעבדי GPU כדי לייעל את עלות הבעלות הכוללת (TCO) במקום רק את העלות הראשונית.
השיחה התרחבה לתפקידו של Google Kubernetes Engine (GKE) בהנעת זרימות עבודה מורכבות של סוכני AI מרובי מודלים. תקשורת ה-low-latency של GKE בין מודלים חיונית למערכות AI מורכבות, וחוסכת עשרות מילי-שניות לכל תור ומפחיתה משמעותית את זמן האחזור הכולל. פיליפ הציג גם את ספרו, "הנדסת היסק" (Inference Engineering), הטוען כי היסק הוא אתגר הוליסטי המקיף הכל מ-CUDA ועד למערכות מבוזרות, הדורש זמן אחזור הדוק וזמן פעולה (uptime) גבוה. גם ג'יי וגם פיליפ הביעו התרגשות לגבי מעורבות עם מפתחים, הבנת נקודות הכאב שלהם בזרימות עבודה של סוכנים, וקידום אימוץ מודלים פתוחים כמו ג'מה 4 באמצעות מאמצי קהילה והדגמות מעשיות.
“מבחינתי, משמעות ההיסק היא היכולת באמת להגשים את ההבטחה של יישומי AI.”
- Jason Davenport, Google Cloud




