- פלטפורמות ADK ו-MCP החדשות מייעלות את תהליכי העבודה של מדיה גנרטיבית.
- סוכני AI שומרים על עקביות דמויות על פני תמונות, סרטונים ואודיו.
- מודלי שפה גדולים מולטימודליים יכולים כעת להעריך ולתקן תוכן שנוצר על ידי AI.
בסשן שנערך לאחרונה ב-Google Cloud, מהנדסת קשרי מפתחים קייטי ווין הדגימה כיצד לבנות סוכני מדיה גנרטיבית מתוחכמים המסוגלים לאוטמט משימות יצירתיות מורכבות, מעיצוב דמויות ועד הפקת סיפור מלא, תוך שימוש בפלטפורמות ADK ו-MCP של גוגל.
הסשן, שכותרתו "אוטומציה של יצירתיות: בניית סוכני מדיה גנרטיבית עם ADK ו-MCP", הציג שינוי פרדיגמה ביצירת מדיה. ווין הדגישה את היתרון הקריטי של תהליכי עבודה מבוססי סוכנים: עקביות. בניגוד לשיטות מסורתיות הדורשות מעקב ידני קפדני, סוכני AI, המופעלים על ידי Gemini, מחזיקים בזיכרון, המאפשר להם להתייחס ולנצל נכסים שנוצרו בעבר כדי לבנות נרטיבים קוהרנטיים. יכולת זו מבטיחה שדמויות, הגדרות ונושאים יישארו עקביים על פני תפוקות מדיה מגוונות, כולל תמונות, סרטונים, מוזיקה וקריינות.
ווין הציגה הדגמה חיה, ובנתה סוכן שיספר את סיפורה של "לולו השיצו". החל מהנחיית טקסט פשוטה, הסוכן, תוך שימוש ב-Nano Banana 2, יצר את התמונה הראשונית של לולו, ולאחר מכן המשיך ליצור קו עלילה בן שלוש סצנות, להנפיש כל סצנה לווידאו באמצעות VEO, ולשלב קריינות עם מודל הטקסט לדיבור החדש 3.1 של Gemini ומוזיקת רקע עם Lyra. צלילה עמוקה לקוד חשפה כיצד ADK מאפשרת הגדרת כלים ותצורת פרמטרים כמו רזולוציה ויחס גובה-רוחב, בעוד ששרתי MCP מספקים גישה למודלי המדיה הגנרטיבית העוצמתיים של Google Cloud. יכולתו של הסוכן לאוטמט את כל תהליך עריכת הווידאו, בשילוב אלמנטים מדיה שונים, הייתה נקודה מרכזית.
מעבר ליצירה ראשונית, הסשן בחן יכולות סוכנים מתקדמות. ווין הדגימה כיצד סוכנים יכולים לתקן את עצמם, והציגה דוגמה שבה הנחיה בשפה טבעית להגברת מוזיקת רקע בסרטון סופי בוצעה באופן מיידי. יתרה מכך, הוצג המושג "כישורי סוכנים", המאפשר למפתחים לעטוף הוראות מורכבות (כמו תגי אודיו אקספרסיביים להכוונת קול) למודולים ניתנים לשימוש חוזר, ובכך לשפר את החוסן והיעילות. אולי פורצת הדרך ביותר הייתה הדיון על שימוש במודלי שפה גדולים כשופטים להערכת תוכן מולטימודלי. סוכן AI יכול כעת להשוות מדיה שנוצרה מול הנחיות מקוריות, לבדוק פרטים כמו התאמת דמות או תזמון אודיו, ואף ליצור מחדש תוכן כדי להבטיח התאמה לחזון היצירתי.
גישה חדשנית זו להפקת מדיה גנרטיבית מבטיחה לדמוקרטיה את היצירתיות, ומעצימה משתמשים – גם כאלה ללא רקע יצירתי נרחב – לרעיונות, להפיק ולשפר במהירות תוכן מולטימדיה באיכות גבוהה. על ידי הפשטת המורכבות של הנחיות וביצוע טכני, סוכנים המופעלים על ידי ADK ו-MCP קובעים סטנדרט חדש לסיפור סיפורים אוטומטי.
“Gemini מדהים באמת בריבוי מודאליות, כך שאנחנו מסוגלים לנתח את התמונות האלה אפילו עם Gemini, ואז לבדוק עובדות רבות מהשאלות האלה כדי לוודא שהכל מיושר.”
- Katie Nguyen, Developer Relations Engineer




