Showroom by Speechbox

מהנדסי Google Cloud חושפים סוכני AI המאוטמטים הפקת מדיה יצירתית

Katie NguyenDeveloper Relations Engineer
אוטומציית AIמדיה גנרטיביתפלטפורמת ADKAI מולטימודלי

בסשן שנערך לאחרונה ב-Google Cloud, מהנדסת קשרי מפתחים קייטי ווין הדגימה כיצד לבנות סוכני מדיה גנרטיבית מתוחכמים המסוגלים לאוטמט משימות יצירתיות מורכבות, מעיצוב דמויות ועד הפקת סיפור מלא, תוך שימוש בפלטפורמות ADK ו-MCP של גוגל.

הסשן, שכותרתו "אוטומציה של יצירתיות: בניית סוכני מדיה גנרטיבית עם ADK ו-MCP", הציג שינוי פרדיגמה ביצירת מדיה. ווין הדגישה את היתרון הקריטי של תהליכי עבודה מבוססי סוכנים: עקביות. בניגוד לשיטות מסורתיות הדורשות מעקב ידני קפדני, סוכני AI, המופעלים על ידי Gemini, מחזיקים בזיכרון, המאפשר להם להתייחס ולנצל נכסים שנוצרו בעבר כדי לבנות נרטיבים קוהרנטיים. יכולת זו מבטיחה שדמויות, הגדרות ונושאים יישארו עקביים על פני תפוקות מדיה מגוונות, כולל תמונות, סרטונים, מוזיקה וקריינות.

Key Moment
הופעת הבכורה של לולו שנוצרה על ידי AI

ווין הציגה הדגמה חיה, ובנתה סוכן שיספר את סיפורה של "לולו השיצו". החל מהנחיית טקסט פשוטה, הסוכן, תוך שימוש ב-Nano Banana 2, יצר את התמונה הראשונית של לולו, ולאחר מכן המשיך ליצור קו עלילה בן שלוש סצנות, להנפיש כל סצנה לווידאו באמצעות VEO, ולשלב קריינות עם מודל הטקסט לדיבור החדש 3.1 של Gemini ומוזיקת רקע עם Lyra. צלילה עמוקה לקוד חשפה כיצד ADK מאפשרת הגדרת כלים ותצורת פרמטרים כמו רזולוציה ויחס גובה-רוחב, בעוד ששרתי MCP מספקים גישה למודלי המדיה הגנרטיבית העוצמתיים של Google Cloud. יכולתו של הסוכן לאוטמט את כל תהליך עריכת הווידאו, בשילוב אלמנטים מדיה שונים, הייתה נקודה מרכזית.

Key Moment
הבקרות העוצמתיות של ADK

מעבר ליצירה ראשונית, הסשן בחן יכולות סוכנים מתקדמות. ווין הדגימה כיצד סוכנים יכולים לתקן את עצמם, והציגה דוגמה שבה הנחיה בשפה טבעית להגברת מוזיקת רקע בסרטון סופי בוצעה באופן מיידי. יתרה מכך, הוצג המושג "כישורי סוכנים", המאפשר למפתחים לעטוף הוראות מורכבות (כמו תגי אודיו אקספרסיביים להכוונת קול) למודולים ניתנים לשימוש חוזר, ובכך לשפר את החוסן והיעילות. אולי פורצת הדרך ביותר הייתה הדיון על שימוש במודלי שפה גדולים כשופטים להערכת תוכן מולטימודלי. סוכן AI יכול כעת להשוות מדיה שנוצרה מול הנחיות מקוריות, לבדוק פרטים כמו התאמת דמות או תזמון אודיו, ואף ליצור מחדש תוכן כדי להבטיח התאמה לחזון היצירתי.

Key Moment
תיקון אודיו במילים

גישה חדשנית זו להפקת מדיה גנרטיבית מבטיחה לדמוקרטיה את היצירתיות, ומעצימה משתמשים – גם כאלה ללא רקע יצירתי נרחב – לרעיונות, להפיק ולשפר במהירות תוכן מולטימדיה באיכות גבוהה. על ידי הפשטת המורכבות של הנחיות וביצוע טכני, סוכנים המופעלים על ידי ADK ו-MCP קובעים סטנדרט חדש לסיפור סיפורים אוטומטי.

Key Moment
מודלי שפה גדולים מעריכים תמונות

Gemini מדהים באמת בריבוי מודאליות, כך שאנחנו מסוגלים לנתח את התמונות האלה אפילו עם Gemini, ואז לבדוק עובדות רבות מהשאלות האלה כדי לוודא שהכל מיושר.

- Katie Nguyen, Developer Relations Engineer

כתבות נוספות