Showroom by Speechbox

גוגל חושפת את ערימת המדיה הגנרטיבית מהדור הבא: מתמונות מושלמות לפיקסל ועד לאווטארים חיים

Kulani DavajaProduct Marketing Manager for Gen Media
בינה מלאכותית יוצרתוידאו בבינה מלאכותיתמוזיקה בבינה מלאכותית

גוגל מרחיבה באופן דרמטי את יכולות המדיה הגנרטיבית שלה, ומעצימה יוצרים עם חבילה משולבת של מודלי AI המגדירים מחדש שליטה אמנותית ויעילות. סשן כנס שנערך לאחרונה הציג את מלוא העוצמה של Nano Banana, VEO, Lyria ו-Gemini, והדגים כיצד כלים אלה יכולים לשנות את זרימות העבודה היצירתיות.

קולאני דאבאג'ה (Kulani Davaja), מנהלת שיווק מוצר למדיה גנרטיבית, סיפקה סקירה מקיפה של המערכת האקולוגית של גוגל למדיה יוצרת. היא הבהירה כי "מדיה גנרטיבית" כוללת את Nano Banana ליצירת ועריכת תמונות, VEO ליצירת וידאו, Gemini Audio לתמלול וטקסט לדיבור, ו-Lyria ליצירת מוזיקה. המפגש הדגיש את קצב החדשנות המהיר, עם עדכונים חדשים המתפרסמים לעיתים קרובות בכל המודלים הללו.

Key Moment
צלילה עמוקה לתוך Nano Banana

ההדגמה החלה בסרט קצר מקסים שנוצר על ידי AI, על עבודה מהבית ואכילת חטיפים, הממחיש את השילוב החלק של כל המודלים. דאבאג'ה התעמקה לאחר מכן ביכולות של Nano Banana, והציגה כיצד יוצרים יכולים להשיג סגנונות אמנותיים ספציפיים ביותר, החל מרינדורים תלת-ממדיים עם גיאומטריה מעוגלת ועד להגדרות מצלמה מדויקות כמו סרט 33 מ"מ, הדגשות מבריקות והילה. היא הדגישה את תפקידה של הבינה המלאכותית, ובמיוחד Gemini, בסיוע ליוצרים לזקק טרמינולוגיה אמנותית מורכבת להנחיות יעילות.

Key Moment
מוזיקת AI, מתוזמנת באופן מושלם

לאחר מכן, הזרקור עבר ל-VEO 3.1 Light, שזכה לשבחים על עלותו הנמוכה ומהירות היצירה המרשימה שלו, המפיק פריימים של וידאו בפחות מ-60 שניות. דאבאג'ה הדגימה את יכולתו של VEO להבין כוונות יצירתיות, וליצור רצפים דינמיים מפריים ראשון בלבד או בין פריים ראשון לאחרון. עבור אודיו, Lyria 3 Pro הוצג ככלי עוצמתי ליצירת מוזיקה, המסוגל לתיזמון מדויק ושינויי מצב רוח המבוססים על חותמות זמן. יש לציין כי VEO 3.1 Light מטפל גם באפקטים קוליים, ומייעל עוד יותר את הפקת האודיו. ההבנה הרב-מודאלית של Gemini הוכיחה את ערכה ביצירת הנחיות מוזיקה מתאימות עבור Lyria.

Key Moment
קולות AI, אנושיים באמת

המפגש הגיע לשיאו עם הצצה ל-Gemini 3.1 Flash Text-to-Speech, המציע שליטה חסרת תקדים על הבעת קול באמצעות 200 תגים נפרדים, המאפשרים קריינות קומית, מבוהלת, או אפילו במבטא בריטי. החשיפה המצופה ביותר הייתה Gemini 3.1 Flash Live, תכונת אווטאר חי חדשה המסוגלת לאינטראקציה בזמן אמת ולשלוף נתונים חיים מחיפוש גוגל. חדשנות זו פותחת דלתות ליישומים דינמיים בחינוך, הדרכה וסטרימינג בשידור חי. במבט קדימה, דאבאג'ה הביעה התרגשות לקראת "מודלי עולם" כמו Genie 3, המבטיחים להפוך יוצרים למפעילים בתוך סביבות שנוצרו על ידי AI, ולקראת התקדמות מתמשכת בהפחתת השהיית היצירה, ובכך לשפר את זרימת העבודה היצירתית.

Key Moment
מעבר לווידאו: מודלי עולם

הדבר המדהים במודל הזה הוא שהוא מתחבר לחיפוש גוגל. כך שהוא יכול לענות לכם עם נתונים חיים מחיפוש גוגל.

- Kulani Davaja, Product Marketing Manager for Gen Media

כתבות נוספות