לפני חודשים ספורים, אם רצית ליצור תמונה של משהו, היית צריך להיות מסוגל לשרטט, לצייר או להשתמש באחד מכלי הפוטושופ שאחרים ממשיכים לדבר עליהם. עם זאת, אחרי 2022 הכל השתנה, הכל הודות ל-AI - כן, כמו ב"בינה מלאכותית".
במקום לנסות לשלוט בעולם, כלי AI בעלי נטייה אמנותית יכולים להפוך כל דבר שאתה מתאר להם לתמונה.
בוא איתנו כשאנחנו נכנסים לעולם של הדמיית טקסט המופעלת על ידי בינה מלאכותית, וראה כיצד אתה יכול להשתמש בכלים כאלה כדי להמיר את המחשבות שלך לתמונות ממשיות על ידי הקלדת מה שאתה חושב בלבד.
Dall-E: הצד האמנותי של ה-GPT-3 של OpenAI
הכלים הראשונים המופעלים על ידי AI שהפכו פופולריים התבססו על GPT-3 של OpenAI. אחת הסיבות הייתה הפתיחות של הפרויקט לגישה חיצונית, שהובילה לכמה הצעות לכך GPT-3 הוא העתיד של עבודה יצירתית.
היום אתה יכול להשתמש בכלים הרשמיים שאתה יכול למצוא בהם אתר הבטא של OpenAI או פתרונות צד שלישי המנצלים את כוחות העל הלשוניים שלו. לדוגמה, אתה יכול לבקש מ-GPT-3 להמציא טיוטה לפוסט, לענות על שאלות פשוטות, או אפילו לשנות או לתרגם טקסט כלשהו.
בשנת 2022 חשפה OpenAI ש-GPT-3 היה טוב באותה מידה ביצירת תמונות. פרויקט DALL-E, משחק בסרט WALL-E של פיקסאר ושמה של דאלי, משתמש ב-GPT-3 לא לעבודה עם טקסט אלא כמנוע ליצירת תמונות.
בדיוק כמו עם GPT-3 וטקסט, DALL-E הוא לא ממש גאון יצירתי, שמממש תמונות יש מאין. במקום זאת, הוא "אומן" על מיליוני תמונות שכבר קיימות באינטרנט. כוחות הבינה המלאכותית שלה טמונים בניתוח התמונות הללו, נטילת אלמנטים מהן, שינוי, שינוי, התאמה ולבסוף שילובם לתמונות חדשות.
לפחות, זו גרסה פשוטה של מה שקורה ברקע. לרוב האנשים יהיה אכפת רק ממה שהם רואים מולם, וזו תיבת טקסט שבה אתה יכול להקליד משהו ולראות אותו הופך לתמונה לאחר כמה דקות.
התשובה התדמיתית של גוגל
גוגל היא אחת משלושת ה"שחקנים" המובילים במחקר בינה מלאכותית. ובכל זאת, ההתקדמות שלהם לא ניתנת לתפיסה בקלות, וגם ההטמעות שלה במוצרים לא נגישות כמו ההצעות של OpenAI.
אחת ההטמעות הראשונות הזמינות ביותר של Google AI הייתה ב-Google Docs וב-Gmail, בצורה של השלמה אוטומטית חכמה יותר והצעות, המכונה Smart Compose. לא נצלול לפרטים מכיוון שסיקרנו בעבר כתיבה חכמה (ואיך אתה יכול להשתמש בו).
כאשר התכונות הללו פעילות, אפליקציות האינטרנט של גוגל משווים את מה שהמשתמש מקליד למה שמיליוני אחרים כתבו בעבר. ואז, זה מציע מה הם הקלידו אחר כך.
זו הוכחה שלמרות מה שאנחנו אוהבים להאמין, אנחנו לא כל כך שונים. אם 99 מתוך 100 אנשים יקלידו "מאוחר יותר" אחרי "נתראה", כנראה שגם זה מה שהיינו ממשיכים להקליד.
כולנו השתמשנו בצורה כלשהי של השלמה אוטומטית, אפילו ממערכת הטקסט החזוי T9 של עידן ה-"dumbphone". זו הסיבה שכלי הבינה המלאכותית של גוגל לא נראו חכמים כמו ה-GPT-3 של OpenAI. הם לא הרגישו בשימוש הרבה יותר מאשר מערכת T9 טובה יותר ששופרה במאה ה-21. וזו גם הסיבה שהחשיפה של אימגן הייתה קצת הלם.
כמו DALL-E על סטרואידים, Imagen הוא כלי להדמיית טקסט. בהתבסס על מה שזמין היום, אימג'ן יכולה לייצר תמונות "נקיות" וחיות יותר תוך שהיא יודעת להתמודד עם תכונות מתקדמות כמו דיפוזיה ושקיפות.
לרוע המזל, בזמן כתיבת שורות אלה, הגישה ל-Image נותרה מוגבלת, כך שלא יכולנו לנסות זאת.
DALL-E Mini and Friends: פתוח לעסקים
אינך יכול לגשת באופן חופשי ל-DALL-E ו-Imagn — עדיין. ובכל זאת, חלופות רבות כבר זמינות אם אתה רוצה להשתטות עם יצירת תמונות טקסטואליות המופעלות על ידי AI.
קחו בחשבון שאלו הם הימים הראשונים, והתוצאות או חווית המשתמש שהם מציעים עשויים להיות רחוקים מלהיות אופטימליים, עדיין כדאי לבדוק כמה מהדברים הבאים.
יצירת ממים עם Dall-E Mini
הודות לשילוב של תוצאות יותר מתאימות וממשק ידידותי למשתמש, אך חשוב מכך, הזמינות הרחבה שלו, DALL-E mini הפך לאחד ממראי הטקסט הפופולריים ביותר של AI.
רחוק מלהיות מושלמות, לפעמים התוצאות של DALL-E mini יכולות להיות מופשטות יותר מהמתוכנן.
פעמים אחרות זה עלול להיכשל ביצירת מה שחשבתם אבל יכול להתקרב למדי.
לאחר התפוצצות הפופולריות שלו, היוצרים של DALL-E mini העבירו אותו לבית חדש תחת מיתוג חדש. עכשיו אתה יכול למצוא את הגרסה האחרונה של DALL-E mini כ קרייון באתר משלו.
השימוש ב-Crayon היום הוא קל כמו חיפוש מקוון של תמונה קיימת. אתה יכול לבקר באתר שלו, להקליד תיאור של התמונה שלך בשדה הטקסט שלה, וללחוץ על Enter. לאחר זמן מה, תראה את התוצאות על המסך שלך.
מה שמדהים הוא כמה טובים Craiyon וכלים דומים בחיקוי סגנונות חזותיים. לדוגמה, ביקשנו ממנו להעלות תמונות של גור על סקייטבורד:
לאחר מכן, השתמשנו בביטוי המדויק אך הוספנו אחריו "סגנון פיקסאר". לאחר זמן מה, קרייון הראה רשת של תמונות "קריקטוריות" יותר, קרובות יותר למה שאנו תופסים כגרפיקה של פיקסאר בסרטים האהובים שלהם.
קרייון נתן לנו תוצאות טובות עוד יותר כשהחלפנו את "סגנון פיקסאר" ב"סגנון אנימה" באותה הנחיה.
אנימה מסוגננת יותר במראה שלה מהתמונות היותר מציאותיות של פיקסאר, שנראה שעזרו לקראיון לייצר כמה תמונות כמעט מוכנות לשימוש.
להשתטות עם דיפוזיה סמויה
מודל הדיפוזיה הסמויה שאומן על מערך הנתונים של LAION-400M הוא עוד חזותי טקסט מעניין של AI. עם זאת, זה גם יותר מסובך בשימוש בו. עליך להפעיל אותו באינטרנט במכונה וירטואלית ולשחק עם הפרמטרים השונים שלו במקום רק להקליד בשדה טקסט. ובכל זאת, זה קל יותר ממה שזה נשמע.
- בקר ב Google Latent Diffusion colab space זה כרגע הבית שלה.
- גלול מעט למטה ושימו לב ל מיידי שדה מתחת פרמטרים. החלף את הנחיית ברירת המחדל במה שאתה רוצה שהתמונה שלך תציג.
- בחר הפעל הכל מ ה זמן ריצה תפריט, או לחץ על CTRL + F9.
- אם אתה רוצה להיות מסוגל לייצא את התמונות שהופקו ישירות מתוך הכלי, ענה בחיוב כשתישאל אם אתה רוצה לקשר אותו לחשבון Google Drive שלך. לכלי לוקח זמן להשלים את התצורה שלו וצריך להוריד כמה קבצים במהלך התהליך.
הגדלת הערכים עבור שלבים, איטרציות, ו דוגמאות_במקבילות, עשוי להוביל לתוצאות מפורטות יותר. עם זאת, הכלי תובעני ביותר במשאבים בשרתים של גוגל. כתוצאה מכך, הוא עלול לקרוס אם תגדיל את הערכים הללו יותר מדי, או שתהליך יצירת תמונה מסוימת הופך מסובך מהצפוי.
חלופות מעניינות
בילינו זמן משמעותי בבדיקת DALL-E mini ודיפוזיה סמויה. השיטה המדעית שלנו כללה שני חלקים נפרדים. ראשית, היינו צריכים להמציא מושגים שניתן לתאר במדויק כמשוגעים. לאחר מכן, בקש ממחשבי AI להפוך אותם לתמונות. לעתים קרובות יותר מהצפוי, הם הצליחו, והתקרבו למערך הכללי שדמיינו.
ניסינו גם כמה מהחלופות הזמינות עבור מאמר זה. אנחנו עדיין מחכים לגישה לאחרים. כמה מאלה ששווה לבדוק הם (ללא סדר מסוים):
- אמצע מסע
- בטא של MindsEye
- StarryAI
- חולם
- דיסקו דיפוזיה
האם אמנות שנוצרת בינה מלאכותית תחליף את האמנות החזותית?
השפע והפופולריות ההולכת וגוברת של כלים המונעים בינה מלאכותית מובילים רבים למסקנה שהאמנות החזותית תמות בקרוב. מה הטעם להשקיע את הזמן והאנרגיה כדי ללמוד איך לצייר או להשתמש בתוכנה מסובכת כדי לדמיין דברים כאשר בינה מלאכותית יכולה לעשות זאת מהר יותר (ובקרוב טוב יותר) ממך?
אם שמתם לב, הכלים האלה "אומנים על מערכי נתונים". באנגלית פשוטה, זה אומר שהם עושים את מה שהם עושים הודות לבני אדם שכבר עשו את אותו הדבר בעבר.
זה הרמז מדוע הכלים האלה לא יכולים להחליף את האומנות האנושית, היצירתיות וההמצאה. הם מחקים, משכפלים חכמים. בלי המסמכים המקוריים שיוצרו על ידי אדם עליהם הם מאומנים, הם לא היו מסוגלים להפיק שום פלט.
ובכל זאת, זה העכשיו, ואנחנו מודים שאנחנו לא יודעים מה צופן העתיד. לעת עתה, אמנים חזותיים יכולים לישון בבטחה. עם זאת, בקצב שבינה מלאכותית מתפתחת, מומחים רבים בנושא מסכימים שזה לא עניין של אם היא תחליף אי פעם את העבודה של אנשים כמוך באמת. זה רק עניין של מתי.
אבל היי, זה לא הכל אבדון וקדרות. בעוד Skynet מתכוננת לקחת את העבודה שלנו, לפחות אנחנו יכולים להאיר את מצב הרוח שלנו על ידי יצירת תמונות ללא מאמץ של גורים על סקייטבורד!