רועי צזנה: עוד התקדמות בדרך לאל הממוחשב ששומע הכל ורואה הכל

[התמונה המקורית היא תמונה חופשית - CC0 Creative Commons - שעוצבה והועלתה על ידי succo לאתר Pixabay]

[מאמר זה ראה אור במקור באתר של דוקטור רועי צזנה]

רועי צזנה

המחבר (ראו תמונה משמאל), רועי צזנה, הוא דוקטור לננו-טכנולוגיה; עמית בסדנת יובל נאמן למדע, טכנולוגיה וביטחון באוניברסיטת תל אביב, ומרצה בפקולטה להנדסה ביו-רפואית בטכניון. בוגר קורס המנהלים של אוניברסיטת הסינגולריות ומחבר הספר המדריך לעתיד. [התמונה משמאל: מאלבום התמונות הפרטי של המחבר] האתרים של ד"ר רועי צזנה   

*  *  *

בפינתנו היום אני רוצה לסקור פיתוח חדש של מיקרוסופט, שבמבט ראשון אינו נראה מרשים במיוחד. בראייה רחבה יותר, אני מאמין שהוא מרמז על כוחה של הבינה המלאכותית לשנות את העולם.

הרעיון עצמו פשוט למדי: חוקרים במעבדות מיקרוסופט פיתחו מערכת חדשה לתמלול פגישות בעולם הפיזי. במקום להסתמך על מיקרופון אחד בלבד, המערכת מתחברת לכל הסמארטפונים והמחשבים הניידים בחדר, ומקבלת מידע מהמיקרופונים שלהם בזמן אמת. המידע הזה עובר אינטגרציה, כך שבסופו של דבר, המערכת מסוגלת להבין ולתמלל את הדיבור בחדר, טוב יותר מכפי שהייתה יכולה לעשות זאת בהסתמך על מיקרופון אחד בלבד[1].

למה זה חשוב?

מכיוון שאנו רואים כאן את ההתחלה של תפיסה חדשה, שמסתמכת על 'מוח' ממוחשב, המסוגל לקבל מידע ממספר רב של ערוצים בו-זמנית, ולהפיק ממנו משמעות. אנו איננו יכולים לעשות זאת: אנו מוגבלים למידע שמיעתי המגיע משני ערוצים בלבד – אוזן ימין ואוזן שמאל. אבל 'מוחות' ממוחשבים אינם ניחנים במגבלה דומה, והם מסוגלים לקבל מידע שמיעתי מעשרות, מאות ואפילו אלפי ערוצים. כל עוד הם ניחנים בכוח המחשוב הנחוץ, הם מסוגלים להפיק תובנות בעלות משמעות מכל המידע הזה.

יש השלכות עצומות לתפיסה הזו. דמיינו שאתם מגיעים להרצאה בעוד חמש שנים. ברגע שאתם נכנסים לאולם, הטלפון שלכם מצטרף אוטומטית לרשת הרחבה שכוללת את הסמארטפונים של כל המאזינים האחרים. כל הטלפונים מקשיבים ביחד למרצה, ובסוף ההרצאה תקבלו את התמליל המדויק של כל מה שהוא אמר.

[התמונה המקורית היא תמונה חופשית - CC0 Creative Commons - שעוצבה והועלתה על ידי TheDigitalArtist לאתר Pixabay]

אבל למה לעצור במידע שמיעתי בלבד? בפעם הבאה שתלכו לקונצרט רוק עם אלפי אנשים בקהל, תוכלו לשתף גם את המידע החזותי המתקבל מהסמארטפון שלכם. כלומר, את קטעי הווידאו שאתם מצלמים. כל קטע וידאו כזה בפני עצמו אינו מעניין במיוחד, אבל זכרו שעשרות אנשים מצלמים כל הזמן, כל אחד מנקודה אחרת בקהל. אלגוריתמים מתקדמים יוכלו לאחות את כל הצילומים הללו כדי להפיק סרטים של האירוע השלם.

התפיסה הזו פותחת גם צוהר לעולם העבודה החדש. באחת מהופעותיי האחרונות על הבמה באוסטרליה, טכנאי הסאונד גיחך קלות כששמע שאני סבור שהבינה המלאכותית יכולה לגזול מקומות עבודה מבני-אדם.

"ומי יחבר לך את המיקרופון לדש?" הוא שאל, תוך שידיו עוברות על גופי במיומנות. "מי ישחיל את הכבלים מתחת לחולצה שלך, ויחבר את הסוללה והמקלט לחגורה? מי יפעיל את המצלמה שמתעדת אותך על הבמה?"

והנה, אחת התשובות היא שפשוט לא יהיה צורך בכל המכשירים הייעודיים האלו. הם יוחלפו בכוח ההמון: בעשרות או מאות סמארטפונים שישתפו את המידע השמיעתי והחזותי ברמה שעולה על זו המתקבלת ממיקרופון בודד או מצלמה בודדת – משוכללים ככל שיהיו.

כמובן, אי אפשר שלא לחשוב גם על הבעיות הטמונות בתפיסה זו. גופי ביון, למשל, יגירו ריר לנוכח האפשרות לשמוע הכל ולראות הכל. כבר עכשיו מקבלים גופי ביון רבים מידע מהסמארטפונים שלנו (לממשלת ארצות הברית, למשל, יש גישה לכל מה שאתם מקליטים ומעלים לענן של גוגל או פייסבוק). מה יקרה כשהם יוכלו לאחות את כל פיסות המידע הנפרדות האלו, כדי להרכיב תמונה גדולה וברורה יותר של העולם? והאם אנו רוצים באמת לתת בידיהם את הכוח הזה?

[התמונה המקורית היא תמונה חופשית - CC0 Creative Commons - שעוצבה והועלתה על ידי geralt לאתר Pixabay]

ייתכן שבעיה זו תיפתר בכוחן העתידי של טכנולוגיות הבלוקצ'יין, שאמורות ליצור רשתות תקשורת שיהיו חסינות לפריצה ולרחרוח מצד הממשלות. אולי. אבל יש עוד זמן עד אז. בינתיים, אפשר להסתפק בכך שהתפישה החדשה – זו שמספקת לבינה המלאכותית יכולת הצלבת מידע – אמורה לשרת את הציבור באמצעות שילוב הציבור עצמו. כולנו נצטרך 'לנדב' את כוח השמיעה, הראייה והתקשורת של הסמארטפונים שלנו, כדי לתת לבינה המלאכותית את המידע שהיא צריכה כדי לסייע לכולנו. כולם למען כולם.

זה בהחלט עתיד שאני יכול להתחבר אליו.

מקורות והעשרה

[1] https://www.microsoft.com/en-us/research/uploads/prod/2019/05/DenmarkTechReport-5ccb8b095c8f3.pdf

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *