התניה אופרנטית (אינסטרומנטלית): למידה כתהליך של ניסוי וטעייה

תקציר: למידה היא תהליך של ניסוי וטעייה: בעלי חיים ובני אדם משנים ומשכללים את התנהגותם, בעקבות החיזוקים ו/או העונשים אשר מתקבלים כתגובה למעשיהם. גישה זו נקראת גם "למידה אינסטרומנטלית", משום שהיא עוסקת בהתנהגויות ככלי (אניסטרומנט) להשגת דבר מבוקש: תוצאות חיוביות מגדילות הסתברות שההתנהגות תתרחש; ו- תוצאות שליליות מקטינות הסתברות שההתנהגות תתרחש. ההתניה מלמדת את הנבדק לנקוט פעולה או להימנע מפעולה כדי להשיג את רצונו. משמע, זהו היא שינוי בתדירות התגובה כתוצאה מקבלת חיזוק לאחר ביצוע התגובה. לדוגמה: עובד משקיע ומתאמץ משום שהמנהל שלו ממשיך לשבח אותו. יש קשר ישיר בין ההתנהגות לבין הגירוי (התשבחות)...

[התמונה המקורית היא תמונה חופשית - CC0 Creative Commons - שעוצבה והועלתה על ידי rihaij לאתר Pixabay]

[לאוסף המאמרים על 'למידה', לחצו כאן]

המאמר עודכן ב-25 במרץ 2020

ניצב משנה בגמלאות, ד"ר פנחס יחזקאלי הוא שותף בחברת 'ייצור ידע' ואיש אקדמיה. שימש בעבר כראש המרכז למחקר אסטרטגי ולמדניות של צה"ל. הוא העורך הראשי של אתר זה.

* * *

התניה (Conditioning) היא מושג חשוב בלמידה ההתנהגותית, העוסק בקשר שבין האירועים: קביעת תנאי, יצירת תלות בין קיומו של דבר אחד לדבר אחר (קשר בין אירועים).

גירויים בסביבה יוצרים תגובה חיובית / שלילית. התגובה הזו נלמדת, ותשפיע על הישנותה בעתיד לגירויים דומים.

אנו מבדילים בין שני סוגי התניות על פי התפתחותו ההיסטורית של המושג:

התניה קלאסית: למידת קשר בין גירויים. בסוג התניה זו עוסק המאמר.
הטיה אופרנטית (אינסטרומנטלית): למידת קשר בין התנהגות לתוצאה.

[להרחבה בנושא: 'התניה', לחצו כאן] [למאמר: 'למידה התנהגותית (ביהוויוריסטית) ומושג ההתניה', לחצו כאן] [להרחבה בנושא התניה קלאסית, לחצו כאן]

התניה אופרנטית (אינסטרומנטלית) (Operant conditioning)

למידה היא תהליך של ניסוי וטעייה: בעלי חיים ובני אדם משנים ומשכללים את התנהגותם, בעקבות החיזוקים ו/או העונשים אשר מתקבלים כתגובה למעשיהם.

גישה זו נקראת גם "למידה אינסטרומנטלית", משום שהיא עוסקת בהתנהגויות ככלי (אניסטרומנט) להשגת דבר מבוקש:

תוצאות חיוביות מגדילות הסתברות שההתנהגות תתרחש.
תוצאות שליליות מקטינות הסתברות שההתנהגות תתרחש.

ההתניה מלמדת את הנבדק לנקוט פעולה או להימנע מפעולה כדי להשיג את רצונו. משמע, זהו היא שינוי בתדירות התגובה כתוצאה מקבלת חיזוק לאחר ביצוע התגובה. לדוגמה: עובד משקיע ומתאמץ משום שהמנהל שלו ממשיך לשבח אותו. יש קשר ישיר בין ההתנהגות לבין הגירוי (התשבחות).

ההתניה האופרנטית מזוהה עם שניים:

אדוארד לי תורנדייק (Thorndike; 1949-1874), מחלוצי הפסיכולוגים שעסקו בעקרונות ותהליכי למידה. תורנדייק עסק כל חייו המקצועיים בחקר התנהגות בעלי חיים ובני אדם, באוניברסיטת קולומביה.
פרדריק סקינר (Skinner; 1990-1904) הוא הפסיכולוג האמריקני המשפיע ביותר בגישה הביהביוריסטית, במאה ה-20. הוא היה זה שטבע את המונח התניה אופרנטית (או אינסטרומנטלית) (להבדיל מההתניה הקלאסית של פבלוב).

[תמונתו של תורנדייק מימין, היא נחלת הכלל; תמונתו של סקינר משמאל נוצרה והועלתה לויקיפדיה על ידי: self-made (by User:Silly rabbit). Updated in the Gimp by User:Michaelrayw2 קובץ זה הוא בעל רישיון Creative Commons להפצה, תחת רישיון זהה, גרסה: CC BY 3.0]

"חוק ההשפעה / חוק התוצאה" (Law of Effect)

היה זה תורנדייק, שניסח ב- 1911 את "חוק ההשפעה / חוק התוצאה" (Law of Effect), הגורס כי: התנהגות שמובילה לתגובה טובה תחזור על עצמה; ולהפך!

החתול והדג

הבסיס לחוק זה היה הניסוי שערך תורנדייק: חתול רעב הושם בכלוב, ובחוץ הונח דג. החתול יכול להגיע לדג אם יתפעל מנוף, שבעזרתו ייפתח הכלוב. תחילה החתול נגע במקרה במנוף והכלוב נפתח. בכל צעד נוסף, לחתול נדרש פחות זמן על מנת לפתוח את הכלוב (אם כי אף פעם לא ניגש ישר למנוף). ת'ורנדייק טען שמעט מאד אינטליגנציה מעורבת בתהליך. אין לחתול הארה כיצד לפתור את הבעיה, אלא ההתנהגות שלו משתפרת בהדרגה על פני כמה ניסיונות.

הגירוי הוא הדג (המזון) שמחוץ לכלוב.
התגובה על הגירוי היא הלחיצה על המנוף.

התגובה על הגירוי תקבע אם תילמד התגובה ותחזור על עצמה. אם התגובה הייתה מוצלחת (הביאה להשגת הדג), היא תילמד, לאורך זמן, ותחזור על עצמה!

'קופסת סקינר'

סקינר הדגים, איך אפשר להשתמש ב'חוק ההשפעה' ללמידה. הוא עשה זאת באמצעות 'קופסת סקינר' – קופסה לעכברושים שאפשר להוביל זרם חשמלי לרצפה שלה, וכך להכאיב, או לתת אוכל באמצעות קופסת אוכל בקיר. כך אפשר לחזק או להחליש התנהגויות. למשל: בכל פעם שהעכבר לוחש על הדוושה הוא מקבל אוכל. הוא ילחץ על הדוושה שוב ושוב. כשרוצים ללמד אותו להפסיק ללחוץ על הדוושה ייתנו לו שוק חשמלי בכל פעם שהוא ילחץ עליה. כעבור מספר פעמים העכבר יפסיק ללחוץ על הדוושה.

הבסיס ללמידה הוא האסוציאציה שבין ההתנהגות לתוצאותיה. ההתניה (קישור בין פעולות) מתבצעת באמצעות חיזוקים או באמצעות ענישה:

[להתניה באמצעות חיזוקים, לחצו כאן] [להתניה באמצעות ענישה, לחצו כאן]

על פי רוב, חיזוק יעיל יותר מעונש:

ערכו של החיזוק גדול יותר בעיני המקבל.
בניגוד לחיזוק, העונש מלמד רק מה לא לעשות.
העונש מדכא תגובה לא רצויה רק באופן זמני.
עונש יוצר תגובות שליליות חזקות כלפי הנותן.

חמישה עקרונות להתניה האופרנטית

הכללה: נגיב באופן דומה לגירויים דומים.
הבחנה: נגיב באופן שונה לגירויים שונים.
הכחדה / דעיכה: תהליך הפוך מלמידה. היא מוחקת תגובה מותנית (היכולת לקשר בין גירויים - שאינם קשורים זה לזה באופן טבעי - מתוך התנסויות בסביבה) שנלמדה בעבר.
החלמה ספונטנית: לאחר זמן, זוכרים את הדברים הטובים... התגובה המותנית יכולה לחזור; אך בעוצמה נמוכה יותר.
עיצוב התנהגות.

הכללה (Generalization): נגיב באופן דומה לגירויים דומים

הכושר שלנו להכליל מסייע לנו מאוד בהסתגלות לסביבה ולהישרדות. אילו היה עלינו ללמוד כל גירוי וגירוי, לא היינו מצליחים להתקדם. למשל, הכלב של פבלוב יגיב באופן דומה לקריאה במקום לצלצול.

“אלברט הקטן": הניסוי של ג'ון ווטסון

זהו ניסוי מפורסם שערך, ג'ון ברודס ווֹטְסון (Watson; 1958-1878), מאבות תורת הביהביוריזם.
ווטסון לקח תינוק בין שמונה חודשים, שלא פחד מחיות כלל.
כשהראה לו עכברושים, השמיע, תוך כדי כך, רעש חזק שהבהיל את התינוק.
כעבור שש חזרות, התינוק הגיב בפחד לעכברוש, גם לחיות אחרות, וגם לג'ון ווטסון, כשלבש מסכה עם זקן.
משמע, ניתן ללמד אדם לפחד בצורה ע"י ציוות של גירוי מפחיד באמת לגירוי ניטרלי.

הבחנה (Discrimination): הופעת תגובה שונה לגירויים שונים

זהו תהליך הפוך להכללה.
הכלב מבחין בין צלצול לפני בשר לצלצול ללא בשר, ומגיב בהתאם.
או שהוא מבין שהצלצול איננו מבשר על הגעת מזון, ומפסיק לרייר.

הכחדה / דעיכה: אי אפשר לעבוד על כולם כל הזמן...

הצגת הגירוי המותנה ללא הגירוי הבלתי מותנה, לאורך זמן, גורמת לדעיכה, ולבסוף: להפסקת התגובה המותנית.
דעיכה היא תהליך הפוך מלמידה והיא מתרחשת בעקבות הצגת הגירוי המותנה ללא הגירוי הבלתי מותנה לאורך זמן.
למשל הכלב בניסוי של פבלוב ישמע רק את הפעמון ולא יקבל אוכל לאחריו. בעקבות כך תגובת הריור תקטן עד שתיפסק לחלוטין.
הקשר בין הגירוי המותנה לבלתי מותנה הופסק ולכן הכלב אינו מצפה לכלב מזון לאחר שמיעת צליל הפעמון. התהליך שמתרחש

החלמה ספונטנית (Extinction): לאחר זמן, זוכרים את הדברים הטובים...

הופעת התגובה המותנית שהוכחדה מופיעה שנית - אם כי בעוצמה נמוכה יותר - לאחר תקופת הפסקה, כשהוצג שוב הגירוי המותנה.
נניח שלאחר שנעשתה הכחדה של התגובה המותנית (ריור למשמע פעמון), תהיה תקופת מנוחה ולא יושמע כלל צליל פעמון לכלב.
לאחר תקופת מנוחה זו, נשמיע לכלב את צליל הפעמון.
כיצד יגיב? האם ירייר?
באופן מפתיע, על אף שהתגובה עברה תהליך של הכחדה, כאשר הכלב ישמע את הפעמון הוא ירייר.
עם זאת הוא ירייר פחות מאשר בשלב הלמידה.

עיצוב התנהגות (Shaping)

עיצוב ההתנהגות מתבצע דרך למידה בהדרגה (sucssesive aproximation ).
מתחילים ממשהו שקורה באופן ספונטני, ואז מתמקדים בהדרגה.
כל פעם שההתנהגות החדשה, הנלמדת, מתייצבת; עוברים לשלב הבא.
לדוגמה: קודם נתגמל את הבעל להיכנס למטבח, ואז על קירבה לכיור, ואז על החזקת הסבון...