פורסם בכללי.

הליגה נגד השמצה ואוניברסיטת ברקלי משיקות פרויקט פורץ דרך העושה שימוש בבינה מלאכותית ולמידת מכונה על מנת להבין את היקף השנאה באינטרנט

  • פברואר 8, 2018

ניו יורק, ארצות הברית, 6 בפברואר 2018…

המרכז לטכנולוגיה וחברה של הליגה נגד השמצה (ADL) הודיע על תוצאות ראשוניות של פרויקט חדשני העושה שימוש בבינה מלאכותית, בלמידת מכונה ובתובנות ממדעי החברה כדי לחקור מה ייחשב לדברי שנאה ברשת (Hate Speech) ומה לא. מטרת הפרויקט היא לסייע לתעשיית ההיי-טק להבין טוב יותר את היקף השנאה ההולך ומתרחב באינטרנט.

המרכז לטכנולוגיה וחברה (CTS) פועל בשיתוף פעולה עם D-Lab באוניברסיטת ברקלי מאז אפריל 2017 לפיתוח מדד השנאה ברשת. הליגה נגד השמצה ו-D-Lab פיתחו אלגוריתם שהחל ללמוד את ההבדל שבין ביטויי שנאה וביטויים שאינם כאלה. השלב הראשון של הפרויקט הושלם והממצאים הראשונים מופיעים בדו"ח שפורסם היום. הממצא המבטיח ביותר של הליגה נגד השמצה ושל D-Lab הוא שמודל הלמידה זיהה דברי שנאה באמינות של 78 עד 85 אחוזים מן המקרים.

"במשך יותר מ-100 שנים, הליגה נגד השמצה עומדת בחזית המעקב והמאבק בשנאה בעולם האמתי. כעת אנו מפעילים את המומחיות שלנו למעקב ולהתמודדות עם גזענות ודעות קדומות ברשת", אמר המנכ"ל העולמי של הליגה נגד השמצה, מר ג'ונתן גרינבלט. "על רקע התרחבות האיום הנשקף מדברי שטנה ברשת, המרכז לטכנולוגיה וחברה של הליגה נגד השמצה מכנס מומחים לפתרון בעיות ומפתח פתרונות שיאפשרו סביבה מכילה ומכבדת יותר באינטרנט. מדד השנאה ברשת הוא ראשון מבין פרויקטים רבים שאנו מתכננים לקחת על עצמנו. אוניברסיטת ברקלי הייתה שותף נפלא ואנו אסירי תודה ל-Reddit על המידע שסיפקו לנו ועל הפגנת מנהיגות של ממש במאבק בחוסר סבלנות בפלטפורמה שלהם."

"פרויקט זה טומן בחובו פוטנציאל אדיר להעצמת היכולת שלנו להבין את ההיקף והתפוצה של דברי שטנה ברשת," אמרה בריטן הלר, מנהלת המרכז לטכנולוגיה וחברה. "יש מי שמתאר את הקהילות באינטרנט ככיכר עיר ווירטואלית, אלא שבמציאות לא לכולם יש גישה ל-'כיכר העיר' הזו ולא כולם ברי מזל מספיק ויכולים לדבר ללא חשש. ביטויי שנאה ודיבור פוגעני ברשת מדירים מן השיח הציבורי את קולותיהם של מי שנמצאים בשוליים וממילא אינם מיוצגים כראוי. מטרתו של מדד השנאה ברשת היא לאפשר לנו להבין את העניין, לטפל בו ולוודא שקהילות מקוונות יהפכו לבטוחות ומכלילות".

המחקר הוביל למספר ממצאים מעניינים נוספים, כגון העובדה שכאשר מחפשים סוג אחד של שנאה, קל למצוא שנאה לסוגיה השונים. הממצאים הראשוניים לימדו כי קיימות מספר מילים הנוטות להופיע יותר בדברי שטנה. חמש המילים עם הקישור החזק ביותר לדברי שטנה הן: יהודי, לבן, שנאה, נשים ושחור.

במסגרת הפרויקט נמצא גם כי קיימים דפוסים אופייניים במבנה השפה המשמשת לדברי שנאה.

  • מספר המילים הממוצע בתגובות המהוות דברי שנאה נוטה להיות גדול יותר.
  • תגובות המהוות דברי שנה נוטות להכיל מעט יותר מילים הנכתבות כולן באותיות גדולות (caps Letter).
  • תגובות שהן דברי שנאה נוטות להיות מעט יותר ארוכות.

מטרת מדד השנאה ברשת היא לבחון מלל מאתרים שונים של מדיה חברתית ולפתח מודל שיסייע לחברות להבין טוב יותר את היקף התוכן המהווה דברי שנאה בפלטפורמות שלהן. הדבר נעשה באמצעות יצירת הגדרות מבוססות קהילה לדברי שנאה.

בשלב הראשון של הפרויקט, שנמשך מספר חודשים בשנת 2016, אספו החוקרים 9000 תגובות ממספר קהילות ב-Reddit. הם בחרו להתחיל את המחקר ב-Reddit בגלל מבנה קהילת הגולשים באתר, הנפח הגדול של תגובות שניתן לגשת אליהן בקלות ומשום שהמלל בפלטפורמה זו נוטה להיות דומה לשיחות יומיומיות, מקוונות ולא מקוונות. בשלבים הבאים של המחקר, בכוונתם של החוקרים להחיל את ממצאיהם על המלל בפלטפורמות אחרות של מדיה חברתית.

במקביל, פיתחו ב- D-Lab מתודולוגיה בתחום מדעי החברה המבוססת על הגדרה מדעית של דברי שנאה. המעבדה אספה צוות חוקרים מרקעים שונים, הכשירה אותם בכל האמור בהגדרות ובמתודולוגיה ולאחר מכן הגדירה האם כל אחת מן התגובות מהווה דברי שנאה, או שאינה כזו.

כאשר החוקרים סיימו לתייג את התגובות השונות, הם הזינו אותן למודל למידת מכונה. לאחר הערכה של מספר דוגמאות שאנשים סיווגו כדברי שנאה, או ביטויים שאינם כאלה, המודל הגדיר כללים.

"האלגוריתמים שפותחו בלמידת מכונה יכולים לפענח האם טקסט מהווה דברי שנאה או שאינו כזה." אמרה קלאודיה וון ווקאנו, המנהלת בפועל של D-LAb ומדעי הרוח הדיגיטליים באוניברסיטת ברקלי. "המשמעות היא שמדד השנאה ברשת אינו בעל הגדרה סטטיסטית, משום שהוא מוזן במידע מתויג המשמש את מודל החיזוי."

השלב הבא של הפרויקט עתיד להתקדם הלאה מעבר לניתוח פשוט זה של דברי שנאה, ויוכל להעריך אוכלוסיות מסוימות באופן מפורט יותר. בנוסף לכך, D-Lab יעסקו בפיתוח אסטרטגיות לשדרוג התהליך, כך שניתן יהיה לבצע פריסה נרחבת של המודל. אין ספק שיש עוד דרך ארוכה לצעוד בתחום הבינה המלאכותית והפתרונות המבוססים על למידת מכונה. יחד עם זאת, הליגה נגד השמצה ו-D-Lab מאמינות כי בטכנולוגיות הללו טמונה הבטחה למציאת דרכים חדשות לריסון ההיקף האדיר של דברי שנאה ברשת.

קראו עוד על המרכז לטכנולוגיה וחברה כאן.