A Blog by Jonathan Low

 

Jun 6, 2021

Why AI Still Sucks At Moderating Hate Speech

Creating AI that understands the nuances of human language and the context in which it is used remains very difficult. 

Which is why big tech efforts to apply it to moderating hate speech have largely failed. JL  

Karen Hao reports in MIT Technology Review:

In a new study, scientists tested four of the best AI systems for detecting hate speech and found that all of them struggled in different ways to distinguish toxic and innocuous sentences. The results point to one of the most challenging aspects of AI-based hate-speech detection today: Moderate too little and you fail to solve the problem; moderate too much and you censor the kind of language that marginalized groups use to defend themselves. Creating AI that understands the nuances of natural language is hard.

For all of the recent advances in language AI technology, it still struggles with one of the most basic applications. In a new study, scientists tested four of the best AI systems for detecting hate speech and found that all of them struggled in different ways to distinguish toxic and innocuous sentences.

The results are not surprising—creating AI that understands the nuances of natural language is hard. But the way the researchers diagnosed the problem is important. They developed 29 different tests targeting different aspects of hate speech to more precisely pinpoint exactly where each system fails. This makes it easier to understand how to overcome a system’s weaknesses and is already helping one commercial service improve its AI.

The study authors, led by scientists from the University of Oxford and the Alan Turing Institute, interviewed employees across 16 nonprofits who work on online hate. The team used these interviews to create a taxonomy of 18 different types of hate speech, focusing on English and text-based hate speech only, including derogatory speech, slurs, and threatening language. They also identified 11 non-hateful scenarios that commonly trip up AI moderators, including the use of profanity in innocuous statements, slurs that have been reclaimed by the targeted community, and denouncements of hate that quote or reference the original hate speech (known as counter speech).

For each of the 29 different categories, they hand-crafted dozens of examples and used “template” sentences like “I hate [IDENTITY]” or “You are just a [SLUR] to me” to generate the same sets of examples for seven protected groups—identities that are legally protected from discrimination under US law. They open-sourced the final data set called HateCheck, which contains nearly 4,000 total examples.

The researchers then tested two popular commercial services: Google Jigsaw’s Perspective API and Two Hat’s SiftNinja. Both allow clients to flag up violating content in posts or comments. Perspective, in particular, is used by platforms like Reddit and news organizations like The New York Times and Wall Street Journal. It flags and prioritizes posts and comments for human review based on its measure of toxicity.

While SiftNinja was overly lenient on hate speech, failing to detect nearly all of its variations, Perspective was overly tough. It excelled at detecting most of the 18 hateful categories but also flagged most of the non-hateful, like reclaimed slurs and counter speech. The researchers found the same pattern when they tested two academic models from Google that represent some of the best language AI technology available and likely serve as the basis for other commercial content-moderation systems. The academic models also showed uneven performance across protected groups—misclassifying hate directed at some groups more often than others.

The results point to one of the most challenging aspects of AI-based hate-speech detection today: Moderate too little and you fail to solve the problem; moderate too much and you could censor the kind of language that marginalized groups use to empower and defend themselves: “All of a sudden you would be penalizing those very communities that are most often targeted by hate in the first place,” says Paul Röttger, a PhD candidate at the Oxford Internet Institute and co-author of the paper.

Lucy Vasserman, Jigsaw’s lead software engineer, says Perspective overcomes these limitations by relying on human moderators to make the final decision. But this process isn’t scalable for larger platforms. Jigsaw is now working on developing a feature that would reprioritize posts and comments based on Perspective’s uncertainty—automatically removing content it’s sure is hateful and flagging up borderline content to humans.

What’s exciting about the new study, she says, is it provides a fine-grained way to evaluate the state of the art. “A lot of the things that are highlighted in this paper, such as reclaimed words being a challenge for these models—that’s something that has been known in the industry but is really hard to quantify,” she says. Jigsaw is now using HateCheck to better understand the differences between its models and where they need to improve.

Academics are excited by the research as well. “This paper gives us a nice clean resource for evaluating industry systems,” says Maarten Sap, a language AI researcher at the University of Washington, which “allows for companies and users to ask for improvement.”

Thomas Davidson, an assistant professor of sociology at Rutgers University, agrees. The limitations of language models and the messiness of language mean there will always be trade-offs between under- and over-identifying hate speech, he says. “The HateCheck dataset helps to make these trade-offs visible,” he adds.

31 comments:

derlean said...

Hole IO offers several game modes, including Classic, Battle, and Solo Run. Each mode provides a unique twist on the core gameplay, ensuring variety and replayability.

Scratch Geometry Dash said...


This study shows how challenging it is to balance AI accuracy in hate speech detection, with tools like HateCheck helping identify specific weaknesses. Combining AI with human moderation and nuanced datasets offers a promising path forward.

hai tran said...
This comment has been removed by the author.
Văn Long said...

Không chỉ mang lại nội dung phong phú, https://hbbet8.com còn thường xuyên cập nhật các chương trình ưu đãi hấp dẫn để gia tăng trải nghiệm người dùng. Sự kết hợp giữa chất lượng, tốc độ và dịch vụ giúp HBBET trở thành lựa chọn đáng cân nhắc cho người chơi hiện đại.

Bùi Hùng said...

soibet is an online brand focused on digital entertainment and user-friendly experiences. With modern design and clear features, soibet attracts users seeking simple and engaging platforms.

Alexandra09 said...

https://58win8z.com/ nổi bật nhờ kho trò chơi phong phú, tỷ lệ cược cạnh tranh và nhiều chương trình khuyến mãi hấp dẫn dành cho cả người chơi mới lẫn hội viên lâu năm.

Alexandra09 said...

Chào mừng bạn ghé thăm https://nhacaiuytin.archi/ – nơi cập nhật bài viết phân tích, so sánh và hướng dẫn an toàn trong lĩnh vực giải trí trực tuyến.

Alexandra09 said...

Chào mừng đến với https://abc8h.org/ – nơi mà mỗi ván cược đều được bảo mật an toàn với công nghệ hiện đại và quy trình giao dịch siêu nhanh!

Alexandra09 said...

Trang chủ https://bet168c.com/ là nơi giới thiệu cấu trúc website và các mục nội dung liên quan. Người dùng có thể xem thông tin chung, hướng dẫn cơ bản và các phần hỗ trợ, từ đó hiểu được cách website tổ chức và cung cấp nội dung giải trí trực tuyến.

Alexandra09 said...

Chào mừng bạn đến với https://ok365t.fit/ – không gian giải trí online năng động và hiện đại!

none said...

Đến với https://abc88.app/ để trải nghiệm nền tảng giải trí hiện đại, đa dạng và thân thiện!

Alexandra09 said...

https://9keonhacai.com/ – Nơi hội tụ đam mê thể thao, cung cấp các loại kèo cược phong phú cùng các sự kiện lớn nhỏ trên toàn cầu, giúp bạn tận hưởng trọn vẹn cảm giác đặt cược.

none said...

Chào mừng bạn đến với Febet – nơi mang đến trải nghiệm giải trí trực tuyến hiện đại, chuyên nghiệp và luôn đặt người dùng làm trung tâm.

none said...

http://sv388a.shop/ chào mừng bạn gia nhập cộng đồng người chơi chuyên nghiệp, an tâm giải trí – tự tin thắng cược.

Alexandra09 said...

Xin chào và cảm ơn bạn đã lựa chọn 888b đăng nhập! Chúng tôi cam kết mang đến trải nghiệm giải trí công bằng, bảo mật và tiện lợi nhất.

Alexandra09 said...

Khám phá thế giới cá cược đẳng cấp tại 888b online – nơi uy tín được đặt lên hàng đầu và quyền lợi người chơi luôn được đảm bảo.

Alexandra09 said...

Chào mừng đến với thế giới giải trí của https://98winn.net/ – nơi mang đến trải nghiệm cá cược uy tín, đẳng cấp và cơ hội chiến thắng mỗi ngày.

Hit Club said...

Giới thiệu Hit Club – Cổng game cá cược không thể bỏ qua! Với đội ngũ hỗ trợ tận tâm, giao diện dễ sử dụng và hệ thống bảo mật cao, Hitclub luôn là lựa chọn hàng đầu của những tay chơi chuyên nghiệp.

Alexandra09 said...

Chào mừng bạn đến với https://zbet.ru.com/ – nhà cái trực tuyến uy tín, nơi hội tụ giải trí đỉnh cao, tỷ lệ cược hấp dẫn và trải nghiệm cá cược an toàn hàng đầu.

none said...

Tham gia ngay ok365vn.jpn.com để khám phá thế giới trò chơi online phong phú, giải trí mỗi ngày, vui bất tận!

Alexandra09 said...

https://zbet.ru.com/ xin kính chào quý người chơi! Chúng tôi mang đến thế giới cá cược hiện đại, minh bạch cùng hàng ngàn trò chơi hấp dẫn mỗi ngày.

none said...

bj88vn.eu.com xin gửi lời chào trân trọng đến quý khách! Chúng tôi tự hào mang đến nền tảng cá cược uy tín, bảo mật cao cùng hàng loạt ưu đãi hấp dẫn mỗi ngày.

Alexandra09 said...

Chào mừng đến với https://nohu52.jpn.com/ – điểm đến giải trí trực tuyến được nhiều người tin chọn. Đăng ký nhanh chóng, trải nghiệm mượt mà, ưu đãi hấp dẫn mỗi ngày. Nohu52 – nơi đam mê thăng hoa!

888best said...

888best là nền tảng giải trí trực tuyến đáng tin cậy, mang đến cá cược thể thao, casino trực tiếp, slot game và game bài phong phú. Hệ thống hoạt động mượt mà, giao diện thân thiện, bảo mật tốt, giao dịch nhanh chóng, giúp người chơi yên tâm trải nghiệm lâu dài.

Alexandra09 said...

Chào mừng bạn đến với new88 com – Nơi giải trí và cá cược đỉnh cao! Hãy trải nghiệm những trò chơi hấp dẫn, kèo cược thú vị và cơ hội thắng lớn chỉ có tại New88. Chúng tôi cam kết mang đến cho bạn dịch vụ uy tín, bảo mật và không gian giải trí tuyệt vời.

Alexandra09 said...

Xin chào và cảm ơn bạn đã lựa chọn https://kqbd.de.com/! Chúng tôi cam kết mang đến trải nghiệm giải trí công bằng, bảo mật và tiện lợi nhất.

Alexandra09 said...

Chào mừng bạn đến với Sun win – điểm đến giải trí trực tuyến hàng đầu, nơi hội tụ đa dạng trò chơi hấp dẫn cùng dịch vụ chuyên nghiệp. Với nền tảng công nghệ hiện đại, bảo mật cao và đội ngũ hỗ trợ tận tâm 24/7, Sunwin cam kết mang đến cho bạn trải nghiệm giải trí đẳng cấp và an toàn.

Alexandra09 said...

Chào mừng bạn đến với B52 Club – sân chơi giải trí trực tuyến uy tín, nơi hội tụ hàng loạt trò chơi hấp dẫn và cơ hội thắng thưởng mỗi ngày. Với hệ thống bảo mật hiện đại, giao diện thân thiện và dịch vụ chăm sóc khách hàng tận tâm 24/7, B52Club cam kết mang đến cho bạn trải nghiệm đẳng cấp và an toàn tuyệt đối.

Alexandra09 said...

Với tầm nhìn trở thành nền tảng cá cược hàng đầu, sc88 đăng nhập không ngừng cải tiến dịch vụ và cập nhật xu hướng mới nhất trên thị trường. Sự kết hợp giữa công nghệ hiện đại và chiến lược phát triển bài bản đã giúp SC88 ngày càng khẳng định vị thế của mình.

link bong88 said...

link bong88 ghi điểm nhờ quy trình đăng ký đơn giản, nạp rút tiền nhanh chóng và hỗ trợ đa dạng phương thức thanh toán. Người chơi có thể dễ dàng tham gia chỉ với vài thao tác cơ bản trên điện thoại hoặc máy tính.

Văn Long said...

w 88 hướng đến phát triển bền vững với mục tiêu mang lại môi trường trực tuyến ổn định, thân thiện và đáng tin cậy cho cộng đồng người dùng.

Post a Comment