您的当前位置:首页 > 综合 > 谷歌 AI 看不懂网友评论,会错意高达 30%,网友:你不懂我的梗 正文
时间:2025-07-07 11:36:54 来源:网络整理 编辑:综合
给你两句话,来品一下它们所蕴含的情感:“我真的会谢。”“听我说谢谢你,因为有你,温暖了四季……”或许你会说,这很简单啊,不就是最近经常被玩的梗吗?但如果问问长辈,他们可能就是一副“地铁老人看手机”的模
给你两句话,谷歌高达来品一下它们所蕴含的懂网的梗情感:“我真的会谢。”“听我说谢谢你,友评因为有你,错意温暖了四季……”
或许你会说,网友这很简单啊,不懂不就是谷歌高达最近经常被玩的梗吗?但如果问问长辈,他们可能就是懂网的梗一副“地铁老人看手机”的模样了。
不过与流行文化之间有代沟这事,友评可不仅限于长辈们,错意还有 AI。网友这不,不懂一位博主最近就 po 出了一篇分析数据集的谷歌高达文章,发现它对 Reddit 评论的懂网的梗情绪判别中,错误率竟高达 30%。友评
就比如这个例子:
谷歌数据集把它判断为“生气”。
还有下面这条评论:
谷歌数据集将其判别为“困惑”。
网友直呼:你不懂我的梗。
人工智能秒变人工智障,这么离谱的错误它是怎么犯的?
这就得从他判别的方式入手了。谷歌数据集在给评论贴标签时,是把文字单拎出来判断的。我们可以看看下面这张图,谷歌数据集都把文字中的情绪错误地判断为愤怒。
不如我们由此来推测一下谷歌数据集判别错误的原因,就拿上面的例子来说,这四条评论中均有一些“脏话”。
谷歌数据集把这些“脏话”拿来作为判断的依据,但如果仔细读完整个评论,就会发现这个所谓的“依据”只是用来增强整个句子的语气,并没有实际的意义。
网友们的发表的评论往往都不是孤立存在的,它所跟的帖子、发布的平台等因素都可能导致整个语义发生变化。
比如单看这条评论:
单单依靠这个很难判断其中的情绪元素。但如果知道他是来自一个肌肉网站的评论,或许就不难猜出了,(他只是想称赞一下这个人的肌肉)。
忽略评论的帖子本身,或者将其中某个情感色彩强烈的词语单拎出来判断其情绪元素都是不合理的。一个句子并不是孤立存在的,它有其特定的语境,其含义也会随着语境的变化而变化。
将评论放入完整的语境中去判断其情绪色彩,或许会大大提升判别的准确率。但造成 30% 这么高的失误率可不仅仅只是“断章取义”,其中还有更深层次的原因。
除了语境会干扰数据集判别之外,文化背景也是一个非常重要的因素。
大到国家地区,小到网站社群都会有其内部专属的文化符号,这种文化符号圈层之外的人很难解读,这就造成了一个棘手的问题:若想更准确地判断某一社区评论的情绪,就得针对性地对其社区进行一些数据训练,深入了解整个社区的文化基因。
在 Reddit 网站上,网友评论指出“所有的评分者都是以英语为母语的印度人”。
这就导致会对一些很常见的习语、语气词及一些特定的“梗”造成误解。说了这么多,数据集判别失误率这么高的原因也就显而易见了。
但与此同时,提高 AI 判别情绪的精确度也有了清晰的方向。例如博主也在这篇文章中就给出了几条建议:
首先,在对评论贴标签时,得对他所处的文化背景有深刻地理解。以 Reddit 为例,要判断其评论的情绪色彩,要对美国的一些文化、政治理解透彻,并且还要能够迅速 get 到专属网站的“梗”;
其次,要测试标签对一些讽刺、习语、梗的判别是否正确,确保模型能够整整理解文本的意思;
最后,核查模型判断与我们真实判别,以做出反馈,更好地训练模型。
AI 大牛吴恩达曾发起过一项以数据为中心的人工智能运动。
将人工智能从业者的重点从模型 / 算法开发转移到他们用于训练模型的数据质量上。吴恩达曾说:
用于训练数据的好坏对于一个模型也至关重要,在新兴的以数据为中心的 AI 方法中,数据的一致性至关重要。为了获得正确的结果,需要固定模型或代码并迭代地提高数据质量。
……
最后,你觉得在提高语言 AI 判别情绪这件事上,还有什么方法呢?
欢迎在留言区讨论~
锂电池隔膜龙头恩捷股份突爆雷:实控人被“监视居住”,律师称或影响公司定增2025-07-07 10:35
中国驻法国大使卢沙野:欧洲在涉华议题上有必要“再思考”2025-07-07 10:25
高调宣布要“过台湾海峡”,美军想在台海耍什么新花样?2025-07-07 10:23
中韩同意共同维护产供链稳定2025-07-07 10:16
芯片大佬蒋尚义复出加盟!富士康母公司在下一步怎样的大棋2025-07-07 10:02
“村BA”火爆出圈 看民间体育里的“乡土中国”2025-07-07 09:53
保险2022中期成绩单:业绩有所回暖 持续盈利能力不足2025-07-07 09:44
美媒:印度酝酿新禁令,瞄准中国手机2025-07-07 09:40
“三牛”饼干因大肠菌群不合格被罚7万元2025-07-07 09:19
51岁王召远已任安徽省担保集团党委书记、董事长2025-07-07 08:50
肖远企:帮助新市民做好金融健康管理,拒绝高息诱惑高息陷阱2025-07-07 10:33
达美乐退出意大利市场,意大利人:当然是我们的披萨更好吃2025-07-07 10:31
专访:美国是最没有资格谈论人权问题的国家——访巴勒斯坦人权问题专家阿卜杜勒-阿提2025-07-07 10:27
300多位基金经理做场外期权被查?真实性存疑2025-07-07 10:24
中国平安独家承保央视卡塔尔报道团 打造体育产业保障体系2025-07-07 10:12
国家统计局:7月份工业生产者出厂价格同比上涨4.2% 环比下降1.3%2025-07-07 09:49
信号!河北廊坊取消限购、限售!环京楼市会有什么变化?能否走出当前泥潭?2025-07-07 09:46
宝能集团核心成员长黄炜被查,公司声明:所涉事项与宝能集团无关2025-07-07 09:33
快手-W发布三季度业绩 毛利约107.03亿元同比增长25.8%2025-07-07 09:05
中国旺旺靠什么一直旺?2025-07-07 08:54