社会意理学前沿|让生疏人相爱的36个问题,为什么在现实中却不合用? 概述 语言有亲密度吗?如何量化并丈量语言亲密度?性别 、社交间隔和匿名性又是如何影响人际交流的?密歇根大学的研究者但愿使用自然语言处置惩罚和数据科学技能往返答这些问题。相关事情“Quantifying Intimacy in Language”已颁发于自然语言处置惩罚旗舰集会EMNLP 2020。本文为科普性质,技能细节及已开源的数据 、模型请见文末项目主页。
插画 @橘且 文献 Pei, Jiaxin and David Jurgens. “Quantifying Intimacy in Language.” In Proceedings of EMNLP 2020. 让生疏人相爱的36个问题 1997年,美国心理学家阿瑟·亚伦(Arthur Aron)等人颁发了一项研究,他们发明相互询问一些出格亲密的问题,可以快速加强两个生疏人之间的亲密度。展开全文 这一研究在被纽约时报报道后,也在中文互联网上被遍及转载,并被宣传为快速让心上人爱上你的良方。然而当人们在现实糊口中面临心上人的时候,却会对这些问题大失所望,因为就像知乎上最高赞的评论所言,这些在尝试室中效果杰出的问题,在真实的糊口中却很难找到合适的场景或契机。
这些问题毕竟有什么秘密?他们同其他稀松泛泛的诸如“吃了没”这样的交际有什么区别?又毕竟有哪些因素最终影响着人们在日常糊口中的语言表达呢,本文将通过作者在EMNLP 2020上的一项最新研究,试图从语言亲密度和社会约束的角度往返答这些问题。我们的研究 就像是人和人之间的关系一样,我们在人际交流中所使用的语言也具有亲密度 (intimacy) 的属性。语言亲密度受到了遍及的社会和个别因素的约束,而违反这样的约束则往往会造成难堪,或者带来更严重的后果。
中国有一句古话叫做“交浅而言深者,愚也”, 意思是说与友爱浅的人深谈,是人际来往之中的大忌,这反应了社会文化中关系远近对于语言亲密度的约束。在这一研究中,作者提出了一套量化语言亲密度的数据标注方法和一个用于丈量语言亲密度的NLP模型,并使用八千万 Reddit, Twitter, 书籍和影戏对话数据研究了性别、社交间隔和匿名性对于人际交流中语言亲密度的影响。
语言亲密度 ( Intimacy in language ) 亲密度这一观点来历于社会意理学,主要被用来描述人和人之间关系 (e.g. 伴侣) 或者互动 (e.g. 亲吻) 的亲密水平。在这里作者将这一观点沿用到了语言中,用来描述人际交流中所使用语言的亲密水平,好比 “我今天表情真的好差” 比 “吃了吗” 一般来说具有更高的语言亲密度,因为它涉及到了更个别化的情绪表达; 而 “你最糟糕的童年回忆是什么” 则比 “你以为新的苹果手机怎么样” 要越发亲密,因为它过于私密和小我私家化。
那么我们是否可以或许量化语言亲密度呢,谜底是必定的。作者主要使用Best-Worst-Scaling这一方法来标注人们在对话中所使用问题的亲密度,并最终获得了2397条标注有亲密度 (分值在-1到1之间) 的文本数据,详细细节请见论文。丈量语言亲密度 使用NLP模型丈量语言亲密度是一个回归任务,简朴来说就是对输入的文本,本文的模型可以自动地得出一个介于-1和1之间的亲密度分值。
作者在标注好的亲密度数据上微调 (fine-tune)了 RoBERTa模型,最终在基于Reddit上的测试集上获得了0.87的相关系数 (Pearson's),说明我们可以使用微调过的语言模型来精确地丈量语言中的亲密度。使用这一模型,作者丈量了来自Reddit, Twitter, 书籍和影戏的八千万条对话数据的亲密度。
主题阐发 有哪些话题更亲密呢?如下图所示,涉及抵家庭 、亲密关系等小我私家化的内容往往会比糊口知识性的话题越发亲密,但同时值得注意的是,一个话题的亲密度往往有很大的跨度,这也说明晰仅仅使用主题是无法精确地丈量语言的亲密度的。性别 (Gender) 作者对来自Reddit, Twitter, 书籍和影戏中的对话数据举行了阐发,如下图所示,我们发明:在Twitter和Reddit这两个很是有代表性的社交媒体上,男性同男性之间的语言亲密度均低于其他性别之间的对话。这说明虽然社交媒体往往可以赋予人们更大的交流自由,关于男性气质(masculinity)的规训仍然普遍存在于线上的人际互动中。对于书籍和影戏来说,其对话并不来历于真实的个别,而存在于作家的想象,本文的阐发进一步证明晰遍及存在的对于性别和语言亲密度的社会期待,即男性需要保持一种不露声色的威严形象,而谈论感情性和小我私家性的话题则往往被认为是不敷man的。
(思量到社会意理学中已有的关于gender norm的研究,我们这里仅接头了二元性别,针对非二元性此外环境我们会在以后的研究中举行接头) 那么是否这样的规训仅仅存在于男性之中呢?谜底是否认的。作者进一步阐发了作家性别同书籍中人物对话亲密度之间的关系,如下图所示,只管女性作家同男性作家比拟倾向于使用具有更高亲密度的语言,其作品中男性同男性之间的对话始终具有最低的语言亲密度,这说明对于男性气质的社会规训也同样被女性所接管。
社交间隔 (Social distance) 语言亲密度天然受到社交间隔的影响,因为社会意理学中的亲密度自己就是社交间隔的一个反应,而一般来说,更靠近的社交间隔往往陪同着越发亲密的交流方式和内容。然而,就像影戏爱在黎明拂晓前(Before Sunrise)所出现的那样,两个在火车上的生疏人却可能向相互分享最为私密的一些信息,心理学家把这种现象叫做火车上的生疏人 (Strangers-on-a-train)。那么这两种大相径庭的社会期待是否会存在于线上社交中呢?为了回覆这一问题,我们使用了 Twitter 数据计较了用户在社交网络上的间隔,并阐发了其互动的语言亲密度,成果正如我们所预料的那样,最亲密的互动产生在关系最近和关系最远的用户对之间。
当两个用户之间的间隔从0变为1时,也就是从直接挚友酿成存在一个配合挚友的时候,他们往往仍然处于同一个社交圈子中,因而其语言亲密度跟着社交间隔的增加而显著下降,而对于社交间隔大于3 (他们通过三个或更多挚友相连)的用户来说,跟着他们之间的关系越来越生疏,他们受到了越来越少的社交关系对于语言的限制,这使得他们可以不受限制地接头越发私密的内容。我们的研究在线上情况中同时验证了两个经典的关于社交间隔如何影响人际交流的假说。匿名性 (Anonymity) 前面两个尝试接头了性别和社交间隔对于人际交流的规训,那么是否存在一种场景可以使得人们暂时挣脱这样的规训呢?谜底是必定的。在Reddit上,人们可以使用带有throwaway或者anonymous的用户名来给本身成立一个匿名的身份。
而正如下图所示,使用匿名身份的用户会比其他种别的用户提出越发私密的问题。我们同样阐发了那些不带有任何小我私家身份信息的账号 (Depersonalized), 成果表白只管这些账号具有同样的匿名性,用户并不会使用他们来提出越发亲密的问题,这再一次表白, 对于人际交流的社会约束仍然存在于Reddit这样一个相对匿名的社区,而想要去除这些约束的最好措施是使用一个匿名的身份。失效的生疏人36问 回到最开始的问题,为什么在尝试室中效果杰出的问题,在现实中却不合用呢?因为人们的语言亲密度受到社会关系的约束,而想要询问这些超出关系亲密度的问题则需要特定的场所或者契机。
人们可以坦然的在尝试室,或者在特定的场所中使用这样的问题,是因为这些特定的情况暂时去除了社会关系对于人们的语言亲密度的约束。结论 总而言之,同关系一样,人际交流中所使用的语言同样具有亲密度这一属性,并受到诸多社会因素的影响。
我们的研究首次提出了语言亲密度 (Intimacy in Language) 这一观点,并验证了使用NLP模型来丈量语言亲密度的可行性,继而阐发了性别 、社交间隔和匿名性对于人际交流的影响。作为自然语言处置惩罚(NLP)和社会意理学的联合,我们的模型不单可以支撑社会科学的研究,同时还可以支持对话呆板人等NLP任务,而且已经被应用于密歇根大学本年Amazon Alexa Prize的参赛模型Audrey中。注 1. 受篇幅限制,本文省略了很多技能细节,详情请见论文: https://www.aclweb.org/anthology/2020.emnlp-main.428.pdf 2. 数据,模型及Python软件包均已公然,请见项目网站: https://blablablab.si.umich.edu/projects/intimacy/ 3. 感激本文编辑及插画小张 4: 接待社科或者nlp的研究者互助,有意向请公家号留言或接洽pedropei@umich.edu返回,检察更多。
本文来源:ag真人-www.syjsds.com