- 新闻消费和社交媒体监管政策;
- 测量碳足迹的非平衡热力学:分解投入产出核算中的结构和人工因素;
- 创新生命周期中的城市等级和空间扩散;
- Graph-MLP:在图中没有消息传递的节点分类;
- NLP 分析的见解:社交媒体上的 COVID-19 疫苗情绪;
- 具有社区结构的网络回归模型的推理;
- 具有结构谱特征和神经网络的原理性超边预测;
- Deffuant 模型对测量误差的敏感性;
- 空间种群中双人与多人社交博弈的合作与竞争;
- 基于深度神经网络的孟加拉语社交媒体评论的网络欺凌检测;
- 为多样性视角设计有毒成分分类;
- 使用图卷积网络识别关联的欺诈活动;
- 使用社交媒体监测 COVID-19 大流行:北卡罗来纳州的 Reddit 研究;
- 足球热图:事件与跟踪数据集;
新闻消费和社交媒体监管政策
原文标题: News consumption and social media regulations policy
地址: http://arxiv.org/abs/2106.03924
作者: Gabriele Etta, Matteo Cinelli, Alessandro Galeazzi, Carlo Michele Valensise, Mauro Conti, Walter Quattrociocchi
摘要: 在线用户倾向于根据他们的信仰系统消费信息,而忽略不同意见的信息。在 COVID-19 大流行期间,用户会接触到大量关于具有高度不确定性的新主题的信息。在本文中,我们分析了两种强制执行相反审核方法的社交媒体 Twitter 和 Gab,以评估有关 COVID-19 的新闻消费和内容监管之间的相互作用。我们在大约 300 万条内容上比较了这两个平台,分析了与新闻文章相关的用户交互。我们首先描述用户在两个平台上的消费模式,重点关注新闻媒体的政治倾向。最后,我们通过对用户交互网络的动态进行建模来表征回声室效应。我们的结果表明,Twitter 所追求的节制的存在显著减少了有问题的内容,从而在参与度和评论方面与可靠的来源建立了联系。相反,对 Gab 缺乏明确的监管导致用户倾向于参与两种类型的内容,表现出对有问题的内容的轻微偏好,这可能会导致贬低/认可行为。 Twitter 用户表现出对具有统一叙述的可靠内容的隔离。相反,Gab 提供了一个更加多样化的结构,用户可以独立于他们的倾向,关注那些对可疑新闻略微两极分化的人。
测量碳足迹的非平衡热力学:分解投入产出核算中的结构和人工因素
原文标题: Nonequilibrium Thermodynamics in Measuring Carbon Footprints: Disentangling Structure and Artifact in Input-Output Accounting
地址: http://arxiv.org/abs/2106.03948
作者: Samuel P. Loomis, Mark Cooper, James P. Crutchfield
摘要: 多区域投入产出 (MRIO) 表与 Leontief 分析相结合,被广泛用于评估碳排放的地理分布和导致碳排放的经济活动。我们将 Leontief 分析作为一个模型,展示了与现代信息论和非平衡统计力学方法的共性。平行于热主化的物理概念,我们定义了生态主化的概念,并表明它是确定具体影响流的方向性的充分条件。令人惊讶的是,相对较小的贸易逆差和地理上的异质影响大大增加了生态多数化的出现,而不管使用的 MRIO 表中的任何其他内容如何。我们的结果得到了对全球贸易聚合项目开发的 MRIO 表的空模型的统计分析的支持。
创新生命周期中的城市等级和空间扩散
原文标题: Urban hierarchy and spatial diffusion over the innovation life cycle
地址: http://arxiv.org/abs/2106.03972
作者: Eszter Bokányi, Martin Novák, Ákos Jakobi, Balázs Lengyel
摘要: 成功的创新通过跨越定居点和距离来实现广泛的地理覆盖。几十年来,空间扩散一直被认为是沿着城市层级进行的,因此创新首先从大中型城市传播,然后再从中型城市传播到小城市。然而,由于缺少传播事件的数据,地理距离是空间扩散的另一个主要因素,在分层扩散中很难确定其作用。在本文中,我们利用社交媒体平台上个人邀请的空间模式,在平台的整个生命周期内从注册用户发送给新用户。这使我们能够通过在前所未有的时间尺度上观察流动的源和目标位置来解开城市等级的作用和距离的作用。我们证明了分层扩散与近距离扩散有很大的重叠,并且这些因素在整个生命周期中共同演化;因此,他们的联合分析是必要的。然后,应用回归框架来估计生命周期中按年在城镇对之间发送的邀请数量,其中包括源城镇和目标城镇的人口规模、它们的组合以及它们之间的距离。我们确认,等级扩散最初仅在大城镇中盛行,但当采用加速时,会在生命周期中间的所有定居点中出现。与之前的重力估计不同,我们发现,在生命周期中期距离的作用越来越大之后,距离效应的最后几年的扩散特征令人惊讶地微弱。我们的结果强调了城市等级在空间扩散中的主导地位,并为未来在地方尺度上采用创新的预测提供信息。
Graph-MLP:在图中没有消息传递的节点分类
原文标题: Graph-MLP: Node Classification without Message Passing in Graph
地址: http://arxiv.org/abs/2106.04051
作者: Yang Hu, Haoxuan You, Zhecan Wang, Zhicheng Wang, Erjin Zhou, Yue Gao
摘要: 图神经网络 (GNN) 已被证明在处理非欧几里得结构数据方面的有效性。基于空间和基于谱的 GNN 都依赖于邻接矩阵来引导特征聚合期间邻居之间的消息传递。最近的工作主要集中在强大的消息传递模块上,然而,在本文中,我们表明没有一个消息传递模块是必要的。相反,我们提出了一个纯粹的基于多层感知器的框架 Graph-MLP,它具有利用图结构的监督信号,这足以用于学习判别节点表示。在模型层面,Graph-MLP 仅包括多层感知器、激活函数和层归一化。在损失级别,我们设计了一个相邻的对比(NContrast)损失,通过隐式利用邻接信息来弥合 GNN 和 MLP 之间的差距。这种设计使我们的模型在面对大规模图数据和损坏的邻接信息时更轻、更健壮。大量实验证明,即使在测试阶段没有邻接信息,我们的框架仍然可以在图节点分类任务中与最先进的模型相比达到可比甚至优越的性能。
NLP 分析的见解:社交媒体上的 COVID-19 疫苗情绪
原文标题: Insight from NLP Analysis: COVID-19 Vaccines Sentiments on Social Media
地址: http://arxiv.org/abs/2106.04081
作者: Tao Na, Wei Cheng, Dongming Li, Wanyu Lu, Hongjiang Li
摘要: 社交媒体是分析公众对 COVID-19 疫苗和各种品牌的态度的合适来源。然而,相关研究很少。在研究中,我们在大流行期间从 Twitter API 收集了英国和美国居民的推文,并设计了实验来回答有关疫苗接种的三个主要问题。为了获得公民的主导情绪,我们使用VADER进行情绪分析,并提出了一种可以统计个人影响力的新方法。这使我们能够在情感分析中更进一步,并解释数据变化中的一些波动。结果表明,名人可以在疫苗接种进程中引领社交媒体上的意见转变。此外,在高峰时期,两国近 40% 的人口对 COVID-19 疫苗持负面态度。此外,我们还调查了人们对不同疫苗品牌的看法。我们发现辉瑞疫苗最受人们欢迎。通过应用情绪分析工具,我们发现大多数人对大多数品牌生产的 COVID-19 疫苗持积极态度。最后,我们使用LDA模型进行主题建模。我们发现两国居民愿意分享他们对疫苗的看法和感受。接种疫苗后发生了几起死亡病例。由于这些负面事件,美国居民更加担心疫苗的副作用和安全性。
具有社区结构的网络回归模型的推理
原文标题: Inference for Network Regression Models with Community Structure
地址: http://arxiv.org/abs/2106.04271
作者: Mengjie Pan, Tyler H. McCormick, Bailey K. Fosdick
摘要: 网络回归模型在社会和生物科学中广泛使用,其中结果包括网络中的有价值的边并且预测变量是参与者或二元级协变量。有效推理依赖于对关系之间的残差依赖关系进行准确建模。通常,同质性假设被置于错误上,这些错误通常是不正确的,并且忽略了参与者的关键、自然聚类。在这项工作中,我们提出了一种新颖的回归建模框架,该框架对基于社区的依赖结构产生的误差进行建模,并利用误差分布的后续可交换性来获得回归参数的简约标准误差。
具有结构谱特征和神经网络的原理性超边预测
原文标题: Principled Hyperedge Prediction with Structural Spectral Features and Neural Networks
地址: http://arxiv.org/abs/2106.04292
作者: Changlin Wan, Muhan Zhang, Wei Hao, Sha Cao, Pan Li, Chi Zhang
摘要: Hypergraph 提供了一个框架来描述现实世界复杂数据中的多边关系。预测高阶关系,即超边,成为全面理解复杂相互作用的基本问题。图神经网络(GNN)的发展极大地推进了具有成对关系的普通图的分析。然而,这些方法不能很容易地扩展到超图的情况。在本文中,我们概括了 GNN 在表示高阶数据方面的原则上的挑战,即边和节点级别的歧义。为了克服这些挑战,我们提出了 textbfSNALS,它利用具有结构特征的二部图神经网络来共同解决两个歧义问题。 SNALS 通过其局部环境刻画超边的联合相互作用,通过收集其连接的谱信息来检索该相互作用。因此,与最新的基于 GNN 的模型相比,SNALS 实现了近 30% 的性能提升。此外,我们应用 SNALS 来预测 3D 基因组组织数据上的遗传高阶相互作用。 SNALS 在不同染色体上显示出始终如一的高预测准确性,并在 4 向基因相互作用方面产生了新发现,现有文献进一步证实了这一点。
Deffuant 模型对测量误差的敏感性
原文标题: The sensitivity of the Deffuant model to measurement error
地址: http://arxiv.org/abs/2106.04328
作者: Dino Carpentras, Michael Quayle
摘要: 意见动态模型在研究疫苗犹豫等当前现象方面具有巨大潜力。不幸的是,迄今为止,大多数模型几乎没有经验验证。针对真实世界数据测试这些模型的一个主要问题与以直接映射到模型表示的方式衡量意见的困难有关。事实上,这种测量本质上是复杂的,并且呈现出比经典随机噪声更多类型的测量误差。因此,理解这些不同的错误类型如何影响模型的预测至关重要。在这项工作中,我们在 Deffuant 模型中分析了这种关系。从心理测量学文献开始,我们首先讨论意见测量如何受到三种类型的错误的影响:随机噪声、分箱和失真(即尺度点之间的不均匀间隔)。虽然大多数科学界都知道前两个,但第三个在心理测量学之外大多是未知的。因此,我们强调了这些测量误差中的每一个的性质和特点。通过模拟这些类型的错误,我们表明 Deffuant 模型对分箱具有鲁棒性,但对噪声和失真没有鲁棒性。事实上,如果一个量表有 4 个或更多点(就像大多数自我报告量表一样),分箱对最终预测几乎没有影响。然而,预测误差几乎随随机噪声线性增加,最大误差可达 40%。达到此值后,增加噪声量不会使预测恶化。失真是最成问题的,达到 80% 的最大预测误差。到目前为止,大多数研究都集中在模型的属性上,而没有分析它们可能使用的数据类型。在这里,我们表明在研究模型时,我们还应该分析其对这些类型的测量误差的稳健性。
空间种群中双人与多人社交博弈的合作与竞争
原文标题: Cooperation and competition between pair and multi-player social games in spatial populations
地址: http://arxiv.org/abs/2106.04436
作者: Attila Szolnoki, Xiaojie Chen
摘要: 个人利益和集体利益之间的冲突是演化博弈论建立的每个社会困境的核心。我们无法避免这些冲突,但有时我们可能会选择使用哪个交互框架作为战场。例如,有些人喜欢成为更大群体的一部分,而其他人则更喜欢以更个性化、个性化的方式进行互动。 Both attitudes can be formulated via appropriately chosen traditional games.尤其是囚徒困境博弈是基于结对互动的,而公共物品博弈则代表群体成员的多点互动。为了揭示某种态度的可能优势,我们扩展了这些模型,让玩家不仅可以改变他们的策略,还可以让他们改变态度以获得更高的个人收入。我们表明,在特定参数值下,两种态度都可能是赢家。然而,有趣的是,不同状态之间微妙的相互作用可能会导致违反直觉的演化结果,即公共产品博弈倍增因子的增加将人口推向完全叛逃的状态。我们指出,伴随的模式形成只能通过不同微观状态的多点或多人交互来理解,其中特定状态的附近可能会影响其他两个竞争者的关系。
基于深度神经网络的孟加拉语社交媒体评论的网络欺凌检测
原文标题: Cyberbullying Detection Using Deep Neural Network from Social Media Comments in Bangla Language
地址: http://arxiv.org/abs/2106.04506
作者: Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor Ryen, Arman Hossain, Faisal Bin Ashraf
摘要: 社交媒体上针对各种主要语言的网络欺凌或在线骚扰检测目前正受到全球研究人员的高度关注。作为世界上第七大语言,孟加拉语人群越来越多地使用在线平台,迫切需要找到有效的检测技术来处理在线骚扰。在本文中,我们提出了使用混合神经网络进行孟加拉语欺凌表达检测的二元和多类分类模型。我们使用了来自流行的 Facebook 公共页面的 44,001 条用户评论,这些评论分为五个类别 - 非欺凌、性、威胁、巨魔和宗教。我们从不同的角度检查了我们提出的模型的性能。我们的二元分类模型给出了 87.91% 的准确率,而在神经网络之后引入集成技术进行多类分类,我们得到了 85% 的准确率。
为多样性视角设计有毒成分分类
原文标题: Designing Toxic Content Classification for a Diversity of Perspectives
地址: http://arxiv.org/abs/2106.04511
作者: Deepak Kumar, Patrick Gage Kelley, Sunny Consolvo, Joshua Mason, Elie Bursztein, Zakir Durumeric, Kurt Thomas, Michael Bailey
摘要: 在这项工作中,我们展示了现有的用于识别在线有毒评论的分类器如何无法推广到互联网用户的各种关注点。我们调查了 17,280 名参与者,以理解用户对有害内容的期望在人口统计、信仰和个人经历方面有何不同。我们发现,历史上有遭受骚扰风险的群体——例如自称为 LGBTQ+ 或年轻人的人——更有可能将来自 Reddit、Twitter 或 4chan 的随机评论标记为有毒,就像亲身经历过骚扰的人在过去。根据我们的发现,我们展示了当前的通用毒性分类算法(如 Jigsaw 的 Perspective API)如何通过个性化模型调整将准确率平均提高 86%。最后,我们强调了当前的陷阱和新的设计方向,可以为所有用户提高有毒内容分类器的公平性和有效性。
使用图卷积网络识别关联的欺诈活动
原文标题: Identifying Linked Fraudulent Activities Using GraphConvolution Network
地址: http://arxiv.org/abs/2106.04513
作者: Sharmin Pathan, Vyom Shrivastava
摘要: 在本文中,我们提出了一种使用图卷积网络 (GCN) 来识别关联的欺诈活动或共享相似属性的参与者的新方法。这些链接的欺诈活动可以被可视化为具有关系和交互等抽象概念的图,这使得 GCN 成为识别用作欺诈节点之间链接的图边的理想解决方案。像社区检测这样的传统方法需要在欺诈尝试(例如寻找社区的共享属性)之间建立强关联,而受监督的解决方案需要大量的训练数据,这些数据在欺诈场景中可能不可用,并且最好在欺诈和非欺诈活动之间提供二元分离。我们的方法克服了传统方法的缺点,因为 GCN 只是学习欺诈节点之间的相似性来识别相似尝试的集群,并且需要更小的数据集来学习。我们在具有强链接和弱链接的关联帐户上展示了我们的结果,以高可信度地识别欺诈环。我们的结果在解决方案质量和计算时间方面优于标签传播社区检测和监督 GBTs 算法。
使用社交媒体监测 COVID-19 大流行:北卡罗来纳州的 Reddit 研究
原文标题: Surveillance of COVID-19 Pandemic using Social Media: A Reddit Study in North Carolina
地址: http://arxiv.org/abs/2106.04515
作者: Christopher Whitfield, Yang Liu, Mohad Anwar
摘要: 冠状病毒病 (COVID-19) 大流行已经改变了人们生活和行为的各个方面。现阶段,除了采取戴口罩、看远距离、洗手等缓解策略外,没有其他方法可以控制疾病的自然发展。此外,在这个社会疏远的时期,社交媒体在联系人们和提供表达情感的平台方面发挥着关键作用。在这项研究中,我们利用社交媒体来监控缓解和检测策略的采用,并捕捉有关大流行的问题和担忧。特别是,我们探索了一个研究问题,“通过在 Reddit 帖子上使用自然语言处理,可以理解多少公众对缓解策略的采用和对 COVID-19 大流行的担忧?”在六个月内从北卡罗来纳州四个最大的 subreddit 社区中提取与 COVID 相关的帖子后,我们执行了基于 NLP 的预处理来清理嘈杂的数据。我们采用自定义命名实体识别 (NER) 系统和潜在狄利克雷分配 (LDA) 方法对 Reddit 语料库进行主题建模。我们观察到,“口罩”、“流感”和“测试”分别是“个人防护设备”、“症状”和“测试”类别中最常见的命名实体。我们还观察到,讨论最多的话题与测试、口罩和就业有关。缓解措施是所有 subreddits 中最普遍的讨论主题。
足球热图:事件与跟踪数据集
原文标题: Heatmaps in soccer: event vs tracking datasets
地址: http://arxiv.org/abs/2106.04558
作者: D. Garrido, B. Burriel, R. Resta, R. Lopez del Campo, J.M. Buldu
摘要: 我们研究了从 (i) 事件数据集和 (ii) 跟踪数据集构建的足球运动员热图的相似程度。使用事件数据集时,我们表明事件分组的规模会强烈影响与跟踪热图的相关性。此外,存在事件和跟踪热图之间的相关性最高的最佳尺度。然而,即使在最佳规模下,两种方法之间的相关性也是中等的。此外,参与者的相关性存在高度异质性,范围从负值到接近统一的相关性。我们表明,玩家执行的事件数量并不能决定两个热图之间的相关程度。最后,我们分析了球员位置的影响,表明后卫是相关性最高的球员,而前锋的相关性最低。
声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://netsci.complexly.cn (提供RSS订阅)进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。

作者:ComplexLY
微信公众号:netsci
欢迎扫描左侧微信公众号二维码进行交流!
本文地址:https://netsci.complexly.cn/post/20210609/