Arxiv网络科学论文摘要8篇(2021-08-05)

  • 使用公共推文上的机器学习模型预测美国大都市区的邮政编码级别的疫苗犹豫;
  • 使用聚合关系数据在大规模网络中进行可扩展的社区检测;
  • 基于在线社会网络情感分析的从众行为研究;
  • 通过并行相关聚类的可扩展社区检测;
  • 在线组动力学揭示新的凝胶科学;
  • 用于预测、优化和控制网络化过程的纯数据驱动框架:应用于网络化 SIS 流行病模型;
  • 高阶信息可识别连接强度;
  • 无超参数且可解释的全图嵌入;

使用公共推文上的机器学习模型预测美国大都市区的邮政编码级别的疫苗犹豫

原文标题: Predicting Zip Code-Level Vaccine Hesitancy in US Metropolitan Areas Using Machine Learning Models on Public Tweets

地址: http://arxiv.org/abs/2108.01699

作者: Sara Melotte, Mayank Kejriwal

摘要: 尽管最近美国 COVID-19 疫苗的兴起和使用令人鼓舞,但在成年人口的各个地理和人口群体中,仍然存在明显的疫苗犹豫。调查(例如盖洛普在过去一年中进行的调查)可用于确定疫苗犹豫不决,但实施成本高昂且无法提供实时数据。与此同时,社交媒体的出现表明,通过使用公开可用的机器学习模型和社会经济(和其他)特征,有可能在总体层面(例如邮政编码层面)获得疫苗犹豫信号。来源。目前,这种努力是否可行,以及它与仅使用恒定先验的基线相比如何,这是一个悬而未决的问题。据我们所知,还没有提出使用真实数据的适当方法和评估结果。在本文中,我们使用去年收集的公开可用 Twitter 数据展示了这样一种方法论和实验研究。我们的目标不是设计新颖的机器学习算法,而是在比较框架中评估现有和已建立的模型。我们表明,最好的模型明显优于恒定先验,并且可以使用开源工具进行设置。

使用聚合关系数据在大规模网络中进行可扩展的社区检测

原文标题: Scalable Community Detection in Massive Networks Using Aggregated Relational Data

地址: http://arxiv.org/abs/2108.01727

作者: Timothy Jones, Yiran Jiang, John Paisley, Tian Zheng

摘要: 当节点数量增长到数十万和数百万时,拟合大型贝叶斯网络模型在计算上很快变得不可行。特别是,混合成员随机块模型(MMSB)是一种流行的用于社区检测的贝叶斯网络模型。在本文中,我们介绍了一种可扩展的推理方法,该方法利用了通常伴随现实世界网络的节点信息。以这些额外信息为条件会产生一个允许并行变分推理算法的模型。我们将我们的方法应用于具有超过 200 万个节点和 2500 万条边的引文网络。我们的方法在根据 MMSB 生成的模拟网络上恢复参数并更好地实现收敛。

基于在线社会网络情感分析的从众行为研究

原文标题: A Study on Herd Behavior Using Sentiment Analysis in Online Social Network

地址: http://arxiv.org/abs/2108.01728

作者: Suchandra Dutta, Dhrubasish Sarkar, Sohom Roy, Dipak K. Kole, Premananda Jana

摘要: 如今,社交媒体平台蓬勃发展,因此产生了大量数据。由于它包含简短而清晰的陈述,每天有数百万人在微博网站上发表他们的想法。本文代表并分析了不同策略对体积、微妙和社会网络的能力,以预测来自在线社交网站的批评意见。在探索某些寻找相关的过程中,人们的思想起着至关重要的作用。自过去几十年以来,社交媒体成为在全球范围内分享观点的好渠道。情感分析和意见挖掘是一种用于提取公众意见或想法的工具。在一个地方发生的事件,无论是经济的、政治的还是社会的,都可能在日益互联的世界中引发跨许多其他站点的大规模连锁公众反应。本研究展示了使用社交媒体内容对情感分析技术的评估,并在主观性与从众行为和聚类系数之间建立关联,并尝试预测选举结果(西孟加拉邦 2021 年选举)。这是一种情绪分析的实现,旨在通过评估社交媒体上的公众意见来估计即将举行的选举的结果。本文还有一个简短的讨论部分,讨论了该想法在其他领域的有用性。

通过并行相关聚类的可扩展社区检测

原文标题: Scalable Community Detection via Parallel Correlation Clustering

地址: http://arxiv.org/abs/2108.01731

作者: Jessica Shi, Laxman Dhulipala, David Eisenstat, Jakub Łącki, Vahab Mirrokni

摘要: 图聚类和社区检测是现代数据挖掘的核心问题。对分析数十亿级数据的需求日益增长,需要更快、更具可扩展性的算法来解决这些问题。这种聚类算法的质量和速度之间存在一定的权衡。在本文中,我们设计了可扩展的算法,在基于真实情况进行评估时实现高质量。我们基于 LambdaCC 目标(由 Veldt 等人介绍)开发了一个通用的顺序和共享内存并行框架,其中包含模块化和相关性聚类。我们的框架由高度优化的实现组成,这些实现可扩展到包含数十亿条边的大型数据集,并在未加权和加权图上获得与地面实况数据相比的高质量集群。我们的实证评估表明,该框架改进了可扩展社区检测的速度和质量之间的最先进的权衡。例如,在具有双向超线程的 30 核机器上,我们的实现比其他相关聚类基线实现了数量级的加速,在保持或提高质量的同时,比我们自己的顺序基线实现了高达 28.44 倍的加速。

在线组动力学揭示新的凝胶科学

原文标题: Online Group Dynamics Reveal New Gel Science

地址: http://arxiv.org/abs/2108.01940

作者: Pedro D. Manrique, Sara El Oud, Neil F. Johnson

摘要: 更好地理解对极端主义和仇恨等不良行为的在线支持如何演变,可能有助于减轻未来的危害。在这里,我们展示了支持两个备受瞩目的极端主义运动的群体的高度不规则增长曲线如何能够准确地描述,如果我们概括现有的凝胶模型以解释潜在新兵数量与时间有关且人类是异质的事实。这导致了一个新的广义 Burgers 方程,该方程描述了这些群体的时间演变,并预测了潜在新兵的临界涌入率,超过该率将不会形成此类群体。我们的研究结果提供了一种在线管理不良群体的新方法——更广泛地说,是管理复杂系统中大型宏观聚集体的突然出现和增长——通过操纵它们的开始和设计它们的增长曲线。

用于预测、优化和控制网络化过程的纯数据驱动框架:应用于网络化 SIS 流行病模型

原文标题: A purely data-driven framework for prediction, optimization, and control of networked processes: application to networked SIS epidemic model

地址: http://arxiv.org/abs/2108.02005

作者: Ali Tavasoli, Teague Henry, Heman Shakeri

摘要: 网络是许多复杂现象的地标,在这些现象中,不同主体之间的交织相互作用将简单的局部规则集转换为非线性紧急行为。虽然最近的一些研究揭示了网络结构与潜在动力过程之间的关联,但识别随机非线性动力过程仍然是一个突出的问题。在这里,我们基于算子理论技术开发了一个简单的数据驱动框架,以识别和控制发生在大规模网络上的随机非线性动力学。所提出的方法不需要网络结构的先验知识,并且仅使用状态的两步快照集合来识别潜在的动态。这种数据驱动的系统识别是通过使用 Koopman 算子找到线性演化的动态模式的低维表示来实现的。此外,我们使用全局线性 Koopman 模型通过应用于模型预测控制 (MPC) 来解决关键控制问题——通常,当应用于大型网络时,这是一个具有挑战性的命题。我们表明,我们提出的方法通过将原始非线性规划转换为更易处理的优化问题来解决这个问题,该优化问题既是凸面又是变量少得多。

高阶信息可识别连接强度

原文标题: Higher Order Information Identifies Tie Strength

地址: http://arxiv.org/abs/2108.02091

作者: Arnab Sarker, Jean-Baptiste Seby, Austin R. Benson, Ali Jadbabaie

摘要: 分析网络上的社会学过程的一个关键问题是识别具有强或弱社会关系的成对个体。现有方法在数学上将社会网络建模为图,并且通常通过检查个体之间共享邻居的数量,或等效地,图中包含一对特定个体的三角形数量来推断关系强度。然而,这种方法错过了关键信息,因为它没有区分涉及两个以上个体的群体之间发生交互的情况。在这项工作中,我们通过使用一种称为 Edge PageRank 的新度量,通过明确考虑网络中的这些高阶交互来衡量联系强度。我们展示了如何将 Edge PageRank 解释为动态的、消息传递的社会过程的稳态结果,该过程通过适当地降低涉及三个人的高阶交互的影响来表征弱关系的强度。根据经验,我们发现 Edge PageRank 在识别几个大型社会网络中的联系强度方面优于标准措施。这些结果提供了一个关于联系强度的新视角,并证明了在社会网络分析中纳入高阶交互的重要性。

无超参数且可解释的全图嵌入

原文标题: Hyperparameter-free and Explainable Whole Graph Embedding

地址: http://arxiv.org/abs/2108.02113

作者: Hao Wang, Yue Deng, Linyuan Lü, Guanrong Chen

摘要: 许多现实世界的复杂系统都可以用图来描述。对于稀疏度低的大规模图,节点的邻接向量是一个长而稀疏的表示,限制了现有机器学习方法在节点特征上的实际应用。在实践中,图嵌入(图表示学习)试图在保持图的最基本信息的同时,为每个节点或整个图学习一个较低维的表示向量。由于各种机器学习方法可以有效地处理低维向量,图嵌入最近引起了很多关注。然而,大多数节点嵌入或全图嵌入方法都存在方法更复杂、超参数优化和可解释性低的问题。本文结合了DHC(Degree、H-index和Coreness)定理和香农熵(E),提出了一种无超参数、可扩展、可解释的全图嵌入方法,缩写为DHC-E。新的全图嵌入方案可以在一些监督分类学习任务下,使用分子、社会和大脑网络在简单性和质量之间取得平衡。此外,所提出的方法在低维图可视化方面具有良好的性能。新方法总体上简单、无超参数、可扩展且可解释整个图嵌入,具有探索图分类、预测和低维图可视化的潜力。

声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://netsci.complexly.cn (提供RSS订阅)进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。

作者:ComplexLY
微信公众号:netsci
欢迎扫描左侧微信公众号二维码进行交流!
本文地址:https://netsci.complexly.cn/post/20210805/