Arxiv网络科学论文摘要4篇(2021-08-25)

  • 自监督图神经网络的联合可学习数据增强;
  • REFINE:用于网络嵌入的随机范围查找器;
  • 在Twitter上误导Covid-19疫苗接种讨论:围绕大流行的信息流行病的探索性研究;
  • 基于性别的职业隔离:一种位串方法;

自监督图神经网络的联合可学习数据增强

原文标题: Jointly Learnable Data Augmentations for Self-Supervised GNNs

地址: http://arxiv.org/abs/2108.10420

作者: Zekarias T. Kefato, Sarunas Girdzijauskas, Hannes Stärk

摘要: 自监督学习 (SSL) 旨在在不依赖于手动标记的情况下学习对象的表示。最近,许多用于图表示学习的 SSL 方法已经实现了与 SOTA 半监督 GNN 相当的性能。依赖于数据增强的连体网络是这些方法中使用的流行架构。然而,这些方法依赖于启发式设计的数据增强技术。此外,他们使用对比术语或其他技巧(例如,不对称性)来避免 Siamese 网络中可能出现的琐碎解决方案。在这项研究中,我们提出了 GraphSurgeon,这是一种用于 GNN 的新型 SSL 方法,具有以下特征。首先,我们提出了一种可学习的数据增强方法,而不是启发式方法,该方法通过利用图中编码的固有信号与嵌入共同学习。此外,我们利用可学习数据增强的灵活性,并引入了一种在嵌入空间中增强的新策略,称为后增强。此策略具有显著降低的内存开销和运行时成本。其次,由于很难对真正的对比项进行采样,因此我们避免了显式负采样。第三,我们不依赖于工程技巧,而是使用由拉普拉斯特征图驱动的可扩展约束优化目标来避免琐碎的解决方案。为了验证 GraphSurgeon 的实际使用,我们使用 14 个公共数据集进行了经验评估,这些数据集跨越多个领域,范围从具有数亿条边的小到大规模图。我们的发现表明,GraphSurgeon 在节点分类任务中可与六个 SOTA 半监督相媲美,并与五个 SOTA 自监督基线相当。源代码可在 https://github.com/zekarias-tilahun/graph-surgeon 获得。

REFINE:用于网络嵌入的随机范围查找器

原文标题: REFINE: Random RangE FInder for Network Embedding

地址: http://arxiv.org/abs/2108.10703

作者: Hao Zhu, Piotr Koniusz

摘要: 网络嵌入方法最近引起了相当大的兴趣,因为它们学习节点的低维向量表示。基于矩阵分解的嵌入是有效的,但由于特征分解步骤,它们通常在计算上很昂贵。在本文中,我们提出了一种基于 Random Range FINder 的网络嵌入 (REFINE) 算法,该算法可以在 30 秒内在单个线程中在 100 万个节点 (YouTube) 上执行嵌入。 REFINE 比 ProNE 快 10 倍,比其他方法如 LINE、DeepWalk、Node2Vec、GraRep 和 Hope 快 10-400 倍。首先,我们将我们的网络嵌入方法制定为跳字模型,但具有正交约束,我们将其重新表述为矩阵分解问题。我们没有使用随机 tSVD(截断 SVD)作为其他方法,而是使用随机块 QR 分解来快速获得节点表示。此外,我们为网络增强设计了一个简单但有效的谱滤波器,以获得节点表示的高阶信息。实验结果证明,REFINE在不同规模(从数千到百万节点/边)的数据集上进行节点分类非常有效,同时具有良好的性能。

在Twitter上误导Covid-19疫苗接种讨论:围绕大流行的信息流行病的探索性研究

原文标题: Misleading the Covid-19 vaccination discourse on Twitter: An exploratory study of infodemic around the pandemic

地址: http://arxiv.org/abs/2108.10735

作者: Shakshi Sharma, Rajesh Sharma, Anwitaman Datta

摘要: 在这项工作中,我们收集了一个中等大小的推文代表性语料库(约 200,000),涉及跨越七个月(2020 年 9 月至 2021 年 3 月)的 Covid-19 疫苗接种。遵循迁移学习方法,我们利用预训练的基于 Transformer 的 XLNet 模型将推文分类为误导性或非误导性,并手动验证结果的随机子集。我们以此为基础研究和对比语料库中具有误导性的推文与非误导性推文的特征。这种探索性分析使我们能够设计特征(例如情感、主题标签、名词、代词等),这些特征反过来又可以用于使用各种 ML 模型以可解释的方式将推文分类为(非)误导性的。具体来说,使用多个 ML 模型进行预测,准确率高达 90%,并且使用 SHAP 可解释人工智能 (XAI) 工具解释每个特征的重要性。虽然这项工作的主旨主要是探索性分析,以便获得关于 Covid-19 疫苗接种的在线讨论的见解,但我们通过概述这些见解如何为减少错误信息的更可行的方法提供基础来总结本文。提供精选的数据集和代码(Github 存储库),以便整个研究社区可以复制、比较或建立在这项工作的基础上。

基于性别的职业隔离:一种位串方法

原文标题: Gender-based occupational segregation: a bit string approach

地址: http://arxiv.org/abs/2108.10343

作者: Joana Passinhas, Tanya Araújo

摘要: 跨职业性别代表性的系统差异、基于性别的职业隔离被认为是仍然存在的性别工资差距的最重要决定因素之一。尽管有一些下降趋势的迹象,但有证据表明,即使人力资本变量的性别差异已经消失,职业性别隔离仍然存在。使用基于主体的模型,我们提供了一个框架,该框架引入了基于劳动力市场歧视理论的歧视行为,其中工人和公司可以表现出性别偏好。歧视行为的引入将原本随机的职业选择动态转变为与经验证据一致的持久的基于性别的职业隔离。

声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://netsci.complexly.cn (提供RSS订阅)进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。

作者:ComplexLY
微信公众号:netsci
欢迎扫描左侧微信公众号二维码进行交流!
本文地址:https://netsci.complexly.cn/post/20210825/