- 使用介数中心性的基于网络的高层数据分类算法;
- 解释社会引力定律的免费效用模型;
- 通过因果推断框架理解编辑推文对媒体帐户新闻分享的影响;
- 估计网页更改率的在线算法;
- “粉丝经济”对中国的流行音乐行业有用吗?;
- 使用任意多项式混沌的非线性复杂网络中多尺度弹性的不确定度量化;
- 社会网络分析用于监督学习保险中的欺诈行为;
- 与时俱进:利用时间交互图研究Alt-Right网络漏洞;
- 城市路网数据驱动交通状态预测的特征工程;
- United We Stand:用于流行病预测的转移图神经网络;
- 免疫异质性的动态因果模型;
- 不确定?处理COVID-19疫苗的犹豫不决;
- 一种基于文本的心理健康支持中表达的理解移情的计算方法;
- 动态图的实时流异常检测;
使用介数中心性的基于网络的高层数据分类算法
原文标题: A Network-Based High-Level Data Classification Algorithm Using Betweenness Centrality
地址: http://arxiv.org/abs/2009.07971
作者: Esteban Vilca, Liang Zhao
摘要: 数据分类是一种主要的机器学习范式,已广泛应用于解决大量现实问题。传统的数据分类技术仅考虑输入数据的物理特征(例如,距离,相似性或分布)。因此,这些被称为 低级分类。另一方面,人(动物)脑执行低阶和高阶学习,并且具有根据输入数据的语义识别模式的功能。不仅考虑物理属性而且考虑模体形成的数据分类称为 高级分类。已经开发了几种高级分类技术,这些技术利用复杂的网络来表征数据模式并获得了可喜的结果。在本文中,我们提出了一种使用介数中心性中心度度量的基于纯网络的高级分类技术。我们在9个不同的实际数据集中测试了该模型,并将其与其他9个传统的和知名的分类模型进行了比较。结果表明我们具有胜任的分类性能。
解释社会引力定律的免费效用模型
原文标题: Free utility model for explaining the social gravity law
地址: http://arxiv.org/abs/2009.07984
作者: Hao Wang, Xiao-Yong Yan, Jinshan Wu
摘要: 社会引力定律广泛存在于人类出行,人口迁移,商品贸易,信息交流,科学合作等方面。为什么在许多复杂的社会系统中有如此简单的法律是一个有趣的问题。尽管来自统计物理学,复杂系统,经济学和运输科学领域的科学家已经解释了社会引力定律,但仍缺乏包括两个主要机制的理论解释,即个体相互作用和有限理性。在这里,我们从个人选择行为的角度提出了一个免费的效用模型来解释社会引力定律。基本假设是,相互联系的有限理性个体将权衡预期效用和信息处理成本,以最大化其自身的效用。先前关于社会引力定律的解释包括最大熵模型,免费成本模型,Logit模型和目的地选择博弈模型都是我们模型下的特例。此外,我们将免费实用新型扩展到虚拟网络和实际交通网络。该模型不仅有助于我们更好地理解复杂社会系统中空间互动模式的内在机理,而且还为理解博弈论中的潜在功能和交通科学中的用户均衡模型提供了新的视角。
通过因果推断框架理解编辑推文对媒体帐户新闻分享的影响
原文标题: Understanding Effects of Editing Tweets for News Sharing by Media Accounts through a Causal Inference Framework
地址: http://arxiv.org/abs/2009.08100
作者: Kunwoo Park, Haewoon Kwak, Jisun An, Sanjay Chawla
摘要: 为了覆盖更广泛的受众并优化新闻报道的访问量,媒体通常使用社交媒体帐户并通过简短的文本摘要来共享其内容。尽管在共享文章中写引人注目的信息很重要,但研究社区对哪种编辑策略有效地促进了受众互动没有足够的了解。在这项研究中,我们旨在通过使用数据驱动的方法分析媒体渠道的当前做法来填补空白。我们首先建立一个平行的原始新闻语料库,并由八个媒体共享它们的相应推文。然后,我们探索这些媒体如何针对原始标题编辑推文,效果如何。为了评估编辑新闻标题对社交媒体共享在受众参与中的作用,我们提出了一种系统分析,该分析将因果推理技术与深度学习相结合。使用倾向得分匹配,与以不同风格共享相似新闻文章的反事实案例相比,它可以估算编辑风格的潜在(不利)优势。根据对各种编辑样式的分析,我们报告了各网点样式的共同和不同效果。为了了解各种编辑样式的效果,媒体可以自己使用我们易于使用的工具。
估计网页更改率的在线算法
原文标题: Online Algorithms for Estimating Change Rates of Web Pages
地址: http://arxiv.org/abs/2009.08142
作者: Konstantin Avrachenkov, Kishor Patil, Gugan Thoppe
摘要: 为了提供快速而准确的搜索结果,搜索引擎会维护整个网络的本地快照。并且,为了保持此本地缓存的最新状态,它使用了搜寻器来跟踪各个网页上的更改。如果爬网程序在网页上更改后就设法更新本地快照,那将是理想的选择。但是,有限的带宽可用性和服务器限制意味着对不同页面进行爬网的频率有限制。然后,这带来了以下优化问题:在爬网频率在规定范围内的情况下,最大化本地缓存的新鲜度。最近,提出了可处理的算法来解决不同成本标准下的优化问题。但是,这些假设都知道确切的页面更改率,这在实践中是不现实的。我们在这里解决这个问题。具体来说,我们提供了三种新颖的在线更改页面更改率方案。所有这些方案仅需要有关页面更改过程的部分信息,即,它们仅需要知道自上一个爬网实例以来页面是否已更改。我们的第一个方案基于大数定律,第二个方案基于随机逼近理论,而第三个方案是第二个方案的扩展,并且包含一个附加的动量项。对于所有这些方案,我们证明了收敛性,并且还提供了它们的收敛速度。据我们所知,关于第三估计量的结果是相当新颖的。具体来说,这是带动量的随机近似算法的第一个收敛类型结果。最后,我们提供了一些数值实验(基于真实数据和综合数据),以将我们提出的估算器与现有估算器(例如MLE)的性能进行比较。
“粉丝经济”对中国的流行音乐行业有用吗?
原文标题: Does “Fans Economy” Work for Chinese Pop Music Industry?
地址: http://arxiv.org/abs/2009.08151
作者: Hao Wang
摘要: 近年来,中国已成为世界上最大的娱乐市场之一。由于小米的成功,许多中国流行音乐行业的企业家相信“粉丝经济”在流行音乐行业中起着重要作用。 “爱好者经济”是基于这样的假设,即流行音乐消费市场可以根据艺术家进行细分。每位音乐艺术家都有自己的专属忠实粉丝。在本文中,我们对流行音乐艺术家和歌迷社会网络进行了深入研究。特别是,我们分别划分了流行音乐消费市场和流行音乐艺术家。我们的结果表明,由于马太效应和消费市场的有限多样性,“粉丝经济”不适用于中国的流行音乐产业。
使用任意多项式混沌的非线性复杂网络中多尺度弹性的不确定度量化
原文标题: Uncertainty Quantification of Multi-Scale Resilience in Nonlinear Complex Networks using Arbitrary Polynomial Chaos
地址: http://arxiv.org/abs/2009.08243
作者: Mengbang Zou, Luca Zanotti Fragonara, Weisi Guo
摘要: 在不断增长的互联世界中,弹性是系统在发生干扰时保持其原始功能的重要能力。即使我们对小型弹性具有很好的了解,但对大型网络弹性的理解仍然有限。网络级弹性和节点级弹性模式的最新研究使我们对跨网络规模的拓扑和动态之间的关系有了更深入的了解。但是,不确定性在大型网络系统中的影响尚不清楚,尤其是当不确定性在连接的节点之间级联时。为了量化整个网络分辨率(从宏观到微观)的弹性不确定性,我们开发了一种任意多项式混沌(aPC)扩展方法,以估计在具有任意分布的参数不确定性的作用下的弹性。我们第一次有能力并且特别重要的是,我们能够确定节点失去弹性的可能性,以及不同的模型参数如何导致这种风险。我们使用通用的网络双稳态系统对此进行测试,这将有助于从业人员了解宏观行为并进行微观干预。
社会网络分析用于监督学习保险中的欺诈行为
原文标题: Social network analytics for supervised fraud detection in insurance
地址: http://arxiv.org/abs/2009.08313
作者: María Óskarsdóttir, Waqas Ahmed, Katrien Antonio, Bart Baesens, Rémi Dendievel, Tom Donas, Tom Reynkens
摘要: 当保单持有人提出夸大或基于故意损害的索赔时,就会发生保险欺诈。该贡献通过从索赔的社会网络中提取有洞察力的信息来制定欺诈检测策略。首先,我们通过将索赔与所有相关方(包括保单持有人,经纪人,专家和车库)联系起来来构建一个网络。接下来,我们将欺诈行为确立为网络中的一种社会现象,并使用带有欺诈行为特定查询向量的BiRank算法来计算每个索赔的欺诈行为分数。从网络中,我们提取与欺诈评分以及索赔的邻域结构相关的特征。最后,我们将这些网络功能与特定于索赔的功能结合在一起,并建立了一个以汽车保险欺诈为目标变量的监督模型。尽管我们仅为汽车保险建立了模型,但该网络包含所有可用业务线的索赔。我们的结果表明,具有网络特征的模型在检测欺诈时表现良好,甚至仅使用经典的索赔特定特征也能胜过模型。将网络和特定于声明的功能相结合,可以进一步提高监督学习模型检测欺诈的性能。结果模型标记出高度怀疑的说法,需要进一步调查。我们的方法可提供指导性的智能选择索赔,并有助于更有效的欺诈调查过程。
与时俱进:利用时间交互图研究Alt-Right网络漏洞
原文标题: Moving with the Times: Investigating the Alt-Right Network Gab with Temporal Interaction Graphs
地址: http://arxiv.org/abs/2009.08322
作者: Naomi A. Arnold, Benjamin A. Steer, Imane Hafnaoui, Hugo A. Parada G., Raul J. Mondragon, Felix Cuadrado, Richard G. Clegg
摘要: Gab是一个在线社会网络,经常与极右翼政治运动相关联,并且用户被其他网络禁止。它提供了一个有趣的研究机会,因为从网络创建的第一天开始就可获得近乎完整的数据。在本文中,我们研究了用户交互图的演变,即其中的链接表示一个用户在给定时间与另一个用户交互的图。我们在不同的时间和不同的时间范围内查看此图。后者是通过使用图上的滑动窗口来实现的,该窗口为社会网络数据提供了新颖的视角。在过去的几个月中,Gab网络的增长相对缓慢,但在数小时和数天的时间内大量涌入。我们确定与最明显的此类爆发相关的Gab社区感兴趣的合理事件。网络的特点是“陌生人”之间的互动,而不是加强“朋友”之间的联系。禁忌症的使用遵循主要基于美国和欧洲的用户的昼夜周期。在非高峰时间,Gab交互网络会分成子网,而子网之间绝对没有交互。一小部分用户在较大的时间范围内具有很大的影响力,但是大量用户在短时间内会产生影响。在不同时间尺度上的时间分析提供了超越静态图所能发现的新见解。
城市路网数据驱动交通状态预测的特征工程
原文标题: Feature Engineering for Data-driven Traffic State Forecast in Urban Road Networks
地址: http://arxiv.org/abs/2009.08354
作者: Felix Rempe, Klaus Bogenberger
摘要: 当应用于城市道路网络时,大多数交通状态预测算法仅考虑与目标位置紧邻的路段。但是,对于更长期的预测,更远距离的链路或网络区域的流量状态也有望为数据驱动算法提供有价值的信息。本文研究了使用网络聚类算法的期望以及由大量车辆收集的一年的浮动车(FCD)。首先,将聚类算法应用于数据,以提取慕尼黑城市网络中易发生拥塞的区域。借助统计工具分析这些集群内部的拥塞程度。确定了清晰的时空拥塞模式和聚类区域之间的相关性。这些相关性被集成到K最近邻居(KNN)旅行时间预测算法中。与其他方法相比,此方法可获得最佳结果。统计结果和KNN预测器的性能表明,对网络范围流量的考虑是预测器的宝贵功能,也是将来开发更精确算法的一种有前途的方式。
United We Stand:用于流行病预测的转移图神经网络
原文标题: United We Stand: Transfer Graph Neural Networks for Pandemic Forecasting
地址: http://arxiv.org/abs/2009.08388
作者: George Panagopoulos, Giannis Nikolentzos, Michalis Vazirgiannis
摘要: 最近爆发的COVID-19已影响到全球数百万个人,并对全球医疗保健构成了重大挑战。从大流行的早期开始,人们就清楚地知道它具有高度传染性,而人类的流动性极大地促进了其传播。在本文中,我们研究了人口流动对COVID-19传播的影响,并利用了图表示学习领域中的最新进展,以刻画潜在的动态。具体来说,我们创建一个图,其中节点对应于一个国家的区域,边权重表示人类从一个区域到另一个区域的流动性。然后,我们采用图神经网络来预测未来案例的数量,对控制扩散的基本扩散模式进行编码,并将其编码到我们的学习模型中。此外,由于培训数据量有限,我们利用大流行病在各国之间的异步爆发,并使用基于模型不可知论的元学习方法将知识从一个国家的模型转移到另一个国家。我们将提议的方法与3个欧洲国家的简单基准和更传统的预测技术进行了比较。实验结果证明了我们方法的优越性,突出了GNN在流行病学预测中的实用性。转移学习提供了最好的模型,如果利用了过去/平行暴发的数据,那么在二次波浪的情况下,转移学习可以提高预测的准确性。
躲藏在视线中:测量和分析儿童在YouTube上暴露于恶意URL的情况
原文标题: Hiding in Plain Sight: A Measurement and Analysis of Kids’ Exposure to Malicious URLs on YouTube
地址: http://arxiv.org/abs/2009.07923
作者: Sultan Alshamrani, Ahmed Abusnaina, David Mohaisen
摘要: 互联网已经成为儿童和青少年日常生活的重要组成部分。社交媒体平台被年轻用户用作日常的教育和娱乐资源,为确保与各种社交媒体平台进行交互时的安全做出了巨大的努力。在本文中,我们将针对这些受众群体在YouTube视频上发布的评论中调查这些用户暴露于不适当和恶意内容的可能性。我们收集了大约400万条记录的大规模数据集,并研究了嵌入在这些视频的评论中的恶意URL和不适当URL的存在。我们的结果表明,嵌入在可供儿童和年轻用户使用的评论中的恶意URL和恶意URL数量令人担忧。特别是,由于包含此类URL的视频的平均观看次数为4800万,因此我们观察到数量惊人的不当和恶意URL,极有可能使儿童接触。使用此类平台时,孩子不仅会接触到平台中可用的材料,还会接触到注释中嵌入的URL的内容。这突显了监视评论中提供的URL的重要性,从而限制了儿童暴露于不适当内容的可能性。
免疫异质性的动态因果模型
原文标题: Dynamic causal modelling of immune heterogeneity
地址: http://arxiv.org/abs/2009.08411
作者: Thomas Parr, Anjali Bhat, Peter Zeidman, Aimee Goel, Alexander J. Billig, Rosalyn Moran, Karl J. Friston
摘要: 一些Covid-19流行病学模型得出的一个有趣的推论是,即使在当前的大流行开始时,仍有一部分人口不容易受到感染。本文介绍了一种对病毒的免疫应答模型。这是基于与流行病学相同的平均场动态。但是,在流行病学模型中,我们代替人的位置,临床状态和其他属性,而是考虑病毒,B淋巴细胞和T淋巴细胞的状态,以及它们产生的抗体。我们的目标是对抵抗机制进行一些关键假设的形式化。我们提出了一系列简单的模拟,说明了在这些假设下免疫反应动力学的变化。这些包括减弱的病毒细胞进入,预先存在的交叉反应性体液(抗体介导的)免疫和增强的T细胞依赖性免疫。最后,我们通过说明该模型的变分反演(使用模拟数据)来说明该模型在检验假设中的用途,从而说明这种模型的潜在应用。原则上,这提供了一种基于顺序血清学的快速有效的免疫学测定方法,可提供(i)潜在免疫反应的定量测量和(ii)不同类型免疫反应的贝叶斯最佳分类(参见葡萄糖用于测试胰岛素抵抗的耐受性测试)。这在评估SARS-CoV-2疫苗时可能特别有用。
不确定?处理COVID-19疫苗的犹豫不决
原文标题: Not sure? Handling hesitancy of COVID-19 vaccines
地址: http://arxiv.org/abs/2009.08413
作者: N.F. Johnson, N. Velasquez, R. Leahy, N. Johnson Restrepo, O. Jha, Y. Lupu
摘要: 从首批COVID-19疫苗问世以来,就需要有很大一部分准备就绪的全球人口。因此,至关重要的是开始应对这种COVID-19疫苗日益增长的全球犹豫。试图说服“不”的当前方法不能足够迅速地起作用,而试图查找,删除和/或反驳所有单独的COVID和疫苗错误信息的现行策略也不能足够快。取而代之的是,我们展示了如何通过摆脱追逐错误信息的内容,而专注于管理“是-不确定-不确定”的犹豫不决生态系统,以一种更简单的方式完成此工作。
一种基于文本的心理健康支持中表达的理解移情的计算方法
原文标题: A Computational Approach to Understanding Empathy Expressed in Text-Based Mental Health Support
地址: http://arxiv.org/abs/2009.08441
作者: Ashish Sharma, Adam S. Miner, David C. Atkins, Tim Althoff
摘要: 同情对于成功的心理健康支持至关重要。移情测量主要发生在同步的面对面设置中,并且可能无法转换为基于文本的异步上下文。由于数百万人使用基于文本的平台来提供心理健康支持,因此在这些情况下理解同理心至关重要。在这项工作中,我们提出了一种计算方法来理解在线心理健康平台中如何表达同情心。我们开发了一种新颖的统一的理论基础框架,用于描述基于文本的对话中的移情交流。我们收集并共享使用此移情框架进行注释的10k(帖子,回复)对的语料,并带有注释的支持证据(合理值)。我们开发了基于RoBERTa的多任务双向编码器模型,用于识别对话中的同理心并提取其预测的基础。实验表明,我们的方法可以有效地识别移情对话。我们进一步将该模型用于分析235k精神健康互动,并表明用户不会随着时间的流逝自学同理心,从而揭示了进行同情心培训和反馈的机会。
动态图的实时流异常检测
原文标题: Real-Time Streaming Anomaly Detection in Dynamic Graphs
地址: http://arxiv.org/abs/2009.08452
作者: Siddharth Bhatia, Rui Liu, Bryan Hooi, Minji Yoon, Kijung Shin, Christos Faloutsos
摘要: 给定动态图中的图边流,我们如何以恒定的时间和内存以在线方式将异常分数分配给边,以检测异常行为?现有方法旨在检测单独的令人惊讶的边。在这项工作中,我们提出了MIDAS,其重点是检测微簇异常或突然到达的可疑相似边组,例如锁步行为,包括对网络流量数据的拒绝服务攻击。我们进一步提出了MIDAS-F,以解决将异常合并到算法内部状态的问题,从而产生“中毒”效应,该效应可以使未来的异常漏出而未被发现。 MIDAS-F进行了两项修改:1)我们修改异常评分功能,以减少新到达边的“中毒”影响; 2)我们引入了条件合并步骤,该步骤在每次滴答之后都会更新算法的数据结构,但是只有当异常得分低于阈值时,这也才能减少“中毒”效应。实验表明,MIDAS-F的准确度明显高于MIDAS。 MIDAS具有以下特性:(a)在发现微团异常的同时,为其假阳性概率提供理论保证; (b)它是在线的,因此可以在恒定的时间和恒定的内存中处理每个边沿,并且处理数据的速度比最新方法快130到929倍; (c)与最新技术相比,它的精度(按ROC-AUC而言)提高了41%至55%。
声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://netsci.complexly.cn (提供RSS订阅)进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。

作者:ComplexLY
微信公众号:netsci
欢迎扫描左侧微信公众号二维码进行交流!
本文地址:https://netsci.complexly.cn/post/20200918/