- 亚里士多德与林格曼的关系:开源软件中的超线性生产;
- 距离泛化核分解;
- 激励基于区块链的社交媒体平台:Steemit案例研究;
- 社交媒体的数字架构:在2016年美国大选中比较Facebook、Twitter、Instagram和Snapchat上的政治竞选;
- 事情正在酝酿!从讨论特征早期预测引起争议的帖子;
- 图比较的指标:实践指南;
- 新闻报道中的选择偏见:学习它,对抗它;
- 媒体景观的动态嵌入模型;
- 研究属性对社交媒体用户信任的影响;
- 更广、更远:通过影响分散树来量化科技论文的影响;
- 重新思考科学中的资源配置;
- 医学研究中的睡美人:技术相关性,高科学影响力;
- 虚拟物品赌博经济的多交互动力学建模;
- 在线同人小说的相似性吸引人,新颖性干扰人,但异类蓬勃发展;
- 使用图卷积网络基于拓扑进行论文领域的分类;
亚里士多德与林格曼的关系:开源软件中的超线性生产
原文标题: Aristotle vs. Ringelmann: On Superlinear Production in Open Source Software
地址: http://arxiv.org/abs/1608.03608
作者: Thomas Maillart, Didier Sornette
摘要: 存在组织是因为与分配资源的横向方式(例如市场)相比,它们提供了额外的生产收益,并且开源运动被认为是在某种程度上在等级组织的公司和市场之间的新型同行生产组织。但是,要想成为一种新型组织,开源必须提供生产收益,而这反过来又应该是可衡量的。由于这个原因,开源运动特别有趣。在这里,我们面对并讨论了最近在文献中报道的两种截然不同的观点。一方面,Sornette等人。发现了一种超线性的生产机制,它量化了亚里士多德的格言:“整体不仅仅是其各部分的总和”。另一方面,Scholtes等人。发现了相反的结果,并提到了法国农业工程师马克西米利安林格曼(1861-1931),他发现随着群体规模的增加,群体中的个体成员的生产力越来越低。自Ringelmann以来,集体智慧的主题对社会科学和社会心理学的研究人员以及管理从业人员感兴趣,旨在提高他们团队的绩效。在大多数研究和实践案例研究中,已经发现林格曼效应成立,而相反,Sornette等人发现的超线性效应是新颖的,可能挑战共同的智慧。在这里,我们比较这两种理论,权衡它们的优点和缺点,并讨论如何用经验数据对它们进行测试。我们发现它们可能并不像Scholtes等人声称的那样相互矛盾。
距离泛化核分解
原文标题: Distance-generalized Core Decomposition
地址: http://arxiv.org/abs/1904.07262
作者: Francesco Bonchi, Arijit Khan, Lorenzo Severini
摘要: 图的 k -core定义为最大子图,其中每个顶点连接到该子图中至少 k 其他顶点。在这项工作中,我们引入了基于距离的 k -core概念的泛化,我们将其称为(k,h) - 核心,即每个顶点至少有 k的最大子图。在该子图内距离 leq h 的其他顶点。我们研究了(k,h) - core的属性,表明它保留了经典核心分解的许多优点(例如,它与距离广义色数概念的联系),并保留了它的有用性。加速或近似距离 - 密集结构的概括概念,例如 h -club。计算大型网络上的距离广义核心分解本质上是复杂的。然而,通过利用聪明的上限和下限,我们可以在一组完全独立的子计算中划分计算,打开自上而下的探索和多线程的大门,从而实现有效的算法。
激励基于区块链的社交媒体平台:Steemit案例研究
原文标题: Incentivized Blockchain-based Social Media Platforms: A Case Study of Steemit
地址: http://arxiv.org/abs/1904.07310
作者: Chao Li, Balaji Palanisamy
摘要: 本文对Steemit进行了实证分析,Steemit是区块链中新兴的激励社交媒体平台的关键代表,用于理解和评估分散化的实际水平以及加密货币驱动的奖励系统在这些现代社交媒体平台中的实际效果。与比特币类似,Steemit由分散的社区运营,其中21名成员定期通过委托证明(DPoS)共识协议选择合作运营该平台。我们在2016/03至2018/08期间对112万名Steemit用户进行的5.39亿次操作进行的研究表明,Steemit的实际权力下放水平远低于理想水平,表明DPoS共识协议可能不是建立高度分散的社交媒体平台的理想方法。在Steemit中,用户根据来自其他用户的投票创建内容作为帖子。该平台定期发布加密货币作为热门帖子的创作者和策展人的奖励。虽然这种奖励系统最初是由激励用户提供高质量内容的愿望驱动的,但我们对区块链上的基础加密货币转移网络的分析表明,超过16%的加密货币转让被发送给怀疑为机器人也发现机器人存在潜在的供应网络,这两者都暗示了Steemit当前奖励制度的重大滥用。我们的研究旨在提供有关这一新兴的基于区块链的社交媒体平台的当前状态的见解,包括其设计的有效性以及共识协议和奖励系统的运作。
社交媒体的数字架构:在2016年美国大选中比较Facebook、Twitter、Instagram和Snapchat上的政治竞选
原文标题: The Digital Architectures of Social Media: Comparing Political Campaigning on Facebook, Twitter, Instagram, and Snapchat in the 2016 U.S. Election
地址: http://arxiv.org/abs/1904.07333
作者: Michael Bossetta
摘要: 本研究认为,社交媒体上的政治沟通是由平台的数字架构调解的,该架构被定义为在虚拟空间中实现,约束和塑造用户行为的技术协议。介绍了一种理解数字架构的框架,并根据类型学比较了四个平台(Facebook,Twitter,Instagram和Snapchat)。以2016年美国大选为例,对三位共和党数字战略家的访谈与社交媒体数据相结合,使研究人员理论认为平台的网络结构,功能,算法过滤和数据化模式影响社交媒体上的政治竞选策略。
事情正在酝酿!从讨论特征早期预测引起争议的帖子
原文标题: Something’s Brewing! Early Prediction of Controversy-causing Posts from Discussion Features
地址: http://arxiv.org/abs/1904.07372
作者: Jack Hessel, Lillian Lee
摘要: 有争议的职位是那些分散社区偏好的职位,同时收到重大的积极和重大的负面反馈。我们在这里加入“社区”一词是故意的:对一些受众有争议的可能对其他人不一样。使用来自reddit.com上几个不同社区的数据,我们预测帖子的最终争议性,利用从文本内容和引发讨论的早期评论的树结构中提取的特征。我们发现,即使只有少数评论可用,例如,在原始帖子的15分钟内发表的前5条评论,讨论功能通常会为强大的内容和速率基线增加预测能力。关于域名转移的其他实验表明,会话结构功能通常比会话内容功能更好地推广到其他社区。
图比较的指标:实践指南
原文标题: Metrics for Graph Comparison: A Practitioner’s Guide
地址: http://arxiv.org/abs/1904.07414
作者: Peter Wills, Francois G. Meyer
摘要: 图结构的比较是数据分析和机器学习中无处不在的任务,在神经科学,网络安全,社会网络分析和生物信息学等领域具有多种应用。在这些领域中发现和比较诸如模块化社区,丰富的俱乐部,中心和树木等结构,可以深入了解图的生成机制和功能属性。通常,通过成对距离测量来比较两个图,具有指示结构相似性的小距离,反之亦然。常见的选择包括谱距离(也称为lambda距离)和基于节点亲和力的距离。然而,尚未对这些距离测量在识别常见图拓扑和不同结构尺度之间的功效进行比较研究。在这项工作中,我们比较常用的图表度量和距离度量,并展示他们辨别随机图模型和经验数据集中的常见拓扑特征的能力。我们提出了图结构的多尺度图,其中考虑了全局和局部结构对距离测量的影响。基于这种多尺度视图,我们就不同距离测量对经验图数据问题的适用性提出了建议。最后,我们介绍了Python库NetComp,它实现了本工作中使用的图距离。
新闻报道中的选择偏见:学习它,对抗它
原文标题: Selection Bias in News Coverage: Learning it, Fighting it
地址: http://arxiv.org/abs/1904.07536
作者: Dylan Bourgeois, Jeremie Rappaz, Karl Aberer
摘要: 新闻实体必须选择并过滤他们通过各自频道播放的报道,因为这组世界事件太大而无法进行详尽的处理。这种过滤的主观性质引起了偏见,其中包括资源限制,编辑指南,意识形态的亲和力,甚至是记者可以处置的信息的碎片化性质。然而,这些偏见的大小和方向是众所周知的。缺乏事实真相,事件空间的庞大规模,或缺乏一套详尽的绝对特征来衡量,使得难以直接观察偏见,表征倾斜的性质并将其分解以确保中性覆盖新闻在这项工作中,我们引入了一种方法来大规模地捕捉媒体决策过程的潜在结构。我们的贡献是多方面的。首先,我们使用个性化技术显示媒体报道是可预测的,并评估我们对从GDELT数据库收集的大量事件的方法。然后,我们表明,个性化和参数化方法不仅表现出更高的覆盖率预测准确度,而且还提供了可选择偏差的可解释表示。最后,我们提出了一种能够通过利用潜在表示来选择一组源的方法。这些选定的来源提供更多样化和平等的覆盖范围,同时保留最积极的覆盖事件。
媒体景观的动态嵌入模型
原文标题: A Dynamic Embedding Model of the Media Landscape
地址: http://arxiv.org/abs/1904.07539
作者: Jeremie Rappaz, Dylan Bourgeois, Karl Aberer
摘要: 有关世界事件的信息通过各种新闻频道传播,每个新闻频道在报道选择时都有特定的考虑因素。虽然这些网点的多样性应该确保各种观点,但最近的报告表明,媒体所有权日益集中可能会使这一假设无效。这一观察结果促使研究所有权对全球媒体格局的影响及其对实际观众所接受的报道的影响。为此,报告事件的选择已被证明可以提供有关新闻生态系统高层结构的信息。然而,现有方法仅提供静态动态系统的静态视图,提供表现不佳的统计模型并阻碍我们对整个媒体环境的理解。在这项工作中,我们提出了一种动态嵌入方法,该方法学习在选择报告事件时捕获各个新闻源的决策过程,同时还能够在长时间内系统地检测媒体格局中的大规模变换。在一项涵盖超过580万个真实世界事件提及的实验中,我们展示了我们在预测方面优于静态嵌入方法的方法。我们通过揭示并购,政策变化或网络内容扩散引起的节目中的重要变化,展示了新闻监控应用和调查性新闻的方法的潜力。这些调查结果证明了大型广播组内部强烈的内容融合趋势,在媒体所有权集中度不断提高的时代影响着新闻生态系统。
研究属性对社交媒体用户信任的影响
原文标题: Investigating the Effect of Attributes on User Trust in Social Media
地址: http://arxiv.org/abs/1904.07569
作者: Jamal Al Qundus, Adrian Paschke
摘要: 社交媒体的一个主要挑战是识别可信赖的信息。如果我们无法识别信息是值得信赖的,那么这些信息可能会变得无用或丢失。相反,我们可能会消耗错误或虚假的信息并带来重大后果。用户如何在使用之前处理所提供的信息?对作出此类决定所必需的帖子,作者或投票的评论是否必不可少?这些属性是一起考虑的,哪个属性更重要?为了回答这些问题,我们开发了一种信任模型,以支持社交媒体中用户内容的知识共享。该信任模型基于稳定性,质量和可信度的维度。每个维度都包含基于数据分析对用户重要的指标(用户角色,用户IQ,投票等)。我们在本文中提出了使用联合分析(CA)作为评估方法对所提出的信任模型的评估。从348个响应中获得的结果验证了信任模型。信任度转换器根据计算的信任值将内容解释为非常可信,可信,不可信和非常不可信。此外,结果显示每个维度的不同重要性:稳定性24%,可信度35%和质量41%。
更广、更远:通过影响分散树来量化科技论文的影响
原文标题: Go Wide, Go Deep: Quantifying the Impact of Scientific Papers through Influence Dispersion Trees
地址: http://arxiv.org/abs/1904.07579
作者: Dattatreya Mohapatra, Abhishek Maiti, Sumit Bhatia, Tanmoy Chakraborty
摘要: 尽管使用引文计数作为评估科学论文的影响或影响的措施有很长的历史,但很少探索受论文启发的后续工作的演变及其通过引文链接的相互作用来量化论文的丰富程度。研究领域的深度和广度。我们提出了一种新的数据结构,称为影响分散树(IDT),通过引用对后续论文及其依赖性的组织进行建模。我们还为每篇论文提出了理想IDT的概念,并表明理想的(极具影响力的)论文应该增加垂直和水平场的知识。在适当探索IDT的结构特性后,我们推导出一系列指标,即影响分散指数(IDI),归一化影响发散(NID)来量化论文的影响。我们的理论分析表明理想的IDT配置应具有相同的深度和广度(从而最小化NID值)。我们在两个实验环境中确定NID的优越性作为更好的影响措施。首先,在大型真实世界的书目数据集中,我们证明NID优于原始引文计数,作为论文在发布后的一定时期内将获得的新引用次数的早期预测。其次,我们证明NID在通过所有当代论文(在同一地点发表)中通过时间测试奖确定被认为具有很高影响力的论文时优于原始引用计数。我们的结论是,为了量化论文的影响力以及总引用次数,还应该考虑引用论文如何相互组织,以更好地理解论文对研究领域的影响。为了重现性,本研究中使用的代码和数据集正在向社区提供。
重新思考科学中的资源配置
原文标题: Rethinking Resource Allocation in Science
地址: http://arxiv.org/abs/1904.07645
作者: Johan Bollen, Stephen Carpenter, Jane Lubchenco, Marten Scheffer
摘要: 主要通过提案同行评审过程,仅美国资助机构每年总共分配大约65亿美元的资金:科学家通过提交由选定的同行评审小组评估的资助提案来竞争项目资金。大多数先进民主国家都有类似的筹资制度。然而,尽管有着悠久的历史,提案同行评审越来越难以应对研究经费的需求与供给之间日益增长的不匹配。
医学研究中的睡美人:技术相关性,高科学影响力
原文标题: Sleeping Beauties in Medical Research: Technological Relevance, High Scientific Impact
地址: http://arxiv.org/abs/1904.07658
作者: Anthony F.J. van Raan, Jos J. Winnink
摘要: 我们在医学研究中调查睡美人,特别关注专利中引用的睡美人。我们发现,相对数量的睡美人的增加趋势在1998年左右结束。然而,仍然有一部分出版物成为睡美人。许多睡美人成为高度引用的出版物,它们甚至属于其所在领域中被引用率最高的前10%至20%的出版物。我们测量了睡眠周期长度,睡眠期间引用强度和醒着引文强度的睡美人数量的尺度比例。我们确定了大睡眠美方程,该方程表明,对于较长的睡眠时间,深度睡眠后觉醒的概率变得越来越小,并且更高的觉醒强度的概率极快地降低。尺度指数显示出与时间相关的行为,这表明具有较长睡眠周期的睡美人的发生率降低。我们证明了在唤醒之前专利引用的睡美人的比例呈指数增长。这一发现表明技术时滞比睡眠时间短。发明人-作者自引用可能会缩短技术时间滞后,但这种影响很小。最后,我们讨论了睡美人的特征,这些睡美人成为有史以来引用率最高的医学论文之一。
虚拟物品赌博经济的多交互动力学建模
原文标题: Multiple-interaction kinetic modelling of a virtual-item gambling economy
地址: http://arxiv.org/abs/1904.07660
作者: Giuseppe Toscani, Andrea Tosin, Mattia Zanella
摘要: 近年来,在线赌博网站的数量激增,这使得赌博更容易获得,随之而来的是相关问题,例如成瘾。因此,对个人和总体水平的赌博行为的分析已成为若干调查的对象。在本文中,借助于动力学理论的经典方法,我们描述了在虚拟物品赌博市场上参与彩票型博弈的赌徒的多智能体系统的行为。与先前的,通常是经验性的结果的比较突出了动力学方法解释赌博式博弈的简单微观规则如何产生复杂的集体趋势的能力,这可能难以通过仅查看可用数据来精确解释。
在线同人小说的相似性吸引人,新颖性干扰人,但异类蓬勃发展
原文标题: Sameness Attracts, Novelty Disturbs, but Outliers Flourish in Fanfiction Online
地址: http://arxiv.org/abs/1904.07741
作者: Elise Jing, Simon DeDeo, Yong-Yeol Ahn
摘要: 人们所享有的本质不仅仅是创意产业的核心问题,而是文化发展的驱动力。人们普遍认为,成功的文化产品能够平衡新颖性和传统性:它们提供了一些熟悉的东西,但至少与以前的东西有些不同,并且在“更多相同”和“太奇怪”之间占据了令人满意的中间立场。我们使用来自我们自己的档案馆(AO3)的超过五十万份小说作品的大型数据集来测试这一信念,研究作品所获得的认可是如何因其新颖性而变化的。我们通过基于术语的语言模型和主题模型,在同一个同人圈中的现有作品的背景下量化新颖性。与平衡理论相反,我们发现最低新颖性是最受欢迎的,并且普及性随着新颖性而单调下降。可以找到一些例外:非常受欢迎的作品,是粉丝圈中最高新奇的作品之一。总而言之,我们的研究结果不仅挑战了新奇的享乐价值的传统理论,而且还颠覆了它:人们更喜欢最不新颖的东西,被中间层所击退,偶尔会对极端异常值产生热情。它表明文化演化必须反对惯性 - 人们必须不断重建熟悉的食欲,并且可能类似于间断的平衡而不是平滑的演化。
使用图卷积网络基于拓扑进行论文领域的分类
原文标题: Topological based classification of paper domains using graph convolutional networks
地址: http://arxiv.org/abs/1904.07787
作者: Idan Benami, Keren Cohen, Oved Nagar, Yoram Louzoun
摘要: 图中节点分类的主要方法是信息传播以及节点类与外部信息的关联。现有技术方法通过图卷积网络合并这些方法。我们在这里使用节点的拓扑特征与它们的类的关联来预测这个类。此外,将拓扑信息与信息传播相结合可提高标准CiteSeer和Cora论文分类任务的分类准确性。拓扑特征和信息传播产生的结果几乎与基于文本的分类一样好,没有文本或内容信息。我们建议通过GCN表示拓扑和信息传播,其中相邻训练节点分类作为输入,当前节点分类作为输出。这种形式优于最先进的方法。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://netsci.complexly.cn (提供RSS订阅)进行同步更新。

作者:ComplexLY
微信公众号:netsci
欢迎扫描左侧微信公众号二维码进行交流!
本文地址:https://netsci.complexly.cn/post/20190417/