- 表征Google图书语料库:对社会文化和语言演变推论的极限;
- 语言演变是否停止?英文小说中词汇动荡的缩放表明不是;
- 社会媒体形象分析公共卫生;
- 旅程与笔记:为非商业用途设计社交计算;
- 中继链接模型在演进网络中的涌现和消退;
- 图形与自循环和给定度数序列的连接;
- 通过具有跳跃的多维步行表征定向和无向网络;
- 交叉依赖关系真的很稀缺吗?;
- 行人疏散动态社会群体实证研究;
- Pokemon Go玩家中众包的出现;
表征Google图书语料库:对社会文化和语言演变推论的极限
地址: http://arxiv.org/abs/1501.00960
作者: Eitan Adam Pechenick, Christopher M. Danforth, Peter Sheridan Dodds
摘要: 将Google图书数据集中的频率趋势视为各种单词和短语的“真实”受欢迎程度的指标是诱人的。这样做可以使我们得出关于给定主题的文化感知演变的定量强烈的结论,例如时间或性别。然而,Google Books语料库受到一些限制,使其成为文化流行的晦涩面具。一个主要问题是语料库实际上是一本图书馆,其中包含每本书之一。因此,无论作者是否被广泛阅读,单一的多产作者因此能够将新的短语插入Google图书词典中。有了这个理解,Google图书语料库仍然是一个重要的数据集,被认为比文字更像词典。在这里,我们显示出一个明显的问题特征是由于纳入了科学文本,这些科学文本已经成为整个二十年代语料库日益重要的一部分。结果是学术文章典型的词汇激增,但一般情况较少见,例如以引用形式引用时间。我们通过审查和比较1800 - 2000年间几十年间英语数据集统计分歧的主要贡献来强调这些动态。我们发现,与第一版的小说数据集和两个未经过滤的英文数据集都有明显的区别,只有英文小说数据集不受专业文本的严重影响。我们的研究结果强调,在使用这些数据集来绘制关于文化和语言演变的广泛结论之前,需要充分表征Google图书语料库的动态。
语言演变是否停止?英文小说中词汇动荡的缩放表明不是
地址: http://arxiv.org/abs/1503.03512
作者: Eitan Adam Pechenick, Christopher M. Danforth, Peter Sheridan Dodds
摘要: 最基本的兴趣在于量化一个语言词汇的长期增长,因为它发展到更完全地覆盖了文化的沟通需求和知识空间。在这里,我们将探讨Google图书2012英文小说语料库所反映的英文单词的使用动态。我们批评了二十世纪下半叶发现出生率降低和死亡率上升的早期方法,显示死亡率受到强加于任意现场的时间限制的强烈影响,并没有大幅增加。我们通过跟踪各种相对频率阈值中字通量的量来提供强大的原则性方法来检查词汇演化。我们表明,虽然英语的整体统计结构在其原始Zipf分布方面保持稳定,但我们发现有持久的“词汇动荡”的证据:跨越频率阈值的词从十年到十年的词汇与词的超线性比较排名并展示我们连接到Zipf定律的缩放休息。为了更好地了解变化的词汇,我们研究了Jensen-Shannon对跨越频率阈值的单词的分歧的贡献。我们也发现,有关小说的学术着作在2012年英文小说语料库中有很强的代表性,并且表明将来修改语料库应该试图将关键作品与小说本身分开。
社会媒体形象分析公共卫生
地址: http://arxiv.org/abs/1512.04476
作者: Kiran Garimella, Abdulrahman Alfayad, Ingmar Weber
摘要: 几个项目显示了使用文字社交媒体数据跟踪公共卫生问题的可行性,例如时间性流感病毒模式或地理肥胖模式。在本文中,我们来看看Instagram的地理标记图像是否也提供了可行的数据源。特别是对于诸如肥胖,饮酒或吸烟等“生活方式”疾病而言,社交聚会的图像可以提供不一定在Twitter上分享的信息。在本研究中,我们探讨(i)用户提供的标签和(ii)通过自动图像标记获得的注释对于研究公共卫生确实是有价值的。我们发现用户提供的和机器生成的标签都提供了可用于推断县卫生统计数据的信息。而对于大多数统计数据,用户提供的标签是更好的功能,为了预测过度饮酒机生成的标签,如“液体”和“玻璃”,产生更好的模型。这暗示了使用机器生成的标签研究药物滥用的潜力。
旅程与笔记:为非商业用途设计社交计算
地址: http://arxiv.org/abs/1605.08548
作者: Justin Cranshaw, Andrés Monroy-Hernández, S.A. Needham
摘要: 在这项工作中,我们提出了一个移动应用程序,我们设计和设计,使人们可以远程登录他们的旅行,留下笔记,并在两个目的地之间的空间建立一个社区。我们的设计探索了基于位置的社交计算系统的新基础,确定了这些系统可以促进植根于非地方的在线社区发展的机会。在我们的工作中,我们开发,探索和评估围绕四种使用场景设计的几种创新功能:每日通勤,长途旅行,量化旅行和日记。我们介绍两个小型用户研究的结果,以及一个大规模的全球部署,将结果综合为在非地方设计社交计算方面的潜在机会和经验教训。
中继链接模型在演进网络中的涌现和消退
地址: http://arxiv.org/abs/1609.08371
作者: Mayank Singh, Rajdeep Sarkar, Pawan Goyal, Animesh Mukherjee, Soumen Chakrabarti
摘要: 演进社交网络中的节点获得链接(朋友,引文)的速率显示出复杂的时间动态。优雅的附件和链接复制模式,虽然优雅简单,只能捕捉到更丰富的效果,不会老化和衰落。最近的老龄化模式是复杂和参数化的;大多数涉及估计每个节点1-3个参数。这些参数是内在的:它们解释了同一个节点过去的事件的衰落,并且不解释使用网络,链接注意力可能在哪里。我们认为,链接动力学的传统表征不足以判断模型的忠实性。我们提出了一个演进图的新时态草图,并介绍了网络时态动态的几个新特征。然后,我们提出一个新的节俭老化模型,没有每个节点参数,只有两个全局参数。我们的模型是基于三角形完成的令人惊讶的颠倒或撤消,其中一个旧节点将引用转移给其附近的年轻追随者。尽管参数非常少,但新系列的车型显示出与实际数据相比更好的适应性。在结束时,我们分析各种研究团体的时间签名,进一步深入了解其比较动态。为了便于重现性研究,我们将尽快将所有代码和已处理的数据集在公共领域提供。
图形与自循环和给定度数序列的连接
地址: http://arxiv.org/abs/1701.04888
作者: Joel Nishimura
摘要: “双边交换”将一个图形转换为另一个图形,同时保留图形的度数序列,因此已被用于许多流行的马尔科夫链蒙特卡洛(MCMC)采样技术。然而,尽管双边缘交换可以对任何固定程度序列进行变换,简单图形,多图形和伪图类中的任何两个图形,这对于允许自循环而不是多重图形(循环图)的图形来说是不正确的。实际上,我们恰好描述了双边缘交换无法达到每个有效环路图的程度序列,并开发了一种有效的算法来确定这种程度序列。用于表征度序列的相同分类方案可用于证明,对于所有程度序列,环形图通过双重和三重边缘交换的组合连接。因此,我们贡献第一个MCMC采样器,以任何给定的顺序均匀采样环路图。
通过具有跳跃的多维步行表征定向和无向网络
地址: http://arxiv.org/abs/1703.08252
作者: Fabricio Murai, Bruno Ribeiro, Don Towsley, Pinghui Wang
摘要: 通过抽样在大图中估计与节点相关联的标签分布(例如,社交网络中的用户数量或公民身份)是复杂网络研究的重要组成部分。由于成本低廉,已经提出通过随机游走(RW)的抽样作为这个任务的有吸引力的解决方案。大多数RW方法假设网络是无向的,或者步行者可以横过边缘,而不考虑它们的方向。已经针对定向网络设计了一些RW方法,其中边缘进入节点是不可直接观察到的。在这项工作中,我们提出了Directed Unbiased Frontier Sampling(DUFS),一种基于大量协调步行者的抽样方法,每个起点都是随机选择的一个节点。它适用于具有不可见进入边缘的定向网络,因为它实时构建与步行者轨迹一致的无向图,并且由于使用阻止步行者被捕获的随机跳跃。 DUFS概括了以前的RW方法,适用于无向网络和定向网络,无论边缘可见性如何。我们还提出了一种改进的顶点标签分布估计器,它将来自初始步行者位置的信息与随后的RW观察结合起来。我们评估DUFS,与其他RW方法进行比较,调查其参数对估计精度的影响,并为选择它们提供实用指导。在估计出度分布时,与其他方法相比,DUFS产生的头部显着更好的估计,同时匹配或超过尾部的估计精度。最后,我们显示,当估计前10%最大度数节点的节点标签的分布时,DUFS胜过VS,即使均匀顶点采样与RW步骤的成本相同
交叉依赖关系真的很稀缺吗?
地址: http://arxiv.org/abs/1703.08324
作者: Ramon Ferrer-i-Cancho, Carlos Gomez-Rodriguez, J.L. Esteban
摘要: 句子的句法结构可以被建模为一个树,其中顶点对应于单词和边缘表示句法依赖性。有人声称,实际句子中边缘交叉的数量很少。然而,缺乏基线或零假设。这里我们量化实际句子的交叉量,并将其与一系列基线的预测进行比较。我们得出结论,过境点在真正的句子中真的很少。他们的稀缺是意想不到的树的中枢。事实上,真正的句子接近线性树,其中潜在的交叉数量最大化。
行人疏散动态社会群体实证研究
地址: http://arxiv.org/abs/1703.08340
作者: Cornelia von Krüchten, Andreas Schadschneider
摘要: 行人人群经常包括社会团体,即由于社会关系而一起走的行人。他们显示特征配置并影响整个人群的动态。为了调查社会团体对撤离的影响,我们对学生进行了实证研究。进行了几组具有不同大小和不同相互作用的抽空运行。引入了新的组参数,可以定量地描述组的动态和组成员的配置。分析显示,由于自我排序效应,大群人撤离时间可能减少。社会群体可以近似为沿其运动方向定向的椭圆。此外,群体成员之间的明确合作行为导致团体成员的更强的聚合和间歇的撤离方式。
Pokemon Go玩家中众包的出现
地址: http://arxiv.org/abs/1703.08365
作者: Priscila Martins, Manoel Miranda, Fabrício Benevenuto, Jussara Almeida
摘要: 自从推出以来,Pok {\‘e} mon Go被指出是智能手机时代最大的游戏现象。由于游戏需要用户走在现实世界中,以便查看和捕获Pok {\ e} mons,新一波众包应用已经出现,允许用户相互协作,共享何时何地}发现。在本文中,我们描述了一种称为PokeCrew的举措之一。我们的分析揭示了这种新兴的众包任务中用户行为和系统使用的一系列方面,有助于揭示一些问题和好处。我们希望我们的努力可以启发新的众包系统的设计。

作者:ComplexLY
微信公众号:netsci
欢迎扫描左侧微信公众号二维码进行交流!
本文地址:https://netsci.complexly.cn/post/20170327/