格式机器可读、Kaggle 上免费使用，arXiv 发布集成170万篇论文数据库

本文作者：陈彩娴

2020-09-01 16:51

导语：170万篇arXiv论文集成为一个格式机器可读的数据库，并将该数据库托管到了Kaggle上供用户免费使用。数据库包括论文标题、作者、类别、摘要、全文pdf

茫茫沧海寻一粟——想必这是许多学者在使用arXiv网站搜索论文时的痛苦心声。

不过现在arXiv给大家带来了一个好消息：他们将 170万篇arXiv论文集成为一个格式机器可读的数据库，并将该数据库托管到了Kaggle上供用户免费使用。数据库包括论文标题、作者、类别、摘要、全文pdf等论文相关信息。

格式机器可读、Kaggle 上免费使用，arXiv 发布集成170万篇论文数据库

arXiv 论文数据库Kaggle地址：https://www.kaggle.com/Cornell-University/arxiv

arXiv：从一个论文存储库转变为一个知识共享平台

近30年来，arXiv网站为公众和研究人员提供了获取学术论文的可靠途径。论文类型多样，从物理学到计算机科学、再到介于两者之间的各类学术内容，涵盖数学、统计学、电气工程、定量生物学和经济学等热门学科。无论是钻研单一领域的学生、寻求跨学科研究的教授还是服务公共事业的社会研究者，都能在arXiv上搜集到有利的信息。

然而，arXiv网站所收录的论文数量十分庞大，为用户的阅读带来明显的压力。另一方面，arXiv 本身也由于过分依赖 LaTex 而出现一系列缺陷，包括：1）使用 LaTeX 进行排版的方式局限于单个社区，其界面、语言、使用方式对不会编程或者只用过 WYSIWYG 编辑器的人来说比较陌生；2）网站上的论文一直以pdf格式交换、阅读，但大多数pdf文档不支持在线编辑，以致许多论文无论在网页上阅读、讨论与共享；3）论文所承载的信息可发现率低；4）arXiv的论文与数据独立存在，论文数据无法共享。雷锋网

其中第三点缺陷所造成的不利影响，正如arXiv 科技总监Steinn Sigurdsson所指出的，由于数据集的庞大，读者很可能会忽略一些重要的发现、关联知识、创新工具或视角。这些被忽略的信息也许能帮助研究人员产生一些关于原有研究主题与跨学科领域的新的见解，有更多新发现与创造力。雷锋网

而 Kaggle 作为数据科学家和机器学习工程师搜集数据集、阅读公开笔记和进行竞赛的平台，可以让研究人员利用该平台上丰富的数据探索工具，轻松地与他人共享相关论文文本和输出。雷锋网

arXiv的执行董事 Presani 指出，将arXiv 论文数据库托管到Kaggle上供用户自由访问，将放大这些论文本身的价值，因为这不仅仅给读者提供了一个通过阅读论文学习的平台，更是让论文本身承载的数据和信息以机器可读的方式在研究者之间共享、传播和交流。

他进一步表示，arXiv 要想从一个论文存储库转变为一个知识共享平台，就要求他们不断创新展示知识与解释知识的方式。而Kaggle的用户可以帮助突破创新的局限性，为科研界相互协作提出一种新途径。

arXiv 发布 Kaggle 论文数据库的初衷

arXiv 方面表示，此举的初衷是希望能推动新用例的产生，帮助研究人员探索更多结合面向应用的多模态特征的机器学习技术，包括趋势分析法、论文推荐引擎、类别预测、同被引网络、知识图谱构建和语义搜索接口等。

Google 的COVID-19 Research Explorer就是这样一个基于特定语料库进行语义搜索的用例。这个工具可帮助研究人员精读拥有190,000+篇关于COVID-19的研究论文的资料库——COVID-19数据集。基于此类数据集的接口使用了先进的自然语言理解（NLU）技术来了解用户查询的目的。这个数据集能为复杂的科学问题提供更多相关数据和证据，大大提高了研究效率。

而他们发布这个机器可读的arXiv数据集，就是希望其能推动该领域的研究者开发出能够处理此类新的语料库的相似的自然语言理解工具。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

陈彩娴

编辑

发私信

当月热门文章