您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能开发者 正文
发私信给汪思颖
发送

1

收集数据太困难?这里为你准备了 71 个免费数据集

本文作者: 汪思颖 编辑:郭奕欣 2018-01-17 14:29
导语:文末附有提取工具哟

雷锋网 AI 研习社按,日前,KDnuggets 上的一篇文章总结了七十多个免费的数据集,内容涉及到政府、金融、卫生、新闻传媒等各个方面,除了这些数据,文中还提供数据提取地址。雷锋网 AI 研习社将文章编译整理如下。

进行良好的数据可视化的前提是数据的质量较高并且比较干净。大多数人认为收集大量数据是一件很困难的事情,事实并非如此。网上有成千上万的免费数据集,我们可以利用这些数据进行分析和可视化。

下面是 70 多个免费的数据集,涉及到政府、犯罪、卫生、金融和经济数据、市场和社交媒体、新闻传媒、房地产、公司名录和评价等各个方面。

有了这些数据,希望能节省大家的时间和精力,避免在网上进行盲目的搜索。

政府方面

1、Data.gov(https://data.gov/):美国政府提供的数据集门户网站,大家可以通过这个网站直达从气候到犯罪等各种奇妙的数据集。

2、Data.gov.uk(https://data.gov.uk/):来自英国所有中央机关和部分公共部门及地方政府的数据集。这个门户网站涉及商业和经济、犯罪与正义、国防、教育、环境、政府、卫生、社会和交通等方面各种类别的信息。

3、US. Census Bureau(https://www.census.gov/data.html):美国政府针对国民生活的统计数据,包括人口、经济、教育、地理信息等。

4、The CIA World Factbook(https://www.cia.gov/library/publications/the-world-factbook/):各国状况。重点关注历史、政府、人口、经济、能源、地理、通信、交通、军事和跨国问题(267 个国家)。

5、Socrata(https://socrata.com/):Socrata 是一家任务驱动型软件公司。在该网站上,可以用内置的可视化工具来搜索政府数据。该公司提供数据服务,目前已经有超过 1200 家政府机构与其达成合作。

6、European Union Open Data Portal(https://open-data.europa.eu/en/data/):欧盟各个机构的数据正在不断增长中,该网站是获取这些数据的唯一途径。里面的数据包括地理、地缘政治和金融数据、统计数据、选举结果、法律行为,还有与犯罪、卫生、环境、交通和科学研究相关的数据。

大家可以在不同的数据库和报告中重利用这些数据。此外,欧盟的各个机构和组织也提供了多种数字格式。该网站提供标准化的目录、一些重利用数据的 app 和 web 工具、SPARQL 后端查询编辑器和 rest API 接入,此外也有使用该站点的相关技巧。

7、Canada Open Data(https://www.data.gc.ca/):这是一个试点项目,包含许多政府和地理空间数据集。利用这一数据集,可以探索加拿大政府在推动创新、创造更多经济机会方面是如何做的。比如如何创造出高度透明的社会,怎么去增加公民的参与积极性和责任心。

8、Datacatalogs.org(https://opengovernmentdata.org/):提供美国、欧盟、加拿大、CKAN 数据平台等各个地方的开放政府数据。

9、U.S. National Center for Education Statistics(https://nces.ed.gov/):美国国家教育统计中心(NCES),负责收集和分析美国与教育相关的数据。

10、UK Data Service(https://www.ukdataservice.ac.uk/):包括英国政府发起的调查、跨国调查、纵向研究、英国人口普查数据、国际贸易额、商业数据和定性数据。

犯罪数据

11、Uniform Crime Reporting(https://ucr.fbi.gov/):执法人员、学生、研究人员、媒体和公众一般都会在这里寻找美国的相关犯罪信息。

12、FBI Crime Statistics(https://www.fbi.gov/stats-services/crimestats):一些关于犯罪的统计报告和出版物,详细描述了犯罪行为,并从地区和国家级层面概述了人们面临犯罪威胁的趋势。

13、Bureau of Justice Statistics(https://www.bjs.gov/index.cfm?ty=dca):这里有关于美国司法系统的一切信息,包括逮捕引起的死亡、监狱人口普查、DNA 犯罪实验室的全国调查、执法部门的调查等等。

14、National Sex Offender Search(https://www.nsopw.gov/en):这是一份前所未有的公共安全资源,在这里可以看到美国的性犯罪数据。这里也有司法局提供的最新信息。

卫生数据

15、U.S. Food & Drug Administration(https://www.fda.gov/Drugs/InformationOnDrugs/ucm079750.htm):这里提供美国食品药品监督管理局(FDA)数据库的压缩数据文件,FDA 每天都会更新他们的数据集,这个压缩数据文件会在每周二更新。

16、UNICEF(https://www.unicef.org/statistics/):UNICEF(联合国儿童基金会)会收集世界各地儿童和妇女的相关数据。这些数据中包括来自于家庭调查等可靠信源的具有代表性的数据。

17、World Health Organisation(https://www.who.int/en/):150 多个国家的营养、疾病和卫生统计数据。

18、Healthdata.gov(https://www.healthdata.gov/):涵盖美国 125 年来的卫生保健数据,包括医疗保险数据、传染病和人口统计数据。

19、NHS Health and Social Care Information Centre(https://www.hscic.gov.uk/home):英国国家卫生服务部门(NHS)提供的卫生数据。NHS 编制了 260 多份正式的国家统计出版物。这里有长期以来的医院统计数据,这些数据可以帮助当地决策者提高前线医疗质量和效率。

金融和经济数据:

20、World Bank Open Data(https://data.worldbank.org/):涵盖世界各地的金融、服务指标等数据。

21、IMF Economic Data(https://www.imf.org/en/Data):这是一个非常有用的信息源,包括全球金融稳定报告、地区经济报告、国际金融统计数据、汇率、贸易方向等。

22、UN Comtrade Database(https://comtrade.un.org/):用户可以以可视化的形式免费访问详细的全球贸易数据。它是国际贸易组织统计数据和相关分析表的官方资源库。大家可以通过 API 访问上面的所有数据。

23、Global Financial Data(https://www.globalfinancialdata.com/):涵盖超过 6 万家公司的数据,时间跨度为 300 年左右,为分析全球经济的变化提供了独特的来源。

24、Google Finance(https://finance.google.com/finance):包括实时股票报价和图表、财经新闻、外汇汇率、投资组合等。

25、Google Public Data Explorer(https://www.google.com/publicdata/directory):提供来自世界银行、OECD、欧盟统计局和丹佛大学等一系列国际组织和学术机构的公开数据和预测。这些数据可以以曲线图、条形图、横截面图的形式显示,也可以在地图上显示。

26、U.S. Bureau of Economic Analysis(https://www.bea.gov/index.htm):美国官方宏观经济和工业统计数据,包括美国各地 GPU 相关报告。此外还包括在国民收入和生产账户(NIPA)上的个人收入、公司利润和政府支出信息。

27、Financial Data Finder at OSU(https://guides.osu.edu/c.php?g=280921&p=2281286):这里提供一切与金融相关的数据的链接,包括在线世界发展指标(World Development Indicators Online)、世界银行公开数据(World Bank Open Data)、全球金融数据(Global Financial Data)、国际货币基金组织统计数据(International Monetary Fund Statistical Databases)和 EMIS 情报。

28、National Bureau of Economic Research(https://www.nber.org/):宏观数据、行业数据、生产率数据、贸易数据、国际金融数据等。

29、U.S. Securities and Exchange Commission(https://www.sec.gov/):该数据集以季度为单位,涵盖从外部数据到公司财务报告中提取出来的信息。

30、Visualizing Economics(http://visualizingeconomics.com/):与经济相关的可视化数据。

31、Financial Times(https://markets.ft.com/data/):为全球商界提供广泛的信息、新闻和服务。

市场和社交媒体

32、Amazon API(https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html):可以按分类浏览 AWS 上的公共数据集,获取大量信息。

33、American Society of Travel Agents(https://www.asta.org/):ASTA 是世界上最大的旅游协会。该网站提供旅游代理信息,还提供旅游、邮轮、酒店、租车等产品信息。

34、Social Mention(https://socialmention.com/): Social Mention 是一个社交媒体搜索和分析平台,它将来自世界各地的用户产生的内容聚合成单一信息流。

35、Google Trends(https://trends.google.com/trends/):展示了在世界上不同地区,特定的搜索词出现的频率。

36、Facebook API(https://developers.facebook.com/?locale=en_US):大家可以学习如何利用 Graph API 发布和检索数据。

37、Twitter API(https://developer.twitter.com/en/docs):利用 Twitter 平台,大家可以在 Twitter 上接入网站或应用程序。

38、Instagram API(https://www.instagram.com/developer/):大家可以利用 Instagram API 平台构建非自动化的、真实的、高质量的应用和服务。

39、Foursquare API(https://developer.foursquare.com/):支持访问 Foursquare 数据库,能与 Foursquare 上的用户和商家进行互动。

40、HubSpot(https://www.hubspot.com/marketing-statistics):大型市场数据库。你可以在这里找到最新的市场统计数据和趋势。这里也为社交媒体营销、内容管理、网页分析、登陆页面和搜索引擎优化提供相关工具。

41、Moz(https://moz.com/):关于 SEO 的相关见解,包括关键词研究、链接建设、网站审计和页面优化,可以帮助公司直接地分析他们在搜索引擎上的位置,改进排名。

42、Content Marketing Institute(https://contentmarketinginstitute.com/):关于内容营销的最新新闻、专著和研究。

新闻传媒

43、The New York Times Developer Network(https://developer.nytimes.com/):可以搜索到从 1851 年到现在的文章,支持检索标题、摘要,可以链接到相关的多媒体资源。此外,还能搜索书评、纽约事件列表、电影评论、热门图片故事等等。

44、Associated Press API(https://developer.ap.org/ap-content-api):无需访问美联社站点,该 API 支持大家用自己的编辑工具搜索和下载内容。大家可以下载美联社、网站成员和来自第三方的图片,还可以下载美联社和选定的第三方制作的视频。

45、Google Books Ngram Viewer(https://books.google.com/ngrams):在线搜索引擎,提供谷歌文本语料库在 1500-2008 年间的 n-gram 数据。可以以图例的形式显示查询词在这些年间出现频率的变化情况。

46、Wikipedia Database(https://en.wikipedia.org/wiki/Main_Page):向用户免费提供平台上的所有数据。

47、FiveThirtyEight(https://fivethirtyeight.com/):它是一个关注民意调查分析、政治、经济和体育的网站。Github 上的数据和代码基于 FiveThirtyEight 上的故事和内容。

48、Google Scholar(https://scholar.google.com/):Google 推出的面向学术资源的免费搜索引擎,能够帮助用户查找包括期刊论文、学位论文、书籍、预印本、文摘和技术报告在内的学术文献,内容涵盖自然科学、人文科学、社会科学等多种学科。

房地产

49、Castles(https://www.castles-estateagents.co.uk/):一家运营良好的私营独立机构,成立于 1981 年,提供包括住宅销售、出租、管理、调查和估价在内的综合服务。

50、Realestate.com(https://www.realestate.com/):RealEstate.com 是首次购房者的不二之选,会在购房的每个阶段为大家提供易于理解的工具和专业建议。

51、Gumtree(https://www.gumtree.com.au/):Gumtree 是英国首家免费分类公告网站。在这个网站上可以购买和出售小物品、汽车、房产等,也可以在这个网站上找工作或进行招聘。

52、James Hayward(https://www.james-hayward.com/):针对住宅销售、出租和管理,提供了一种创新的数据库方法。

53、Lifull Home’s(https://www.homes.co.jp/):日本房地产网站。

54、Immobiliare.it(https://www.immobiliare.it/):意大利房地产网站。

55、Subito(https://www.subito.it/):意大利房地产网站。

56、Immoweb(https://www.immoweb.be/en/): 比利时最大的房地产网站。

公司名录和评价

57、LinkedIn(https://www.linkedin.com/):LinkedIn 是一家以公司和就业为导向的社交网络服务商,可以通过网站和移动端访问。它在 200 多个国家拥有 5 亿会员,你可以在这里搜索各种公司。

58、OpenCorporates(https://opencorporates.com/):OpenCorporates 是世界上最大的关于公司和公司内部数据的公开数据库,它有超过 1 亿家公司的数据管辖权。其主要目的是让这些公司的信息更加有用,造福于大众,打击违法行为(例如腐败、洗钱和有组织犯罪)。

59、Yellowpages(https://www.yellowpages.com/):它最初是为了更方便地联系到当地水管工人、杂物工人、技工、律师、牙医等而建立的。

60、Craigslist(https://www.craigslist.org/about/sites):Craigslist 是一个分类公告网站,其中有工作、住房、物品销售、求购、服务、社区、演出、论坛等不同模块。

61、GAF Master Elite Contractor(https://www.gaf.com/Roofing/Contractors):1886 年成立,现在已经成为北美最大的商业和住宅屋顶制造商 (该数据源于 Fredonia Group 研究报告)。该公司的销售额现在已经增加到近 30 亿美元。

62、CertainTeed(https://www.certainteed.com/find-a-pro):如果你想要自建房子或手头有商业建筑项目,可以在这里找到美国或加拿大的承包商、改造者、安装者或建筑商。

63、Companies in California(http://t.cn/RQxS26m):加州各类公司的相关信息。

64、Manta(https://www.manta.com/):Manta 是最大的在线资源商之一,提供产品、服务和教育机会。每个月都有数百万人访问 Manta 名录,搜索资源库中的个体企业、行业信息和基于地理因素的特定名单。

65、EU-Startups(https://www.eu-startups.com/directory/):欧盟国家的初创公司名录。

66、Kansas Bar Association(http://t.cn/RQxSzYc):律师名录。KBA 成立于 1882 年,是法律从业者自发组织的志愿者协会,目前拥有超过 7000 名会员,包括律师、法官、法律专业学生和律师助理。

其他门户网站

67、Capterra(https://www.capterra.com/):商业软件和评论名录。

68、Monster(https://www.monster.com/):招聘网站。

69、Glassdoor(https://www.glassdoor.com/index.htm):工作名录,涵盖员工对公司的评论,工资等信息。

70、The Good Garage Scheme(https://www.goodgaragescheme.com/):汽车服务、汽车修理名录。

71、OSMOZ(https://www.osmoz.com/):关于香味的信息。

72、Octoparse(https://www.octoparse.com/):免费的数据提取工具,可以收集上面提到的所有网站的数据。

另外,大家要是知道有什么好用的免费数据资源也可以后台留言,期待大家的分享。

via:KDnuggets

雷锋网 AI 研习社编译整理。

雷峰网版权文章,未经授权禁止转载。详情见转载须知

收集数据太困难?这里为你准备了 71 个免费数据集

分享:
相关文章

编辑

关注AI学术,例如论文
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说