您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
AI+ 正文
发私信给刘伟
发送

0

获国际医药巨头青睐,火石创造准备如何用AI和大数据赋能大健康产业?

本文作者: 刘伟 2017-11-22 10:14
导语:“用大数据和人工智能服务企业,这片市场相对更加蓝海,门槛和壁垒更高”。

获国际医药巨头青睐,火石创造准备如何用AI和大数据赋能大健康产业?

“用大数据和人工智能服务企业,这片市场相对更加蓝海,门槛和壁垒更高”。火石创造创始人兼CEO杨红飞如是说道。

获国际医药巨头青睐

火石创造将自己定位成“智能医健大数据服务平台”,要用人工智能和大数据赋能企业的研发、营销、销售和战略制定。杨红飞认为,要做好这件事情,必须先组建一支复合型的技术团队。

火石创造的技术团队主要由三类人员构成:一、负责研发和IT架构的技术人员;二、算法专家;三、拥有深厚医学背景和产业经验的技术人才。

杨红飞对雷锋网表示,和服务于疾病的医疗AI企业不同,火石创造的医学人才不仅具备医学专业知识,还对企业经营有着深刻的理解。他说道:“我们的创始团队都是做产业出身的,过去自己做过企业经营,有比较深入的体会。”

正因如此,国际医药巨头默沙东在先后接触了IBM、微软等多家企业后,最终选择和火石创造达成战略合作,共同开发医学指南机器辅助阅读系统。

“客户洞察”是默沙东医学部的重要日常工作之一。默沙东希望利用人工智能技术对已出版的历年英文医学指南与文献进行机器阅读,并深度挖掘出未被满足的临床需求、亟待完善的数据需求、竞品医学信息、最新临床经验、近期被关注的话题等等。从而更好的了解客户需求,为客户提供更为精准的医学服务并造福于病患。

几经筛选之后,既懂医疗行业,又对数据和算法有深入了解的火石创造成了最佳选项,二者一拍即合。

什么是医学指南机器辅助阅读系统?

“医学指南机器辅助阅读系统能够帮助用户快速阅读所需的指南信息,了解特定疾病治疗领域的发展趋势。”火石创造创新产品总监周俊博士表示,这套系统将导入当前已发布并可收集到的医学指南文本,同时加载近10年发布的疾病相关文献与经过编辑的疾病医学知识库,辅助用户挖掘价值信息,具体包括诊断标准、治疗流程、药物使用情况、治疗疗程、高频文献等。通过用户的使用与反馈信息,系统运用自学习机制,不断提高系统的信息挖掘和有效信息推荐的能力。

该医学指南机器辅助阅读系统的具体功能包括:

推荐医学文献中近期出现的高频、热点词汇,并输出参考文献列表。系统将引导用户输入关注的内容,并快速定位相关段落,根据内容重要性和出现频率进行推荐。当用户聚焦于某一推荐段落阅读时,系统将高亮段落中的重点医学词汇,提示用户关注。此外,系统还可以智能化输出标准化的指标比对情况,以及提供用户自定义对比。最终,在可视化交互界面中出现直观的对比结果。

对已有医学指南的质量进行评估:用户在系统中提交医学指南后,需要选择指南的年份、疾病种类和打分敏感度,随后打分辅助系统会依据火石创造所设计的,基于打分规则模型,给出23个评分点的分值。

杨红飞表示,这套系统的推出得益于默沙东和火石创造的亲密协作。默沙东的医学科研人员主要负责帮助火石创造建立对产品的理解和认知,比如人是如何阅读医学指南的,他的阅读逻辑是什么,他们需要在医学指南中提取哪些关键信息,如何将这些信息互相比对;以及如何找到信息变更的依据等。火石创造则负责具体的技术实现。

用到了哪些技术?

据火石创造创新产品总监周俊博士介绍,医学指南机器辅助阅读系统的核心技术主要包括:

1.疾病知识库的建立;

2.词语特性的抽取 ;

3.语义理解;

4.系统的自学习功能(智能化识别)

周俊博士表示,实体识别与关系抽取是疾病知识库构建的一大技术难点。目前,流行的实体识别方法主要有基于规则(Pattern-based)的方法、基于深度学习的LSTM + CRF,以及BPS方法。

基于规则的方法要对识别的实体类型设计人工规则,通过多次迭代验证来修改这些规则,逐渐提升识别的准确率,也可利用标注好的训练样本来自动筛选这些规则。基于深度学习的方法可以把实体识别和关系抽取放到一起,作为一个端到端的系统,用一套网络同时识别出实体和关系,或用LSTM网络提取特征,作为CRF的输入,即在输出端用CRF对结果校正。用端到端的神经网络方法可以省去规则方法的大量的特征工程,简化开发过程,但是要求有大量的标注样本才能够达到好的效果。

为此,火石创造计划用一些半监督训练的方法(如GAN),和对样本需求量更少、效果更好的NTM网络对LSTM网络进行修改,并利用迁移学习的方法,先在其他场景下的大量样本下进行训练,再把结果迁移到当前的数据集。

另外,目前业内的全文检索方式都是通过关键词匹配的方式去检索的,但是意义相似关键词不同的内容可能无法检索出。火石人工智能数据挖掘平台利用word2vec和fasttext,训练了一个医疗健康语义模型。现在已经可以完成一些简单的语义级别的搜索,比方搜索机器学习,人工智能的相关内容会被检索出,机器能自动计算出他们的相关性。

周俊博士向雷锋网介绍,火石创造的医学指南机器辅助阅读系统目前已经从Pubmed、Web Of Science、Springer、Wiley Interscience、 Science Direct等文献数据库中,采集了200多万条相关医学文献;同时还通过医学词汇字典和文献中的自学习获取了几十万条相关词条。周俊博士坦言,这套系统目前还不够完善,未来火石创造会继续给机器输入,或者让它在文献中自动挖掘更多的词汇。

借助这套系统,医生和医药企业的医学指南阅读人员,包括医药新药研发人员、医药推广/销售人员,可以更加方便快捷地抓取自己想要的信息。

与默沙东达成战略合作是对火石创造的一次充分认可,但火石创造对未来还有着更多的憧憬。

用AI赋能企业和政府

为了解决医健行业中的数据之困,火石创造利用人工智能与大数据技术构建全球医健产业创新创业地图 HSMAP为企业和政府赋能。通过自主研发的Spider智能数据源构建系统和Darwin数据智能处理引擎,覆盖全球635个官方数据源,10万个数据采集点的数据合作和交换机制,以及基于全球主要搜索引擎的数据获取框架和机制。

据雷锋网了解,目前 火石创新创业地图HSMAP 已有 229万+创业公司、6万+研究机构、5万+投资机构、1400万+专利、230万+产品、1000万+位创业者、22万+临床试验及 2000万+文献数据。

火石创造CEO杨红飞表示,未来火石创造将通过核心产品产业大脑系统,与各区域政府建立合作,一方面在业务上成为政府大健康产业发展所依赖的战略合作伙伴,实现第一阶段的营收;另一方面从战略上形成区域大健康产业数据的分级采集网络,使得系统运行产生源源不短的数据流,不断完善产业数据。

同时通过企业大数据情报系统产品,以及后续企业AI中心产品和服务,向大健康企业输入大数据和人工智能技术,建立企业对火石的技术和数据依赖。

 通过各项业务的开展,最终形成生命健康产业的协同网络和数据平台。平台可以精准的实现产业的多边组合和协作,发挥信息发布、链接、资源整合、以及中间信用服务等功能。

 杨红飞表示,从信息到数据,从数据到资源,从资源到交易,是火石平台化发展的路径。在完善数据服务之后,火石将进一步链接、整合各方资源,形成基于数据的精准匹配。而要做到这些,不仅是要有先进的技术能力、完整且实时在线的数据库,还需要有较强的运营能力。火石将不断加大技术研发投入,锻造核心竞争力。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说