0
向量数据库已经成为除大模型之外的又一热词。
众所周知,数据是构建大模型的三大要素之一,所以从一定程度上来说,向量数据库能突破大模型在时间和空间上的限制,为企业利用数据价值带来更多的帮助。
也有人形象比喻道,大模型是人的“大脑”,向量数据库就像“海马体”一样,能够为大模型提供“长期记忆”。
谈到向量数据库,还要从大模型说起。
目前对于大模型业界有两种声音:一种认为大模型会吞噬着现有的资源,吞噬我们的岗位,这种声音表达了对大模型的担忧和恐惧。另一种则对大模型充满期待,认为大模型会带来新的技术变革,进而提升社会生产力。
其实从现在来看,这两种声音都没有对错。
对此,腾讯云数据库副总经理罗云表示,腾讯云团队一定意义上也关心第一种声音,很可能会成为第一波被替换的程序员。在这种情况下担忧是解决不了问题的,我们经常激励自己要有更大的勇气迎接大模型,迎接这个新时代的到来。
在他看来,大模型相当一个智能处理器,有了它之后,不需要大量的程序员编写程序调用底层GPU,用自然语言就可以和大模型交互,让大模型为我所用,从而释放更大的生产力。技术侧,随着大模型这个智能处理器的普及,算力的使用方式也会发生变化。
大模型之于社会、之于企业、之于个人的意义早已不言而喻,但在其带来红利的同时,也会在一定程度上加剧企业之间的竞争,而竞争的焦点就是数据。
用罗云的话讲,谁能够更好的利用数据,更好的把数据沉淀到自己的工程里,更好的让数据接入到大模型和整个AI体系谁就有可能走在最前列。
罗云把数据竞争核心归结为以下两点:
一是,大模型如何更好的管理企业产生的非结构化数据,目前企业产生的数据80%是非结构化的,我们通常会选择通过预训练的方式把数据沉淀到大模型中,让大模型变得无所不知,但是与之而来的是高昂的成本问题。
二是,如何保障企业数据的私密性,数据在空间和时间上会有很大的限制,一方面企业很难把自己具有核心竞争力的数据放到大模型中去训练,另一方面数据很难做到秒、天级别的更新。这时候我们向量数据库其实就变得非常重要,要去弥补大模型在时间上和空间上的限制。
为了解决以上问题,企业的处理方式是通过向量化的方式把非结构化的数据存储到向量数据库中。以数据更新的时效性为例,假如我们想要了解一周股市的变化,以现在通用大模型或者行业大模型的发展情况来看,是很难快速的更新一周的内容的。
但有了向量数据库后,企业可以先把一周的新闻通过Embedding的方式存到他们自有的向量数据库中,有客户问问题时,它会从向量数据库中检索到与问题相关的新闻,拿到检索结果后做一个提示词的工程化处理,最后传递给大模型完成最后的推理生成答案。
通过观察发现,有了向量数据库,企业有了更好运用数据,特别是覆盖80%的非结构化数据的能力,一定意义上向量数据库更像是企业数据和大模型之间的桥梁。
向量数据库之于大模型的意义已经逐渐显现,但腾讯云也有自己的思考。
罗云表示,数据、向量数据库、大模型三者怎么能更好地服务全行业是首要问题,为此,腾讯云也重新定义了AI Native的开发范式,提供了接入层、计算层、存储层的全面AI化解决方案,使用户在使用向量数据库的全生命周期,都能应用到AI能力。
其中,接入层,腾讯云向量数据库支持自然语言文本的输入,同时采用“标量+向量”的查询方式,支持全内存索引;计算层,AI Native开发范式能实现全量数据AI计算,一站解决企业在搭建私域知识库时的文本切分(segment)、向量化(embedding)等难题;存储层,腾讯云向量数据库支持数据智能存储分布,让企业存储成本降低50%。
“只有向量数据库变得更AI化,数据、向量数据库、大模型三者才能形成一个飞轮效应,彼此之间相互拉动,相互促进,这是我们对向量数据库未来发展的判断。”
雷峰网(公众号:雷峰网)了解到,目前腾讯云向量数据库已经在 QQ 浏览器、腾讯视频、腾讯游戏、QQ 音乐、搜狗输入法等 30 + 业务场景中应用,并自研了分布式向量数据库核心引擎 Olama,原名 ElasticFaiss。
并且罗云还透露道,腾讯云向量数据库会作为一个独立的产品在腾讯云官网进行售卖,当然也有和其他产品一起售卖的可能,二者并不冲突。
谈到Olama,其实早在2019年腾讯云就开始了该技术的探索至今已经有4年时间里。但现在腾讯云给 Olama的定位是腾讯云向量数据库的底座之一,向量数据库在Olama的基础之上还有很多丰富的能力。
通过四年时间的发展,腾讯云对Olama也做了大量的改进,其一,向量索引的算法方面,把现在业界优秀的向量算法集成进来,包括腾讯内部自研的先进的向量数据算法也会集成进来;其二,降低Olama的成本,提升稳定性;其三更加自动化智能化的对外提供服务。
对于是否会针对不同行业提供差异化服务?
罗云给出了否定的回复。他表示,腾讯云的向量数据库是一个标准的平台型产品,这是非常确定的。
对于是否能服务全行业,罗云则认为,二者没有很强的因果关系,核心还要看哪些行业和AI的结合,更早、更快。
同时,他也给出了三个有代表性的方向:
第一是做模型训练的企业,他们需要向量数据库加速模型训练、数据清洗、数据去重、数据积累等工作的;
第二是内容类企业,这类企业可以通过将内容和AI更好的结合,从而给用户提供更好的服务体验;
第三是教培机构,通过AI的加持可以更好的和客户交互,从而带来交互形式上的变化。
随着大模型火热程度的持续攀升,向量数据库的号角呀即将吹响,正如罗云所言,如果你看好大模型,那你一定会看好向量数据库。
(雷峰网雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。