对话腾讯云：大模型愈发火热，向量数据库将进入蓝海时代

本文作者：何思思

2023-07-11 16:06

导语：大模型带火了向量数据库？

向量数据库已经成为除大模型之外的又一热词。

众所周知，数据是构建大模型的三大要素之一，所以从一定程度上来说，向量数据库能突破大模型在时间和空间上的限制，为企业利用数据价值带来更多的帮助。

也有人形象比喻道，大模型是人的“大脑”，向量数据库就像“海马体”一样，能够为大模型提供“长期记忆”。

谈到向量数据库，还要从大模型说起。

目前对于大模型业界有两种声音：一种认为大模型会吞噬着现有的资源，吞噬我们的岗位，这种声音表达了对大模型的担忧和恐惧。另一种则对大模型充满期待，认为大模型会带来新的技术变革，进而提升社会生产力。

其实从现在来看，这两种声音都没有对错。

对此，腾讯云数据库副总经理罗云表示，腾讯云团队一定意义上也关心第一种声音，很可能会成为第一波被替换的程序员。在这种情况下担忧是解决不了问题的，我们经常激励自己要有更大的勇气迎接大模型，迎接这个新时代的到来。

在他看来，大模型相当一个智能处理器，有了它之后，不需要大量的程序员编写程序调用底层GPU，用自然语言就可以和大模型交互，让大模型为我所用，从而释放更大的生产力。技术侧，随着大模型这个智能处理器的普及，算力的使用方式也会发生变化。

大模型之于社会、之于企业、之于个人的意义早已不言而喻，但在其带来红利的同时，也会在一定程度上加剧企业之间的竞争，而竞争的焦点就是数据。

用罗云的话讲，谁能够更好的利用数据，更好的把数据沉淀到自己的工程里，更好的让数据接入到大模型和整个AI体系谁就有可能走在最前列。

罗云把数据竞争核心归结为以下两点：

一是，大模型如何更好的管理企业产生的非结构化数据，目前企业产生的数据80%是非结构化的，我们通常会选择通过预训练的方式把数据沉淀到大模型中，让大模型变得无所不知，但是与之而来的是高昂的成本问题。

二是，如何保障企业数据的私密性，数据在空间和时间上会有很大的限制，一方面企业很难把自己具有核心竞争力的数据放到大模型中去训练，另一方面数据很难做到秒、天级别的更新。这时候我们向量数据库其实就变得非常重要，要去弥补大模型在时间上和空间上的限制。

为了解决以上问题，企业的处理方式是通过向量化的方式把非结构化的数据存储到向量数据库中。以数据更新的时效性为例，假如我们想要了解一周股市的变化，以现在通用大模型或者行业大模型的发展情况来看，是很难快速的更新一周的内容的。

但有了向量数据库后，企业可以先把一周的新闻通过Embedding的方式存到他们自有的向量数据库中，有客户问问题时，它会从向量数据库中检索到与问题相关的新闻，拿到检索结果后做一个提示词的工程化处理，最后传递给大模型完成最后的推理生成答案。

通过观察发现，有了向量数据库，企业有了更好运用数据，特别是覆盖80%的非结构化数据的能力，一定意义上向量数据库更像是企业数据和大模型之间的桥梁。

向量数据库之于大模型的意义已经逐渐显现，但腾讯云也有自己的思考。

罗云表示，数据、向量数据库、大模型三者怎么能更好地服务全行业是首要问题，为此，腾讯云也重新定义了AI Native的开发范式，提供了接入层、计算层、存储层的全面AI化解决方案，使用户在使用向量数据库的全生命周期，都能应用到AI能力。

对话腾讯云：大模型愈发火热，向量数据库将进入蓝海时代

其中，接入层，腾讯云向量数据库支持自然语言文本的输入，同时采用“标量+向量”的查询方式，支持全内存索引；计算层，AI Native开发范式能实现全量数据AI计算，一站解决企业在搭建私域知识库时的文本切分（segment）、向量化（embedding）等难题；存储层，腾讯云向量数据库支持数据智能存储分布，让企业存储成本降低50%。