亿鸽在线客服系统
物联网开发

资本都在疯投的向量数据库到底是啥?能做啥?

    腾讯云的向量数据库是一种针对处理高维向量数据而设计的云数据库服务。它基于腾讯云自主研发的分布式存储和计算技术,在处理大规模向量数据时提供高效的存储、索引和查询能力。


    向量数据库在人工智能、图像识别、推荐系统等领域具有广泛应用。它能够高效存储和处理海量的高维向量数据,如图像特征、文本嵌入等。同时,向量数据库还支持基于向量相似性的快速查询和检索,可以方便地进行相似向量搜索、推荐算法等操作。


向量数据库


    腾讯云的向量数据库提供了可扩展的存储、高效的索引机制和快速的查询性能,能够满足用户对大规模高维向量数据管理和处理的需求。它为开发者提供了简单易用的API接口和工具,以便更方便地集成和应用于各种应用场景。


    向量数据库在大模型时代中展现出了巨大的商业机会。向量数据库市场空间巨大,目前处于从0-1阶段。预测到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超过600亿人民币。


    1、向量数据库怎么就火了


    近期,许多具备大模型技术栈研发实力的企业,都会不约而同地提及“应用语言向量检索技术用于模型训练”。


    在技术界,向量检索并不是一个新名词。但它的发展与人工智能浪潮的推动高度绑定。


    向量,顾名思义Embedding,最开始的用于文本表达的词向量,到后来可用于表达图片、视频、语音等非结构化数据转化的深层语义,通过数据向量化可被计算机识别、使用,且在转化的过程中不丢失信息。一开始,向量技术也基本使用于互联网大公司的业务场景中。


    例如,微软Bing搜索引擎,在2000年就曾宣布使用向量实现搜索引擎的增强,可处理2000多亿张网页的向量数据。在那个时代,这个数据已经非常庞大了,但在更多的工业界或实验室里,向量数据仍处于小规模验证的阶段。


    真正的改变则来自于2017年前后,伴随深度学习在工业界的广泛落地,实际应用场景下的数据量级开始直线增加。这一年,FAIR研究人员开源了(FAISS,Facebook AI Similarity Search)AI向量相似性检索库,在十亿级数据集上创建了邻近搜索、且运行于GPU的k-selection算法。2020年7月,谷歌研究院开源了向量相似性搜索库ScaNN,提出新的数据集向量压缩技术,以提高向量检索的准确性。


    实际上,在此期间,国内的互联网公司也没闲着,据说阿里巴巴自研了Proxima,对于更多的企业,包括创业厂商在内,也会使用向量相似性检索技术的相关开源组件如Faiss、Nmslib和Annoy等ANN库,京东零售基于Faiss的Vearch也已经在各自规模化业务场景中投入使用。


    创业公司Zilliz从2018年开始布局做向量数据库,2019年开源了Milvus,单独作为一个品类进行研发创新。其做法比较明确:开源Milvus向量数据库,持续运营积累大量社区开发者使用;在商业化方面,推出云端全托管数据库服务Zilliz Cloud,并与Milvus形成插件化集成,与国产大模型进行对接。


    不过,不同于2017年前后在行业风口和资本热钱影响下成立的一批AI公司,一开始就瞄准向量数据库创业赛道的企业其实寥寥无几。即便Zilliz也并非是从创业之初锚定向量数据库——Zilliz创始人星爵在去年9月与钛媒体交流时曾解释:“AI时代,数据处理的类型和计算体系架构都发生了较大变化,但当时团队对最终产品形态是什么,并不是很清晰。不断交流的过程中,我们意识到企业对海量非结构化数据管理的需求。”


    总结起来,在向量数据库的发展过程中,技术进展和创新起到了重要的推动作用。


    首先在数据层面,向量作为一个新型数据处理单元,其数据量达到了一定规模,需要一个专用的管理系统,对管理的复杂度如分布式、高可用性、数据的一致性和备份等要求也越来越高。


    其次,数据库系统的研究者和工程师们不断改进和优化向量数据库的存储引擎、索引结构和查询算法,提高了向量数据的存储效率和查询性能。


    此外,随着硬件技术的发展,如GPU、FPGA、ARM架构芯片的应用,也为向量数据库的性能提升带来了新的机会。


    这三点因素共同促使了向量数据库系统的诞生——想要高效处理这些海量的向量数据,就需要更细分、更专业的数据基础设施,为向量构建专门的数据库处理系统。


    2、向量数据库在当下的应用价值


    从上面我们可以看到,向量数据库的价值其实是伴随着整个大模型的发展而发展的,只要大模型在不断发展,那么向量数据库也会不断发展,因为它们就像 CPU 和存储一样。


    而向量数据库在当下的应用,第一个就是让大模型可以利用企业或者个人的私域数据,实现信息数据的连接;或者反过来说,让那些拥有大量数据和应用场景的企业利用大模型的能力帮它解决问题,同时还能保持自己对于数据的掌控力。


    我们都知道大模型是基于公开数据进行预训练的,它的训练周期也比较长,无法获取当下的实时信息以及企业内部的私域数据,因此需要通过向量数据库这个存储来实现模型与这些数据的连接,此时只需把你的私域数据通过向量数据库进行索引即可。


    而为了保护企业的私有数据产权,大模型不能将你的私有数据占为己有,它只能在那一刻使用,用它的模型能力把你的数据处理完并把结果返回给你,它不能存储,也不能将这些数据拿来训练优化其母模型,使用完即删除。


    在美国,这一点是在法律上得到保证的,因此大家可以无所畏惧的跟 ChatGPT 等大模型进行合作,而不用担心自己的私域数据被这些大模型占为己有(需要说明的是,并非这些大模型没有这个能力,而是法律不允许。这也解答了我对于大模型的一些疑惑,之前以为像 ChatGPT 这样的通用大模型会吃掉所有能吃掉的服务,因为它能不断吸收企业的私域数据,现在看来这点无需担忧了,或许也正是这种明确的保护机制,促进了 ChatGPT 的诞生)。


    同理,其第二个应用就是大模型对于(人类)新知识的利用,人类每天都在产生新的知识新的数据,大模型本身无论如何都无法实时将这些信息纳入其模型的训练,一方面在于其训练周期,另一方面每时每刻产生的这些新知识是一个庞大的数据量,这在成本上也不可行。


    如何让大模型的能力应用于新知识?和私域数据一样,需要通过向量数据库这个存储实现信息的连接与索引。无论是私域数据还是新知识的利用,向量数据库在这里起到的本质作用都是解决记忆存储的问题。


    而第三个应用价值,则和当下最热门的 AutoGPT 或者 BabyAGI 这样的 Agent 智能体有关,它们和前面的私域数据以及新知识不同,它面向的是 AI 自己生成的知识,而不是人类创造的知识。这些智能体会把自己创造的知识保存下来,进而进行不断的迭代演化,这会导致数据以指数级增长,这些智能体必需要求助于向量数据库,因为这么大体量的数据是无法通过模型本身来存储的。


    目前大家对于类似 AutoGPT 和 BabyAGI 这样的智能体的认知还处于玩具阶段,但是它们很可能是 ChatGPT 后新的 Killer APP,前面的智能体只是对人类已有知识(包括私域数据和人类新知识)的记载,但 BabyAGI 这样的智能体可能逐渐会与人类的知识变得毫无关联。


    如果说这些智能体的部署和生产的成本越来越低的话,他们甚至可能会产生人类的数据,这也就是很多人认为我们人类已经到了造物主这个时刻。以前本质上这个世界的信息都是人类的生产经营活动造成的,但以后人类会创造一个东西,这个东西是自己的自我演化,会产生远比人类更多的数据,那么数据会爆炸,非结构化数据会爆炸,存储数据也会爆炸,这也就是向量数据库未来的巨大机会所在。


    尽管在当下我们还想不到这类智能体的具体应用场景,以及人类是否需要那么多智能体,但是或许到某一天可能我们每个人都需要大量这样的 Agent,而每个 Agent 都伴随着向量数据库。


    3、从技术栈的角度理解向量数据库


    如果从技术栈的角度来看,AI 时代的技术栈是 CVP( ChatGPT-Vector Database-Prompt ),这里的 C 是指以 ChatGPT 为代表的大模型,Vector Database 就是向量数据库,Prompt 也就是提示词。在实际应用过程中,真正需要用到向量数据库的并不是这些大模型本身或者说它们的需求量很小,而是基于大模型做开发的开发者。


    如果我们将其对应到移动互联网时代,开发者平台 iOS 和 Android 就相当于 CVP 里的 C,而 mongoDB和 Firebase 这样的数据库就对应于 CVP 里的 V,各种前端应用对应于 CVP 里的 Prompt。


    在每一个技术时代,都是类似的技术栈,都需要相应的数据库,而使用这些数据库的并非类似 iOS 和 Android 这样的平台,而是开发者,这也就是为什么数据库的市场如此大的原因,因为最终的平台可能也就几家,但是开发者成千上万甚至上亿。


    而当下中间层非常火的 Langchain 和 LlamaIndex 等产品,其角色是把 CVP 串联起来,如果放到上一个时代的话,它有点类似 IDE,让开发者可以更简单地开发应用。


    无论怎样,外界正在意识到向量数据库作为一种新型数据库存在的价值。不过,理解大模型只是AI的其中一种形态,泛化能力变强,场景通用性也更强,以大模型助力AI落地变得更顺畅的过程中,还有很多可优化空间。


    郑州博观电子科技有限公司是一家提供科技类物联网开发软硬件定制化方案服务商、也是中原地区领先的物联网终端设备解决方案提供商。致力共享换电柜、智能充电桩、共享洗车机、物联网软硬件等服务平台的方案开发与运维。总部位于河南省郑州市高新区,已取得国家高新技术企业认证证书。经过10多年的业务开拓,公司已经形成了以中原地区为中心、业务遍布全国的经营格局。


注:本站文章部分文字及图片来自互联网。如有侵权行为,请联系我们,我们会及时删除。