第284章围巾（1 / 2）_离语

Weaviate 是一个向量搜索引擎数据库，它专注于连接和管理分散的数据，并通过语义链接来

解析和查询这些数据。它的主要功能包括语义搜索、数据链接和知识图谱构建。Weaviate 的关键

特性包括机器学习集成，支持多种相似度度量，如欧氏距离和余弦相似度，以及可扩展性。

Weaviate 的主要用途是帮助开发者构建智能应用程序，利用其强大的语义搜索和数据关联功能

从而实现更智能、更个性化的数据检索和推荐。其特点包括开源、高度可扩展、语义搜索功能强

大、支持多种数据类型和格式等。这使得 Weaviate 在处理大规模复杂数据集时表现出色，特别适

用于智能问答、搜索引擎和图像识别等领域。

本章介绍了向量知识库在信息检索和数据管理中的具体优势，随后介绍了向量知识库的构建，

是提取分割文本，嵌入向量，随后构成向量知识库。给出了&n 的原理以及给出了使用< API 将数据变成向量的代码示意，经过向量化的数据，将其存入&nne，后将数据

库与 Weaviate 相连，完成语义搜索、数据链接和知识图谱构建

术是一种结合了检索和生成机制的深度学习框

架，用于增强语言模型的性能，尤其适合于构建特定领域的专业大模型。这一技术通过从大规模知

识库检索相关信息，然后将这些信息融入生成过程中，来生成更准确、更丰富的响应。本节将详细

阐述如何使用 RAG 技术基于通用大模型搭建电力生命周期评估（LCA）领域的专业大模型。

RAG 技术核心在于将传统的语言生成模型与信息检索系统结合起来。这种结合不仅使模型能够

生成语言，还能从大量的文档中检索到具体的事实和数据，从而提供更加精确和详细的生成内容。

RAG 的工作流程大致可以分为以下几步：

查询生成：根据输入，如一个问题或提示，生成一个查询。

文档检索：使用生成的查询在知识库中检索相关文档或信息。

内容融合：将检索到的信息与原始查询融合，形成新的、丰富的输入。

答案生成：基于融合后的输入，使用语言生成模型生成最终的文本输出。

先前已经构建好了针对电力 LCA 领域的专业大模型，但是缺少检验模型的手段，即缺少模型优

化环节，本项目设置通过&nt 模式，通过与用户进行问答的形式，检验模型是否能调用电力行

业 LCA 领域向量数据库回答该领域专业性问题和时效性问题的有效性。

户交互能力。这种测试模拟真实用户与模型的交互，可以揭示模型在理解和生成回应方面的潜在问

题。

测试流程包括以下几个步骤：

测试设计：根据目标领域定义测试用例，包括典型问题、边缘情况和错误输入。

下一步设有12人参与预测，将每个人预测的数值进行汇总分别对其求平均可以得到8.43为中位数的平均数累计概率为把概率点位平分，每点之间的概率都是12.5% 所以我们可以看到低于或等于8.84的概率是75%

根据外推预测和差值需要，将函数绘制成平滑曲线，然后我们就可以对其进行估计，可以使用两种方法，点估计和区间估计。

人们利用已经掌