当前位置: 首页 > news >正文

LlamaIndex的IngestionPipeline添加本地存储(本地文档存储)

LlamaIndex的IngestionPipeline支持添加本地存储(本地文档存储),用于管理摄取的文档及其元数据,从而实现文档去重、更新和持久化等功能。


具体说明

  • IngestionPipeline构造时可以传入docstore参数,指定文档存储组件,常见的本地文档存储是SimpleDocumentStore
  • SimpleDocumentStore是基于本地文件系统的简单文档存储,支持将文档(Node)持久化到本地文件夹。
  • 通过集成本地文档存储,管道可以:
    • 利用文档ID和内容哈希检测重复文档,避免重复处理。
    • 支持文档更新和删除旧文档。
    • 在管道运行时跳过已存在的文档,提高效率。
  • 除了文档存储,IngestionPipeline还支持缓存(cache)机制,也可以持久化到本地。
  • 通过调用pipeline.persist(path)pipeline.load(path),可以将缓存和文档存储持久化到本地文件夹,方便断点续传和复用。

示例代码

from llama_index.core import Document
from llama_index.core.ingestion import IngestionPipeline
from llama_index.core.storage.docstore import SimpleDocumentStore
from llama_index.core.node_parser import SentenceSplitter
from llama_index.embeddings.openai import OpenAIEmbedding# 定义本地文档存储
docstore = SimpleDocumentStore()# 创建摄取管道,添加本地文档存储
pipeline = IngestionPipeline(transformations=[SentenceSplitter(chunk_size=25, chunk_overlap=0),OpenAIEmbedding(),],docstore=docstore,
)# 运行管道,传入文档列表
nodes = pipeline.run(documents=[Document.example()])# 持久化管道状态(缓存和文档存储)到本地文件夹
pipeline.persist('./pipeline_storage')# 之后可以通过load恢复
pipeline.load('./pipeline_storage')
http://www.lqws.cn/news/79255.html

相关文章:

  • 【深度学习】实验四 卷积神经网络CNN
  • 记录一次由打扑克牌测试国内各家大模型的经历
  • 2025年5月24日系统架构设计师考试题目回顾
  • 使用 OpenCV (C++) 进行人脸边缘提取
  • 大数据-275 Spark MLib - 基础介绍 机器学习算法 集成学习 随机森林 Bagging Boosting
  • shiro使用详解
  • Java后端优化:对象池模式解决高频ObjectMapper实例化问题及性能影响
  • 链式前向星图解
  • 【C++高级主题】转换与多个基类
  • InlineHook的原理与做法
  • 【TMS570LC4357】之相关驱动开发学习记录1
  • Python-matplotlib库画不规则图
  • 【CVE-2025-4123】Grafana完整分析SSRF和从xss到帐户接管
  • Hadoop学习笔记
  • Docker 与 Harbor 私有仓库:镜像管理与版本控制的完整实践
  • Google机器学习实践指南(TensorFlow六大优化器)
  • 结构化控制语言(SCL) 与梯形图(LAD)相互转换的步骤指南
  • LabVIEW轴角编码器自动检测
  • 【数据分析】第四章 pandas简介(1)
  • Haproxy搭建web群集
  • 【Java Web】6.登入认证
  • YOLOV7改进之融合深浅下采样模块(DSD Module)和轻量特征融合模块(LFI Module)
  • NodeJS全栈WEB3面试题——P5全栈集成与 DApp 构建
  • Codeforces Round 1028 (Div. 2)(A-D)
  • MyBatisPlus--条件构造器及自定义SQL详解
  • Day43 Python打卡训练营
  • 人工智能工程技术专业 和 其他信息技术专业 有哪些关联性?
  • Sui 中文社区月度激励计划
  • LearnOpenGL-笔记-其十三
  • uniApp页面交互