当前位置：首页 > news >正文

导入典籍数据

news 2025/8/17 17:40:02

1.从网上获取中医相关典籍数据，数目共600+txt，总篇数14万+

2.数据处理

获取到的数据结构大致如下

一个txt表示一本书，开头存有书籍相关的名字，作者，朝代，年份，之后每一个<目录>下都跟有一个篇目，标题由<篇名>开头，但并非所有txt都保持这样的格式，因此要先进行数据处理才能存到数据库中

2.1由于下载的txt数据编码格式不一，导致难以正常解析，因此先进行了编码统一化，将其全部变成utf-8编码格式

2.2对编码格式转化好的txt文件存入数据库

2.2.1通过对txt内容进行解析将书籍相关信息存入book表，包括bookid,name,author,dynasty,year

2.2.2删去没能成功处理的书籍

2.2.3

解析清洗后的txt文件，提取其中每本书的篇目，将它们存入classics表中

3.处理后数据提取后展示

共628篇书目

共141180个典籍篇目

http://www.lqws.cn/news/80893.html

相关文章：

Docker 镜像原理

React 核心概念与生态系统

js的时间循环的讲解

sqlite-vec：谁说SQLite不是向量数据库？

题目 3225: 蓝桥杯2024年第十五届省赛真题-回文字符串

光伏功率预测 | LSTM多变量单步光伏功率预测（Matlab完整源码和数据）

机器视觉图像处理之图像滤波

从多巴胺的诱惑到内啡肽的力量 | 个体成长代际教育的成瘾困局与破局之道

Python----目标检测（《YOLO9000: Better, Faster, Stronger》和YOLO-V2的原理与网络结构）

蓝云APP：云端存储，便捷管理

Linux入门(十三)动态监控系统监控网络状态

(Python网络爬虫)；抓取B站404页面小漫画

探秘 Minimax：AI 领域的创新先锋

C# 异常处理进阶：精准获取错误行号的通用方案

JS中的 WeakSet 和 WeakMap

Y1——链式前向星

麒麟信安安装谷歌浏览器

JavaScript性能优化实战

多群组部署

3.需求分析与测试用例设计方法

[蓝桥杯]蚂蚁感冒

计算机视觉NeRF

某电子计数跳绳的一次修复经历

SystemVerilog—Interface在class中的使用

图像任务中的并发处理：线程池、Ray、Celery 和 asyncio 的比较

什么算得到？什么又算失去？

软件测评师教程第9章基于质量特性的测试与评价笔记

Kotlin 中 companion object 扩展函数和普通函数区别

docker-部署Nginx以及Tomcat