当前位置: 首页 > news >正文

导入典籍数据

1.从网上获取中医相关典籍数据,数目共600+txt,总篇数14万+

2.数据处理

获取到的数据结构大致如下

一个txt表示一本书,开头存有书籍相关的名字,作者,朝代,年份,之后每一个<目录>下都跟有一个篇目,标题由<篇名>开头,但并非所有txt都保持这样的格式,因此要先进行数据处理才能存到数据库中

2.1由于下载的txt数据编码格式不一,导致难以正常解析,因此先进行了编码统一化,将其全部变成utf-8编码格式

2.2对编码格式转化好的txt文件存入数据库

2.2.1通过对txt内容进行解析将书籍相关信息存入book表,包括bookid,name,author,dynasty,year

2.2.2删去没能成功处理的书籍

2.2.3

解析清洗后的txt文件,提取其中每本书的篇目,将它们存入classics表中

3.处理后数据提取后展示

共628篇书目

共141180个典籍篇目

http://www.lqws.cn/news/80893.html

相关文章:

  • Docker 镜像原理
  • React 核心概念与生态系统
  • js的时间循环的讲解
  • sqlite-vec:谁说SQLite不是向量数据库?
  • 题目 3225: 蓝桥杯2024年第十五届省赛真题-回文字符串
  • 光伏功率预测 | LSTM多变量单步光伏功率预测(Matlab完整源码和数据)
  • 机器视觉图像处理之图像滤波
  • 从多巴胺的诱惑到内啡肽的力量 | 个体成长代际教育的成瘾困局与破局之道
  • Python----目标检测(《YOLO9000: Better, Faster, Stronger》和YOLO-V2的原理与网络结构)
  • 蓝云APP:云端存储,便捷管理
  • Linux入门(十三)动态监控系统监控网络状态
  • (Python网络爬虫);抓取B站404页面小漫画
  • 探秘 Minimax:AI 领域的创新先锋
  • C# 异常处理进阶:精准获取错误行号的通用方案
  • JS中的 WeakSet 和 WeakMap
  • Y1——链式前向星
  • 麒麟信安安装谷歌浏览器
  • JavaScript性能优化实战
  • 多群组部署
  • 3.需求分析与测试用例设计方法
  • [蓝桥杯]蚂蚁感冒
  • 计算机视觉NeRF
  • 某电子计数跳绳的一次修复经历
  • SystemVerilog—Interface在class中的使用
  • 图像任务中的并发处理:线程池、Ray、Celery 和 asyncio 的比较
  • Laplace 噪声
  • 什么算得到?什么又算失去?
  • 软件测评师教程 第9章 基于质量特性的测试与评价 笔记
  • Kotlin 中 companion object 扩展函数和普通函数区别
  • docker-部署Nginx以及Tomcat