当前位置: 首页 > news >正文

NER实践总结,记录一下自己实践遇到的各种问题。

更。

没卡,跑个模型休息好几天,又闲又急。

一开始直接套用了别人的代码进行实体识别,结果很差,原因是他的词表没有我需要的东西,我是用的医学文本。代码直接在github找了改的,用的是BERT的Chinese版本。


然后想了解决办法就是使用自己创建词表的方法先处理一下整个文本数据,将高频词合并(1000个)。前一千个我自己去筛选。结果效果很差,很多没包含的,很多不是词也和一起了,非常烂(相当蠢的一个办法还浪费了很长时间大家别尝试了)。


然后想了新的解决办法是在网上找那种公开的医学书的目录,作为词表,比如某一章节讲高血压,就可以作为词表。因此去找了中华药典等之类的书,放入词表进行训练。效果还可以,但还是有很多错误。


最后发现是因为没有提前删标点之类的东西,导致句子太长。因此使用re包重新处理了数据,再跑,效果相当不错。感人。

需要北美求职的小伙伴,可以私我哦,硅谷大厂大佬亲自求职陪跑!保证拿到实习offer~

此外还开发了一些小工具:

ai求职——Jobnova powered by Liba Space - Get the most timely job recommendations

ai面试——Jobnova powered by Liba Space - Get the most timely job recommendations

欢迎参与尝试。

http://www.lqws.cn/news/130699.html

相关文章:

  • 【python深度学习】Day 44 预训练模型
  • STM32学习之看门狗(理论篇)
  • OA工程自动化办公系统 – 免费Java源码
  • HTTP(超文本传输协议)详解
  • Linux命令:shell脚本文件名全局替换
  • 好坏质检二分类MLP 实战
  • 数字人技术的核心:AI与动作捕捉的双引擎驱动(210)
  • 网络安全中网络诈骗的攻防博弈
  • Flutter快速上手,入门教程
  • OPenCV CUDA模块图像处理-----对图像执行 均值漂移滤波(Mean Shift Filtering)函数meanShiftFiltering()
  • 架构设计技巧——架构设计模板
  • 区块链技术发展现状与应用前景分析
  • Windows系统工具:WinToolsPlus 之 SQL Server Suspect/质疑/置疑/可疑/单用户等 修复
  • intense-rp-api开源程序是一个具有直观可视化界面的 API,可以将 DeepSeek 非正式地集成到 SillyTavern 中
  • C#学习第27天:时间和日期的处理
  • 【Linux】编译器gcc/g++及其库的详细介绍
  • 《高等数学》(同济大学·第7版)第一章第七节无穷小的比较
  • C++11 defaulted和deleted函数从入门到精通
  • JavaScript 二维数组初始化:为什么 fill([]) 是个大坑?
  • 《波段操盘实战技法》速读笔记
  • 《射频识别(RFID)原理与应用》期末复习 RFID第二章 RFID基础与前端(知识点总结+习题巩固)
  • 【Code】Python金融基础
  • el-input限制输入数字,输入中文后数字校验失效
  • Spark实战能力测评模拟题精析【模拟考】
  • 实时数据湖架构设计:从批处理到流处理的企业数据战略升级
  • HarmonyOS 实战:给笔记应用加防截图水印
  • 【HarmonyOS 5】生活与服务开发实践详解以及服务卡片案例
  • function as a service的极简方案:通过jupyterhub和gradio搭建FAAS平台(一)
  • 如何在 React 中监听 div 的滚动事件
  • 从Node.js到React/Vue3:流式输出技术的全栈实现指南