当前位置: 首页 > news >正文

简数采集技巧之快速获取特殊链接网址URL方法

简数采集器列表页提取器的默认配置规则:获取a标签的href属性值作为采集的链接网址,对于大部分网站都是适用的;

但有些网站不使用a标签作为链接跳转,而用javascript的onclick事件替代,那列表页提取器的默认规则将无法获取到链接网址。

快速解决方法步骤如下:

一、url字段配置

先按常规配置,获取链接跳转的元素内容,再点击url字段的设置进入字段数据处理界面;

二、获取onclick属性内容

选择 “高级配置” 选项卡 ==》把 “只获取网址” 勾去不选择 ==》提取值类型选择 “节点属性” ==》属性名填写 onclick ==》保存

三、正则提取链接网址

选择 “日期等正则提取” 选项卡 ==》正则捕获组处填写  openW\('(.*)'\)  ==》测试 ==》没问题,保存

四、结果

http://www.lqws.cn/news/136603.html

相关文章:

  • 【大模型:知识图谱】--5.neo4j数据库管理(cypher语法2)
  • 查看服务应用是否有跑起来命令
  • Vue2 和 Vue3 常见 CSS 样式归纳总结
  • 图片压缩工具 | 图片生成PDF文档
  • AReaL-boba²:开源异步强化学习训练系统的革命性突破
  • [Java 基础]Java 中的关键字
  • Python学习(6) ----- Python2和Python3的区别
  • 解决com.jcraft.jsch.JSchException: Algorithm negotiation fail
  • MYSQL之表的内连和外连
  • Hadoop企业级高可用与自愈机制源码深度剖析
  • 《人性的弱点》核心总结
  • 录制mp4
  • RAG技术解析:实现高精度大语言模型知识增强
  • promethues上监控K3S中的pod的状态
  • [AI Claude] 软件测试2
  • 互斥锁与消息队列的架构哲学
  • 网络攻防技术十三:网络防火墙
  • docker的基本命令
  • (四)docker命令—容器管理命令
  • SOC-ESP32S3部分​​​​​​​:29-乐鑫组件库的使用
  • 6个月Python学习计划 Day 14 - 异常处理基础( 补充学习)
  • Kafka broker 写消息的过程
  • UE 材质基础第三天
  • 细说C语言将格式化输出到字符串的函数sprintf、_sprintf_l、swprintf、_swprintf_l、__swprintf_l
  • MP4文件声音与视频分离
  • 网络寻路--图论
  • C语言数据结构笔记3:Union联合体+结构体取8位Bool量
  • 嵌入式常见 CPU 架构
  • 传输层协议 UDP 介绍 -- UDP 协议格式,UDP 的特点,UDP 的缓冲区
  • 激光干涉仪:解锁协作机器人DD马达的精度密码