当前位置: 首页 > news >正文

【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • 2.1 概述
  • 2.2 re 解析
  • 2.3 bs4 解析
  • 2.4 xpath 解析
  • 总结


前言

  • Datawhale是一个专注于AI与数据科学的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员
  • 零基础网络爬虫技术

2.1 概述

  • 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取
  • 常见有 3 种方式:
  1. re
  2. bs4
  3. xpath

2.2 re 解析

2.3 bs4 解析

  • 首先掌握 html 标签语法

2.4 xpath 解析

  • xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
  • 用法:
    1. 将要解析的html内容构造出 etree 对象。
    2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

在这里插入图片描述


总结

  • 尝试使用3种解析方法解析网页源代码。
http://www.lqws.cn/news/472069.html

相关文章:

  • 道德的阶梯:大语言模型在复杂道德困境中的价值权衡
  • 【软考高级系统架构论文】论企业应用系统的分层架构风格
  • 车载电子电器架构 --- 电子电气架构设计方案
  • C++11的一些特性
  • npm包冲突install失败
  • HarmonyOS性能优化——操作延时触发
  • 通达信 主力攻击信号系统幅图指标
  • Redis 的穿透、雪崩、击穿
  • shell脚本--条件判断
  • C++ 内存分配器的作用
  • LangGraph--基础学习(工具调用)
  • 【Docker基础】Docker镜像管理:docker rmi、prune详解
  • React JSX原理
  • 深入探讨 Java 大厂面试中的核心技术问题
  • CSM4056T 锂电池充电芯片 充电电流可达1.2A ESOP-8封装
  • 用OBS Studio录制WAV音频,玩转语音克隆和文本转语音!
  • 电子电气架构 --- 实时系统评价的概述
  • ​《吠檀多不二论的四个基本原理》​(前三部分)
  • [论文阅读] 人工智能 + 软件工程 |
  • 将VSCode的配置迁移到Cursor
  • 洛谷P3953 [NOIP 2017 提高组] 逛公园
  • c++11标准(5)——并发库(互斥锁)
  • Spring面向切面编程AOP(2)
  • Android Studio 打 APK 包报错 Invalid keystore format 的解决方法
  • Vue3 + TypeScript 中 let data: any[] = [] 与 let data = [] 的区别
  • 【力扣 简单 C】509. 斐波那契数
  • “组学”的数据结构与概念
  • 恒流源和直流稳压电源 电路
  • 【Linux】gdb调试器
  • 蓝桥杯备赛篇(上) - 参加蓝桥杯所需要的基础能力 1(C++)