Python 爬虫使用 xpath 获取元素为空

共计 918 个字符，预计需要花费 3 分钟才能阅读完成。

最近刚准备小弄一下爬虫，就遇到了反爬虫制裁，获取元素老是为空。

是这样的，之前QQ群总能看见一分钟简讯新闻的图片，觉得挺好的，就准备弄一个今日快看分类，每天更新。然后找到了 365 资讯简报, 准备写一个 python 脚本定时爬取内容并发布到博客。

但是对于爬虫小白来说，却是出师不利，用 xpath 获取不到需要的元素。

首先，我是这样获取的。

import requests
import re
from lxml import etree

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36"}

res = requests.get("https://www.163.com/dy/media/T1603594732083.html",headers=headers)

selector = etree.HTML(res.text)

target = selector.xpath("/html/body/div/div[2]/div[2]/div[1]/div[3]/ul/li[1]/a/@href")

print(target)

结果是获取不到最新文章的链接的。

Python 爬虫使用 xpath 获取元素为空

因为 /html/body/div/div[2]/div[2]/div[1]/div[3]/ul/li[1]/a/@href 是这样来的。

Python 爬虫使用 xpath 获取元素为空

这是经过浏览器渲染后的元素。

后来将源代码保存为 html 元素后发现，浏览器选然后比原来多了一个 div 元素。<div id="fixed_line_e12ff311d0" style=""></div> 应该是 js 在后期加上去的。

将/html/body/div/div[2]/div[2]/div[1]/div[3]/ul/li[1]/a/@href 改为 /html/body/div/div[2]/div[2]/div[1]/div[2]/ul/li[1]/a/@href，问题顺利解决。

Python 爬虫使用 xpath 获取元素为空

这是因为反爬虫的机制，提高了爬虫的门槛，所以还是不能直接复制 xpath 地址，需要把源代码下载下来进行分析。

提醒：本文发布于1087天前，文中所关联的信息可能已发生改变，请知悉！

AD:【腾讯云服务器大降价】2核4G 222元/3年 1核2G 38元/年

青博数据 – 站长扶持计划

有条件的站长都可以去申请下青博数据的站长扶持计划，阿蛮君申请到了一台 8h8g 的服务器。本来 2h4g 就够，结果老板大气直接给开了一台 8h8g 的。根据官方发布的文章，赞助条件并非固定，且赞助配置最低为2G内存2核心20M带宽，只需要添加青博数据广告内容，并在底部放置文字和超链接。原文链接：https://qingbocloud.com/newscontent/18.html 提醒：本文...

设计模式之三种工厂模式

前言工厂模式是一种创建对象的设计模式，它提供了一个统一的接口来实例化对象，而不需要通过直接调用构造函数来创建。工厂模式可以根据不同的条件返回不同类的实例，从而实现对象的灵活创建。常见的工厂模式包括：简单工厂模式、工厂方法模式和抽象工厂模式。详解 1. 简单工厂模式简单工厂模式，就像它的名字一样，非常简单。只需要创建一个工厂类，根据传入的参数或条件，工厂类决定实例化哪个具体类的对象并返回。 ...

Lxc 简介以及使用

一、LXC 简介 LXC 是 Linux 容器（Linux Containers）的缩写，是一种轻量级的虚拟化技术，允许在同一主机上运行多个相互隔离的 Linux 容器，每个容器都有自己的完整的文件系统、网络、进程和资源隔离环境。LXC 使用 Linux 内核提供的 cgroups 和命名空间（Namespaces）功能来实现容器隔离。与传统的虚拟机技术不同，LXC 不需要运行完整的操作系统镜像...

Apifox 接口调试前置操作脚本

项目加了鉴权以后，调试会变得比较麻烦，因为 token 随时可能失效，每次都要手动调用登录接口重新设置 token 比较麻烦。好在大部分接口调试工具都可以配置前置脚本，比如在 postman 和 apifox 中可以设置如下前置脚本进行 token 的获取，设置为环境变量 ACCESS_TOKEN，然后在 Auth 引用变量即可。相关环境变量，这里设置的是每个环境自己的环境变量，而不是全局变量...

天海牧歌大佬你好，已经添加你的友链了。本站信息：网站名称：天海博客网站地址：https://woolyun.com/ 网站图标：https://woolyun.com/wp-content/uploads/2025/05/yyl-e1746698677584.jpg 网站描述：建站经验记录，实用工具推荐，免费资源分享。

阿蛮君是指项目还是什么？发链接看看？

111 也是docker 直接部署但是是启动的是中继服务器你这个只是生成配置文件： 1.可以生成客户端配置，配置路由权限 2.可以在线设置服务器端口路由转发规则

阿蛮君什么方案？

111 还有一个更nice 的方案

Stars 站点名称：柠檬博客站点域名：frcc.cc 站点简介：技术探索，软件分享，开发者资源共享平台。站点图标：https://tc.z.wiki/autoupload/f/2VaqP6c1Z3nnIw5VJiOurpKE-3yJj7JGb32EBqbcVoayl5f0KlZfm6UsKj-HyTuv/20250709/mpcj/favicon%281%29.ico

Stars 网站标题：柠檬博客网站地址：https://frcc.cc 网站介绍：技术探索，软件分享，开发者资源共享平台。贵站已添加~

阿蛮君好，ok

洋葱Blog 已添加贵站链接名称：洋葱Blog 简介：洋葱Blog - 专注于网络资源收集链接： https://www.blogyc.cn 图标：https://www.blogyc.cn/wp-content/uploads/2023/04/92ab0f3b60023832.png

阿蛮君考虑是不是因为插件的问题，或者说你做了什么操作，比如修改了 wp-config.php

Python 爬虫使用 xpath 获取元素为空

青博数据 – 站长扶持计划

设计模式之三种工厂模式

Lxc 简介以及使用

Apifox 接口调试前置操作脚本

Docker 搭建文件分享工具 Go File

IDM 6.39.2 安装教程

Navicat15 最新版下载和安装教程

Docker 搭建 headscale 异地组网完整教程

Dokcer 安装 v2rayA

Ubuntu 22.04 锁屏不能远程连接的解决方案