瞎折腾 Python 爬取指定页面的所有图片 之前看见别人分享小黄鸡头像,但是好像没有提供云盘下载。于是就让 gpt 生成了一下爬取特定页面的代码,爬取后重命名了一下,可以评论获取压缩包。 同时分享下代码,万一下次用得着呢。 import requests from bs4 import BeautifulSoup import os from urllib.parse import urljoin # 目标页面 url = "ht...
瞎折腾 Docker 网络代理服务器 squid 爬虫或者不能访问外网时,可能需要用到代理服务器,接下来使用 docker 搭建代理 squid 服务器。 一、复制配置文件 # 创建一个临时容器 docker run -d --rm --name squid -p 3128:3128 ubuntu/squid # 复制配置文件 mkdir /home/docker/squid && \ cd /home/docker/squid/...
程序开发 Python 爬虫使用 xpath 获取元素为空 最近刚准备小弄一下爬虫,就遇到了反爬虫制裁,获取元素老是为空。 是这样的,之前QQ群总能看见一分钟简讯新闻的图片,觉得挺好的,就准备弄一个今日快看分类,每天更新。然后找到了 365 资讯简报, 准备写一个 python 脚本定时爬取内容并发布到博客。 但是对于爬虫小白来说,却是出师不利,用 xpath 获取不到需要的元素。 首先,我是这样获取的。 import requests import re...