爬虫 - 阿蛮君博客

瞎折腾 Python 爬取指定页面的所有图片

之前看见别人分享小黄鸡头像，但是好像没有提供云盘下载。于是就让 gpt 生成了一下爬取特定页面的代码，爬取后重命名了一下，可以评论获取压缩包。同时分享下代码，万一下次用得着呢。 import requests from bs4 import BeautifulSoup import os from urllib.parse import urljoin # 目标页面 url = "ht…

瞎折腾 Docker 网络代理服务器 squid

爬虫或者不能访问外网时，可能需要用到代理服务器，接下来使用 docker 搭建代理 squid 服务器。一、复制配置文件 # 创建一个临时容器 docker run -d –rm –name squid -p 3128:3128 ubuntu/squid # 复制配置文件 mkdir /home/docker/squid && \ cd /home/docker/squid/…

程序开发 Python 爬虫使用 xpath 获取元素为空

最近刚准备小弄一下爬虫，就遇到了反爬虫制裁，获取元素老是为空。是这样的，之前QQ群总能看见一分钟简讯新闻的图片，觉得挺好的，就准备弄一个今日快看分类，每天更新。然后找到了 365 资讯简报, 准备写一个 python 脚本定时爬取内容并发布到博客。但是对于爬虫小白来说，却是出师不利，用 xpath 获取不到需要的元素。首先，我是这样获取的。 import requests import re…

修改 linux 内核版本解决 Tailscale 报错不能路由转发问题

可能由于不小心升级了 linux 内核，导致 tailscale 虽然能组网，但是不能路由转发了，也就是无法通过这台机器访问局域网内其他机器了。 docker exec -it tailscaled tailscale status 具体报错为： # Health check: # - router: adding [-i tailscale0 -j MARK --set-mark 0x40000...

Vercel 搭建 url 重定向服务

重定向服务即字面意思，访问 https://redirect.amjun.com/https://blog.153224.xyz 会重定向到 https://blog.153224.xyz，有点脱裤子放屁的感觉，为什么不直接访问：https://blog.153224.xyz。其实不然，如果遇到下面这种情况就老实了: 此时就需要搭建一个重定向服务，并通过绑定自己备案的域名到这个重定向服务上。如果...

通过 ntp 同步各服务器之间的时间

简介 ntp 是用于计算机网络中时间同步的协议，确保所有连接的设备都使用统一的时间标准。 linux 中实现 ntp 同步的工具有很多种，如 ntpd、chrony、systemd-timesyncd、ntpdate 等。 ntpd: 传统的 NTP 服务，适合需要长时间运行和精确同步的环境。 chrony: 更现代的 NTP 实现，适合虚拟机和动态网络环境，支持更快的时间同步。 systemd-...

瞎折腾 Python 爬取指定页面的所有图片

瞎折腾 Docker 网络代理服务器 squid

程序开发 Python 爬虫使用 xpath 获取元素为空

Python 检测歌曲文件是否包含内嵌歌词

修改 linux 内核版本解决 Tailscale 报错不能路由转发问题

Vercel 搭建 url 重定向服务

Docker 搭建让 pdf 变扫描版的程序

通过 ntp 同步各服务器之间的时间