From 21593165a4f9a76f28a0ddf40a449272bd9cc1c6 Mon Sep 17 00:00:00 2001 From: Colin-XKL Date: Sun, 18 Sep 2022 11:56:56 +0800 Subject: [PATCH] update posts --- content/posts/Huginn指南:为任意网站制作RSS.md | 13 ++++++++++--- content/posts/RSSManX安装部署指南.md | 12 +++++------- 2 files changed, 15 insertions(+), 10 deletions(-) diff --git a/content/posts/Huginn指南:为任意网站制作RSS.md b/content/posts/Huginn指南:为任意网站制作RSS.md index 7cf74e8..8dac65f 100644 --- a/content/posts/Huginn指南:为任意网站制作RSS.md +++ b/content/posts/Huginn指南:为任意网站制作RSS.md @@ -172,7 +172,9 @@ href属性里面的内容是他的链接,title属性里面的内容则是他 其中`post_url`为你的browserless实例地址,如果你使用了RSS MAN X里的Huginn可以直接向上面一样填写。`payload`中的`url`字段填写你需要的网页地址。注意emit_events要设置为`true`,这样才方便我们后续使用WebSite Agent操作。 -点击Dry Run,如果能返回一个带有`body`字段且里面有文本内容说明调用成功 +点击Dry Run,如果能返回一个带有`body`字段且里面有文本内容说明调用成功。 + +调用不成功检查一下配置,以及是不是我们的爬虫被目标网站拦截了。若是爬虫被拦截可参考文末的解决方案。 ![image-20220508195731732](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207725.png) @@ -283,13 +285,13 @@ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like * **为什么启动docker容器后访问Huginn显示网络错误?** -​ Huignn冷启动较慢,需要等待三五分钟。如果还是不行,检查端口映射和防火墙设置 + Huignn冷启动较慢,需要等待三五分钟。如果还是不行,检查端口映射和防火墙设置 * **为什么抓取到的包含相对路径的结果,网页上可以点击访问,但是生成的RSS不能正常使用?** 检查link的设置,有些网站只是域名,有些网站有子目录,具体查看该网页源码中head节点里base url的设置 -* 如何对爬取到的某一项的字符串做更高级更复杂的处理? +* **如何对爬取到的某一项的字符串做更高级更复杂的处理?** 可以参考[Hugnn官方对Liquid语法的文档](https://github.com/huginn/huginn/wiki/Formatting-Events-using-Liquid)以及[Shopify官方关于Liquid模板的语法文档](https://shopify.dev/api/liquid) @@ -297,6 +299,11 @@ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like 若部署后某个应用一直无法通过浏览器访问,请检查是否绑定到了6000/6666等特殊端口,浏览器会拦截对这些端口的访问参见[这里](https://blog.colinx.one/posts/docker-compose%E7%9A%84%E9%94%99%E8%AF%AF%E4%BD%BF%E7%94%A8%E5%A7%BF%E5%8A%BF/) +* **Huginn 爬虫访问目标网站被拦截了怎么解决** + 介绍几个基本的反反爬虫策略: + 1. 带上User Agent,要求是真实的浏览器UA。 + 2. Browserless去掉默认会和请求一起发送的可以被识别为爬虫的特征参数,设置browserless的环境变量`DEFAULT_HEADLESS=false` + 3. 使用随机代理IP,适用于因爬取频率达到爬虫阈值 ## 扩展阅读 diff --git a/content/posts/RSSManX安装部署指南.md b/content/posts/RSSManX安装部署指南.md index 1699a91..17b5c88 100644 --- a/content/posts/RSSManX安装部署指南.md +++ b/content/posts/RSSManX安装部署指南.md @@ -223,15 +223,15 @@ python3 -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip 2. 如开启海外站点解锁支持,第一次冷启动需要等待 3-5 分钟才能完全启动所有组件。 -3. 数据保存位置`/data/docker/` +3. 数据默认保存位置`~/.docker/Database`(注意以执行docker命令的用户为准,如使用root账户执行,则文件位于root用户home目录) -4. 在 TTRSS 中将原来订阅的 `https://rsshub.app/*` 更改为 `http://rsshub/*` 即可使用 RSS Man X内的自建 RSSHub 实例,并激活反反爬虫和海外源加速等功能 +4. 默认情况下只有 TTRSS 和 Huginn 可以从外部访问,其他组件互相可以访问但不能直接从外部访问以提高安全性。组件间互相访问可以使用`容器名+指定端口`,端口默认为 80,如`http://rsshub/xxxxx`即可访问到 RSS Man X 内的监听 80 端口的 rsshub 实例。 -5. 如无法访问rsshub的官方文档站点,可以使用我维护的反代站点[https://rsshub-doc.azure.colinx.one/](https://rsshub-doc.azure.colinx.one/) +5. 在 TTRSS 中将原来订阅的 `https://rsshub.app/*` 更改为 `http://rsshub/*` 即可使用 RSS Man X内的自建 RSSHub 实例,并激活反反爬虫和海外源加速等功能 -6. 关于 ARM 平台的支持可查阅[置顶的 issue](https://github.com/Colin-XKL/RSSmanX/issues/5) +6. 如无法访问rsshub的官方文档站点,可以使用我维护的反代站点[https://rsshub-doc.azure.colinx.one/](https://rsshub-doc.azure.colinx.one/) -7. 默认情况下只有TTRSS和Huginn可以从外部访问,其他组件互相可以访问但不能直接从内部访问以提高安全性 +7. 关于 ARM 平台的支持可查阅[置顶的 issue](https://github.com/Colin-XKL/RSSmanX/issues/5),替换部分不支持arm架构的docker镜像为支持arm的镜像即可。 8. RSS Man X的除 lite 以外的版本默认包含了自托管的 mercury 实例,你只需要在插件配置页面设置 mercury 实例地址为 `service.mercury:3000` 即可,同理,OpenCC实例地址为`service.opencc:3000` @@ -243,8 +243,6 @@ python3 -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip 12. vi/vim编辑文本太麻烦可以尝试使用nano - - **获取帮助**