update posts

This commit is contained in:
2022-09-18 11:56:56 +08:00
parent 8f8d3d5ee0
commit 21593165a4
2 changed files with 15 additions and 10 deletions

View File

@@ -172,7 +172,9 @@ href属性里面的内容是他的链接title属性里面的内容则是他
其中`post_url`为你的browserless实例地址如果你使用了RSS MAN X里的Huginn可以直接向上面一样填写。`payload`中的`url`字段填写你需要的网页地址。注意emit_events要设置为`true`这样才方便我们后续使用WebSite Agent操作。
点击Dry Run如果能返回一个带有`body`字段且里面有文本内容说明调用成功
点击Dry Run如果能返回一个带有`body`字段且里面有文本内容说明调用成功
调用不成功检查一下配置,以及是不是我们的爬虫被目标网站拦截了。若是爬虫被拦截可参考文末的解决方案。
![image-20220508195731732](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207725.png)
@@ -283,13 +285,13 @@ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like
* **为什么启动docker容器后访问Huginn显示网络错误**
Huignn冷启动较慢需要等待三五分钟。如果还是不行检查端口映射和防火墙设置
Huignn冷启动较慢需要等待三五分钟。如果还是不行检查端口映射和防火墙设置
* **为什么抓取到的包含相对路径的结果网页上可以点击访问但是生成的RSS不能正常使用**
检查link的设置有些网站只是域名有些网站有子目录具体查看该网页源码中head节点里base url的设置
* 如何对爬取到的某一项的字符串做更高级更复杂的处理?
* **如何对爬取到的某一项的字符串做更高级更复杂的处理?**
可以参考[Hugnn官方对Liquid语法的文档](https://github.com/huginn/huginn/wiki/Formatting-Events-using-Liquid)以及[Shopify官方关于Liquid模板的语法文档](https://shopify.dev/api/liquid)
@@ -297,6 +299,11 @@ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like
若部署后某个应用一直无法通过浏览器访问请检查是否绑定到了6000/6666等特殊端口浏览器会拦截对这些端口的访问参见[这里](https://blog.colinx.one/posts/docker-compose%E7%9A%84%E9%94%99%E8%AF%AF%E4%BD%BF%E7%94%A8%E5%A7%BF%E5%8A%BF/)
* **Huginn 爬虫访问目标网站被拦截了怎么解决**
介绍几个基本的反反爬虫策略:
1. 带上User Agent要求是真实的浏览器UA。
2. Browserless去掉默认会和请求一起发送的可以被识别为爬虫的特征参数设置browserless的环境变量`DEFAULT_HEADLESS=false`
3. 使用随机代理IP适用于因爬取频率达到爬虫阈值
## 扩展阅读

View File

@@ -223,15 +223,15 @@ python3 -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip
2. 如开启海外站点解锁支持,第一次冷启动需要等待 3-5 分钟才能完全启动所有组件。
3. 数据保存位置`/data/docker/`
3. 数据默认保存位置`~/.docker/Database`注意以执行docker命令的用户为准如使用root账户执行则文件位于root用户home目录
4. 在 TTRSS 中将原来订阅的 `https://rsshub.app/*` 更改为 `http://rsshub/*` 即可使用 RSS Man X内的自建 RSSHub 实例,并激活反反爬虫和海外源加速等功能
4. 默认情况下只有 TTRSS 和 Huginn 可以从外部访问,其他组件互相可以访问但不能直接从外部访问以提高安全性。组件间互相访问可以使用`容器名+指定端口`,端口默认为 80`http://rsshub/xxxxx`即可访问到 RSS Man X 内的监听 80 端口的 rsshub 实例。
5. 如无法访问rsshub的官方文档站点可以使用我维护的反代站点[https://rsshub-doc.azure.colinx.one/](https://rsshub-doc.azure.colinx.one/)
5. 在 TTRSS 中将原来订阅的 `https://rsshub.app/*` 更改为 `http://rsshub/*` 即可使用 RSS Man X内的自建 RSSHub 实例,并激活反反爬虫和海外源加速等功能
6. 关于 ARM 平台的支持可查阅[置顶的 issue](https://github.com/Colin-XKL/RSSmanX/issues/5)
6. 如无法访问rsshub的官方文档站点可以使用我维护的反代站点[https://rsshub-doc.azure.colinx.one/](https://rsshub-doc.azure.colinx.one/)
7. 默认情况下只有TTRSS和Huginn可以从外部访问其他组件互相可以访问但不能直接从内部访问以提高安全性
7. 关于 ARM 平台的支持可查阅[置顶的 issue](https://github.com/Colin-XKL/RSSmanX/issues/5)替换部分不支持arm架构的docker镜像为支持arm的镜像即可。
8. RSS Man X的除 lite 以外的版本默认包含了自托管的 mercury 实例,你只需要在插件配置页面设置 mercury 实例地址为 `service.mercury:3000` 即可同理OpenCC实例地址为`service.opencc:3000`
@@ -243,8 +243,6 @@ python3 -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip
12. vi/vim编辑文本太麻烦可以尝试使用nano
**获取帮助**