mirror of
https://github.com/Colin-XKL/Colinx-Blog.git
synced 2026-01-12 02:31:27 +08:00
update posts
This commit is contained in:
@@ -172,7 +172,9 @@ href属性里面的内容是他的链接,title属性里面的内容则是他
|
||||
|
||||
其中`post_url`为你的browserless实例地址,如果你使用了RSS MAN X里的Huginn可以直接向上面一样填写。`payload`中的`url`字段填写你需要的网页地址。注意emit_events要设置为`true`,这样才方便我们后续使用WebSite Agent操作。
|
||||
|
||||
点击Dry Run,如果能返回一个带有`body`字段且里面有文本内容说明调用成功
|
||||
点击Dry Run,如果能返回一个带有`body`字段且里面有文本内容说明调用成功。
|
||||
|
||||
调用不成功检查一下配置,以及是不是我们的爬虫被目标网站拦截了。若是爬虫被拦截可参考文末的解决方案。
|
||||
|
||||

|
||||
|
||||
@@ -283,13 +285,13 @@ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like
|
||||
|
||||
* **为什么启动docker容器后访问Huginn显示网络错误?**
|
||||
|
||||
Huignn冷启动较慢,需要等待三五分钟。如果还是不行,检查端口映射和防火墙设置
|
||||
Huignn冷启动较慢,需要等待三五分钟。如果还是不行,检查端口映射和防火墙设置
|
||||
|
||||
* **为什么抓取到的包含相对路径的结果,网页上可以点击访问,但是生成的RSS不能正常使用?**
|
||||
|
||||
检查link的设置,有些网站只是域名,有些网站有子目录,具体查看该网页源码中head节点里base url的设置
|
||||
|
||||
* 如何对爬取到的某一项的字符串做更高级更复杂的处理?
|
||||
* **如何对爬取到的某一项的字符串做更高级更复杂的处理?**
|
||||
|
||||
可以参考[Hugnn官方对Liquid语法的文档](https://github.com/huginn/huginn/wiki/Formatting-Events-using-Liquid)以及[Shopify官方关于Liquid模板的语法文档](https://shopify.dev/api/liquid)
|
||||
|
||||
@@ -297,6 +299,11 @@ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like
|
||||
|
||||
若部署后某个应用一直无法通过浏览器访问,请检查是否绑定到了6000/6666等特殊端口,浏览器会拦截对这些端口的访问参见[这里](https://blog.colinx.one/posts/docker-compose%E7%9A%84%E9%94%99%E8%AF%AF%E4%BD%BF%E7%94%A8%E5%A7%BF%E5%8A%BF/)
|
||||
|
||||
* **Huginn 爬虫访问目标网站被拦截了怎么解决**
|
||||
介绍几个基本的反反爬虫策略:
|
||||
1. 带上User Agent,要求是真实的浏览器UA。
|
||||
2. Browserless去掉默认会和请求一起发送的可以被识别为爬虫的特征参数,设置browserless的环境变量`DEFAULT_HEADLESS=false`
|
||||
3. 使用随机代理IP,适用于因爬取频率达到爬虫阈值
|
||||
|
||||
|
||||
## 扩展阅读
|
||||
|
||||
@@ -223,15 +223,15 @@ python3 -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip
|
||||
|
||||
2. 如开启海外站点解锁支持,第一次冷启动需要等待 3-5 分钟才能完全启动所有组件。
|
||||
|
||||
3. 数据保存位置`/data/docker/`
|
||||
3. 数据默认保存位置`~/.docker/Database`(注意以执行docker命令的用户为准,如使用root账户执行,则文件位于root用户home目录)
|
||||
|
||||
4. 在 TTRSS 中将原来订阅的 `https://rsshub.app/*` 更改为 `http://rsshub/*` 即可使用 RSS Man X内的自建 RSSHub 实例,并激活反反爬虫和海外源加速等功能
|
||||
4. 默认情况下只有 TTRSS 和 Huginn 可以从外部访问,其他组件互相可以访问但不能直接从外部访问以提高安全性。组件间互相访问可以使用`容器名+指定端口`,端口默认为 80,如`http://rsshub/xxxxx`即可访问到 RSS Man X 内的监听 80 端口的 rsshub 实例。
|
||||
|
||||
5. 如无法访问rsshub的官方文档站点,可以使用我维护的反代站点[https://rsshub-doc.azure.colinx.one/](https://rsshub-doc.azure.colinx.one/)
|
||||
5. 在 TTRSS 中将原来订阅的 `https://rsshub.app/*` 更改为 `http://rsshub/*` 即可使用 RSS Man X内的自建 RSSHub 实例,并激活反反爬虫和海外源加速等功能
|
||||
|
||||
6. 关于 ARM 平台的支持可查阅[置顶的 issue](https://github.com/Colin-XKL/RSSmanX/issues/5)
|
||||
6. 如无法访问rsshub的官方文档站点,可以使用我维护的反代站点[https://rsshub-doc.azure.colinx.one/](https://rsshub-doc.azure.colinx.one/)
|
||||
|
||||
7. 默认情况下只有TTRSS和Huginn可以从外部访问,其他组件互相可以访问但不能直接从内部访问以提高安全性
|
||||
7. 关于 ARM 平台的支持可查阅[置顶的 issue](https://github.com/Colin-XKL/RSSmanX/issues/5),替换部分不支持arm架构的docker镜像为支持arm的镜像即可。
|
||||
|
||||
8. RSS Man X的除 lite 以外的版本默认包含了自托管的 mercury 实例,你只需要在插件配置页面设置 mercury 实例地址为 `service.mercury:3000` 即可,同理,OpenCC实例地址为`service.opencc:3000`
|
||||
|
||||
@@ -243,8 +243,6 @@ python3 -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip
|
||||
|
||||
12. vi/vim编辑文本太麻烦可以尝试使用nano
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
**获取帮助**
|
||||
|
||||
Reference in New Issue
Block a user