Merge pull request #41 from Colin-XKL/update-img-url

Update imgs' CDN URL
This commit is contained in:
2022-05-09 16:17:24 +08:00
committed by GitHub
2 changed files with 18 additions and 18 deletions

View File

@@ -26,7 +26,7 @@ Huginn使用多个不同功能的Agent组合搭配来实现一系列功能
右键网页打开开发者工具屏幕会分出一部分空间显示开发者工具窗口点击左上角的按钮再把鼠标移动到页面上可以选择页面的某一个元素比如这里我们要爬取推荐文章列表推荐文章列表的每一项都有同样的样式我们可以使用CSS选择器来指定爬取该项
![image-20220508160659378](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207138.png)
![image-20220508160659378](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207138.png)
@@ -44,7 +44,7 @@ Huginn使用多个不同功能的Agent组合搭配来实现一系列功能
你也可以在右侧Style面板里点击加号添加一个自定义样式输入CSS选择器浏览器会自动高亮符合条件的网页元素你可以使用这个功能来检验你写的CSS选择器是否正确以及是不是提取的你想要的内容
![image-20220508163359806](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207716.png)
![image-20220508163359806](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207716.png)
@@ -81,13 +81,13 @@ href属性里面的内容是他的链接title属性里面的内容则是他
>
> 字符串处理函数和标签属性值变量可以一起使用,如`normalize-space(@title)`可以获取该标签的title属性值并删除多余的空白字符
![image-20220508163714342](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207717.png)
![image-20220508163714342](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207717.png)
接下来点击Dry Run按钮进行测试不出意外我们会得到一个json的输出里面包括我们爬取到的每一项他的url和title。
如果没有成功你可能需要删掉上面没有使用到的hovertext节点因为该项指定的内容在我们刚才的网页中并不存在。
![image-20220508164259295](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207718.png)
![image-20220508164259295](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207718.png)
@@ -97,27 +97,27 @@ href属性里面的内容是他的链接title属性里面的内容则是他
>
> The Data Output Agent outputs received events as either RSS or JSON. Use it to output a public or private stream of Huginn data.
![image-20220508164941647](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207719.png)
![image-20220508164941647](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207719.png)
**Propagate immediately**是指即时处理来自Source Agent的Event启用他方便我们调试但会略微增加服务器负载你可以自行决定是否使用。
![image-20220508165345792](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207720.png)
![image-20220508165345792](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207720.png)
在secret字段中为你的这个RSS标注一个英文的名字修改title字段标注你的RSS的名字。item字段是每条文章会有的属性一般来说主要就title和link分别设置为上文我们提取的值的变量名。这里添加一个guid字段这是一篇文章的唯一标识符避免RSS阅读器读到的文章标题不同但是内容相同常见于某篇文章的标题被修改这会导致RSS阅读器内出现多篇重复文章。
此外建议增加一个link字段值设置为与爬取的网站的主域名一致避免网站内使用相对链接开头的资源无法正常加载。
![image-20220508170038722](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207721.png)
![image-20220508170038722](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207721.png)
![image-20220508170115192](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207722.png)
![image-20220508170115192](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207722.png)
点击Save保存回到Scenario界面第一次需要手动点击运行一下刚才的Website Agent。稍等片刻后台会进行爬取右上角会显示产生了多少个Event。再点开刚才设置的Data Output Agent查看详情vola右侧就会显示生成的RSS链接了复制以xml结尾的链接到RSS阅读器中就可以订阅啦🎉
![image-20220508170212112](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207723.png)
![image-20220508170212112](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207723.png)
@@ -147,7 +147,7 @@ href属性里面的内容是他的链接title属性里面的内容则是他
接下来以[这个网站](https://pccz.court.gov.cn/pcajxxw/pcgg/ggdh?lx=0)为例介绍一下这个列表页的内容是由JavaScript动态生成的
![image-20220508205159783](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207724.png)
![image-20220508205159783](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207724.png)
按照以下内容设置你的Post Agent
@@ -174,7 +174,7 @@ href属性里面的内容是他的链接title属性里面的内容则是他
点击Dry Run如果能返回一个带有`body`字段且里面有文本内容说明调用成功
![image-20220508195731732](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207725.png)
![image-20220508195731732](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207725.png)
接下来点击Save保存再新建一个Website AgentSource设置为刚才的Post Agent。
@@ -205,7 +205,7 @@ href属性里面的内容是他的链接title属性里面的内容则是他
注意修改`data_from_event`的值其他地方与爬取普通网站一样。再新建并配置一下Output AgentRSS的链接就出来了
![image-20220508205856407](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207726.png)
![image-20220508205856407](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207726.png)
@@ -249,7 +249,7 @@ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like
注意将原来的`url:??`的部分更改为`"url_from_event": "{{url}}"`,这样就指定使用Phantom JS Cloud为我们获取的完整网页接下来的操作就大同小异了。配置好要爬取的字段和规则后点击Dry Run就可以看到结果
![image-20220508215636780](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207727.png)
![image-20220508215636780](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207727.png)
@@ -273,7 +273,7 @@ Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like
![image-20220508220438696](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205082207637.png)
![image-20220508220438696](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205082207637.png)

View File

@@ -22,7 +22,7 @@ tags:
这里安利一个油猴脚本:[豆瓣资源下载大师](https://greasyfork.org/zh-CN/scripts/329484-%E8%B1%86%E7%93%A3%E8%B5%84%E6%BA%90%E4%B8%8B%E8%BD%BD%E5%A4%A7%E5%B8%88-1%E7%A7%92%E6%90%9E%E5%AE%9A%E8%B1%86%E7%93%A3%E7%94%B5%E5%BD%B1-%E9%9F%B3%E4%B9%90-%E5%9B%BE%E4%B9%A6%E4%B8%8B%E8%BD%BD),可以在豆瓣的影视详情页右侧显示有资源的站点,非常方便
![image-20220509144533549](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205091548956.png)
![image-20220509144533549](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205091548956.png)
@@ -79,13 +79,13 @@ Golang编写的一个视频下载工具同样支持国内站点
以中国庭审网的庭审录像视频为例打开开发者工具定位到视频的部分发现video标签里面的url很奇怪访问该链接也并不能访问到有效的视频。这种网页一般都是通过m3u8来下发分片文件的信息
![image-20220509151813071](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205091548957.png)
![image-20220509151813071](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205091548957.png)
打开开发者工具的网络选项卡监听网络活动点击播放视频会多出来很多条目分别代表每一个网络请求。在搜索框输入m3u8来进行过滤。定位到该请求后可以在新标签页打开保存这个m3u8文件。
![image-20220509144410278](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205091548958.png)
![image-20220509144410278](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205091548958.png)
之后我们可以利用ffmpeg载入这个m3u8文件并进行合并如有需要可一并进行转码操作
@@ -121,7 +121,7 @@ ffmpeg -i xxxx.mp4 -vn -codec copy xxxx.aac
![image-20220509153021601](https://blog-1301127393.cos.ap-shanghai.myqcloud.com/BlogImgs/202205091548959.png)
![image-20220509153021601](https://blog-1301127393.file.myqcloud.com/BlogImgs/202205091548959.png)