定向采集功能使用教程完整版 -云顶集团官方网站入口
云顶集团官方网站入口-yd222云顶线路检测中心 发布时间: 2023-11-22 15:47定向采集,与使用关键词进行采集的主要区别是,它直接抓取目标页面或目标网址。提供三种模式:
跟踪采集
:用户提交一个列表页网址,并选择页面上的某些位置的链接,采集系统进行持续跟踪
,发现所选区域存在新网址
时进行抓取。只跟踪一个单独页面,不支持设置翻页。单次采集
:用户提交一个列表页网址,并选择页面上的某些位置的链接,采集系统进行一次性抓取
,直到把每个翻页上的历史文章
全部抓取完为止。支持设置翻页范围,系统会自动翻页
。url直采
:用户提交一系列文章页网址,系统直接抓取文章页
进行采集。
目录:
- 跟踪采集设置教程
- 单次采集设置教程
- 头条号百家号定向采集教程
- url直采设置教程
跟踪采集设置教程:
首先从左侧栏找到任务目标管理
,然后点击定向采集
按钮。输入任务名称
和目标栏目id
(自媒体发布请填1),文章来源选择定向采集
。
点击下面框中跟踪采集
按钮,输入要采集的目标网址。注意如果是采集头条号或百家号文章列表,系统还会自动显示阅读量过滤(请往后看)。
点击规则设置
按钮,选取要采集的链接。
最后,保存即可完成任务添加。
单次采集设置教程:
单次采集与跟踪采集主要的不同,体现在翻页设置
上。首先我们要找到目标网站的页码变量
,我们以人民网经济科技栏目为例,先找到页码区
:
点击每个具体页码,看浏览器地址栏所显示的网址:
第1页:http://finance.people.com.cn/index1.html#fy01
第2页:http://finance.people.com.cn/index2.html#fy01
第3页:http://finance.people.com.cn/index3.html#fy01
第4页:http://finance.people.com.cn/index4.html#fy01
第5页:http://finance.people.com.cn/index5.html#fy01
可以看到网址有一个数字在变,而且跟页码相同,就是上面的index1
,index2
,index3
,index4
,index5
,它就是我们要找到页码变量。在填写定向目标网址时,我们要把这个页码变量数字替换成{pageno}
,如下所示:
http://finance.people.com.cn/index{pageno}.html#fy01
现在我们把它填到设置中,并填上页码范围,比如1-5页,也可以倒着填,比如5-1页。页码顺序决定采集顺序
。但注意,一条目标网址最多可翻100页,超过100页的可以另外再添加一条
,然后翻页范围写为101-200,以此类推。
事实上,我们还提供了一个更为简便的方法
,可以自动识别上述分析过程。您只需要把第一页的原始网址粘贴进去,点一下旁边的帮我填
按钮,系统即会尝试自动识别页码变量,并帮你完成修改和填写,甚至会自动识别页码范围。您只需确认一下是否正确,适当修改页码范围即可。
单次采集的后续设置,即规则设置,与跟踪采集完全一样
,请参照跟踪采集设置教程。
头条号百家号定向采集教程:
以头条号为例,首先要找到目标账号的云顶集团官方网站入口主页。找到目标账号任意一篇文章,点击账号头像即可进入账号云顶集团官方网站入口主页。
点击文章
或者微头条
,复制浏览器地址栏整个网址,粘贴到定向目标网址(不用去找页码变量,不用{pageno}
),并填上页码范围。注意头条号每页是20条文章,最多可采100页,也就是2000篇。
注意上图中出现了阅读量过滤
的设置,系统只有在检测到您所填网址为头条号、百家号
时,才会显示此输入框。
头条号支持文章和微头条
分别采集,而百家号不支持区分文章和动态
,只能选全部。
以上主要是讲头条号的单次采集
,即采集历史文章,但如果您需要跟踪采集
目标账号的更新文章,也是可以的。百家号同理。
url直采设置教程:
当某些时候我们手上已经有很多文章页网址时,可以使用url直采功能,把文章页网址直接导入系统进行采集。添加一个定向采集的任务,但不要添加任何定向目标,直接保存,完成任务创建。
(其实上述步骤只是为了创建一个定向任务,是否添加定向目标,都不影响url直采)
在任务列表找到新添加的任务,点击定向设置
按钮,再点击url直采
按钮,弹出网址导入页面。
直接把您的网址按照每行一个
的格式粘贴到弹出框中即可,同一站点下最多保有5万个
直采网址。当存在直采url时,会优先抓取直采url
,顺序随机
,之后如果任务有定向采集目标,会继续执行。系统会自动删除超过90天
没有被抓取的url。