无崖子资源网
做有态度的分享学习平台!

如何编写完整的YGBOOK采集规则

首页广告

详细编制教程

一、进入后台,创建规则

输入采集点标识,比如nnsc或者域名(不带http://)便于记忆,然后提交保存,别忘了!

二、选择刚才创建的规则,点击编辑,进入详细编写界面。

  • 1.是否突破:选择是。
  • 2.图片本地化:我个人建议选是,避免目标站图片挂了。
  • 3.所属栏目,一般是多栏目。
  • 4.目标站点域名:有https的写https,后面有没有斜杠无所谓
  • 5.网站编码:GBK还是UTF-8。在网站页面右击,看下编码。不过选错了没关系,回头在切换下就可以了。
  • 6.规则列表页面:https://www.dududu.la/sort[cate]/0/[page].htm,例如这个站,其中[cate]代表分类,[page]代表页码,如果页码只有一页可以不用写。分类可以是数字,也可以是字母。这里分类为什么不把前面的sort写进去,是为了防止误采到非列表页,比如主页。
  • 7.下面的cate对应,可以有以下形式,只列出3种作为参考,具体要按目标站来。

  • 8.页码,可以在每个后面写,目标站是多少你就写多少。这种虽然麻烦但是准确。还有一种就是写1|1|1000,其中1000是最大页数,比较懒o(* ̄︶ ̄*)o。
  • 9. 无缩略图标志:一般就写nocover

好了前面的准备好了,我们来打开目标页,来一步一步写采集内容。

列表规则、文章页规则、章节页规则编写

一、列表页规则

  1. 列表页:链接CSS选择器

打开随便一个分类页,我们要获取文章标题和链接,选择文章标题,右键检查元素(或者F12)。

这里首先看css,是a标签,不精确,我们看上面他是在.booklist span.sm 里面,这里我们就写
.booklist span.sm a

PS:一定要是绝对的,如果同一个sm里面有两个a,这样写就采不到链接了,就需要替换规则,替换掉不能用的标签class。
{filter replace=’替换后代码’}需要替换的标签代码{/filter} ,如
{filter replace='<p>’}<a href=”(.*)”>最新章节***</a>/filter} 。新手遇到这种站可以放弃哈。

2.列表页:标题CSS选择器

一般是和上面是一样的,但是这个刚好不一样,多了个<b>标签

我们就写.booklist span.sm b或者.booklist li b或者.booklist li a b

3. 列表页:缩略图CSS选择器

没有图就不用谢,有图就写。方法一样,右键查看,看对应css。这里没有图片不要紧,我们可以在文章页采集。

 

4.作者:我们选中作者,右键

然后选中zz上面,看到是绝对的,我们写
.booklist span.zz a

二、文章页规则

这里有两种方式:两种方式可混合使用!!!

*****************************************************************

一种就是查看源文件,快速填写标签,这种比较好写,绝大多网站都有这种参数;

通用标签meta[property=]|content

  • 书名:meta[property=og:novel:book_namel]|content
  • 作者:meta[property=og:novel:author]|content
  • 内容:meta[property=og:description]|content
  • 分类:meta[property=og:novel:category]|content
  • 图片:meta[property=og:image]|content
  • 完整目录:一般文章页是目录页的不写
  • 完结标识:已完结或者大结局或者完本,或者
    meta[property=og:novel:status]|content

*****************************************************************

一种就是上面的方法选中对应的右键审查元素,一个一个写,比较麻烦。

1.书名:h1

2.作者:
.jieshao .rt .msg em a

这里有两个,我们需要替换掉一个

<em>最新章节:<a href="11899692.html">26、急报</a></em>

文章页:源码预过滤规则里面填下下面的代码

{filter replace=''}<em>最新章节:<a href="(.*)">(.*)</a></em>{/filter}

上面的(.*)是正则代码,小白遇到这种可以放弃,这里需要慢慢调试。

3.内容:
.jieshao .rt .intro

4.分类标签:这里一般不用写,除非单列表规则才写。这个网站没有加这个标签,可以按照上一种方式写。

5.图片:
.jieshao .lf img

三、章节页规则

  1. 章节目录页:区域CSS选择器 我们写:mulu或者.mulu
  2. 章节目录页:采集规则 我们写:
<li><a href="[link]">[title]</a></li>
或者<a href="[link]">[title]</a>
有些网站是<dd><a href="[link]">[title]</dd>

这里要注意,一般链接地址

<a href="11899668.html">

是这种的不容易采集到,前面要带书号。

<a href="/42/42619/11899668.html">这种就容易采集到。

采不到章节页地址的网站可以放弃,一般这是由于目标站加密的缘故。

四、章节页规则

这个比较简单,我们这里写:.yd_text2

常用的是:
content

这里我们需要的是替换掉目标站的广告哦

比如:一秒记住笔趣阁www.biquge.com等等

好了,规则写好了,我们来测试一下,看有没有问题,然后一项一项在进行修改。直到能看到章节内容就成功了!

赞(0)
未经允许不得转载:无崖子资源网 » 如何编写完整的YGBOOK采集规则

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)

你想要的这里都有!

淘宝福利TOP100请收藏好本站