News

  • WAP手机版 保存到桌面加入收藏设为首页
使用帮助

采集功能插件编写采集规则说明教程

时间:2020-08-25 20:14:53   作者:网钛科技   来源:原创   阅读:45   评论:0
内容摘要:后台菜单【采集管理→新增采集项目】(只有购买 采集模块 插件才有该菜单)。第一步:是各种基本信息设置,这边就挑几个重点项目说下。1、所属模块:主要设置允许采集图片和文件最大大小【采集管理→新增采集模块/采集模块管理】2、目标网页编码:如果不知道,目标网页 空白处 右键 编码,就能......

后台菜单【采集管理→新增采集项目】(只有购买 采集模块 插件才有该菜单)。


第一步:是各种基本信息设置,这边就挑几个重点项目说下。再编写新规则或检查规则问题,右下角【显示源代码并检查标签设置】建议打钩,这样每一步都会检查采集测试结果是否正确

1、所属模块:主要设置允许采集图片和文件最大大小【采集管理→新增采集模块/采集模块管理】

2、目标网页编码:如果不知道,目标网页 空白处 右键 编码,就能看到了网页编码

3、分页/多页采集设置:主要用来采集分页,采集列表第2页~n页,{$ID}页代替网址中变动的页码值,下面填下范围值,如2-10,第二页到第十页。

4、采集属性:

    【立即入库】打钩,采集文章直接进入【文章管理→文章管理】,没打钩,采集文章进入【采集管理→采集结果】。

    【保存远程图片】打钩采集到的图片保存到本地,不然直接连接目标网站图片。

    【倒序采集】默认从列表上往下采集,打钩从下往上采集机。

    【使用代理IP】当你的网站IP被限制了,可以考虑用代理IP,不过代理IP采集一般会慢很多,非必要不建议用。设置代理IP在[常规设置→网站参数设置 - 商业版专属 - 代理IP列表]

    【源代码压缩】默认打钩,减少特殊符号对采集的影响

    【过滤内容敏感代码 】默认打钩,减少特殊代码对采集的影响,只有定位标签或采集有用到包含JS代码时才不要打钩

5、成功采集数量限制:比如设置5,那就是当采集到成功5条后,停止采集。已存在记录数量限制、失败采集数量限制 意思一样。


下面操作就是目标网站实战解说,这里以网钛官网 网钛PHP版 栏目为例http://otcms.com/news/list_52.html

第二步:列表链接设置

    源代码框如果获取不到页面HTML内容说明你的空间受限、IP被封或者对方防采集。

采集功能插件编写采集规则说明教程

    打开该列表页网页源代码,网页随便空白处,右键 【查看网页源代码】/【查看源】 。这边说下开始代码和结束代码什么意思,就是通过开始代码定位内容区域的开头,结束代码定位内容区域的结尾,那开头和结尾之间内容就是我们需要的区域。如列表开始和结束代码,就能获取到该页所有文章链接,比如说有一页有15篇文章,那就是获取到15篇文章链接的区域。然后通过链接开始和结束代码,获取每篇文章的网址链接。


1、列表开始代码:

    找到下图区域,下面红框框是要采集的文章链接信息,上面红框框就是要我们找开始代码的地方,里面的红线是可以选择作为列表开始代码的,如图3处红线任选一个即可,不仅仅这3处,其他地方也可以作为开始代码,只要开始代码页头到这里是唯一代码即可,判断是不是唯一代码,很简单,打开源代码搜索功能,用这个代码去搜索如果在指定区域内就它一个,那就是唯一代码

采集功能插件编写采集规则说明教程


2、列表结束代码:

    结束代码只需从开始代码位置开始计算寻找唯一代码,如下图,上面红框框是列表页文章链接区域代码,下面红框框是分页区域,结束代码一般就在分页区域寻找,如下图5个红线都是标出来可以作为结束代码的,因为从列表开始代码定位开始到分页区域这边,这5处红线代码都可做唯一代码。当然实际作为唯一代码,不仅仅就这5处,还有很多处都可以,需要用户自己多长时间下。

采集功能插件编写采集规则说明教程


    采集时系统会获取从列表开始代码到列表结束代码之间的代码区域,作为列表文章链接获取区域


3、链接开始代码:

    用于定位文章网址链接的开头区域,如下图,看该列表2条文章链接区域,红线<h4><a href=" 这个2条文章都有,另个 class="img"><a href=" 第二条文章没有,所以这个不能作为开始代码,只能用 <h4><a href=" 作为开始代码,也许有人会问为啥不能用 <a href=" 为开始代码,如果用它,第一条会匹配到2个网址开头,第二条会匹配到1个网址开头,所以只能用 <h4><a href=" 才行。

    采集功能插件编写采集规则说明教程
4、链接结束代码: 

    结束代码都是从开始代码位置开始计算寻找一个代码能完美获取到网址地址即可,这边开始代码是 <h4><a href=",那结束代码可以选择",这样就能获取到网址 ../news/8237.html ,开头 ../属于常规相对路径写法,系统到时会自动替换为http://路径形式。设置到这里,就能获取到该页面所有文章链接了,然后可以进入下一步。如果右下角【显示源代码并检查标签设置】有打钩,点击下一步,就可以列出采集到的所有文章链接,以此来判断上一步设置的是否正确,如果没获取到所有文章链接,那就是有问题了,要回到上一步重新检查。


第三步:正文内容设置

    到了这里,会罗列出上一步设置而采集到的列表文章链接,如果没显示或者链接数量不对,网址是否正确,随便点开个看看是否正常访问,如果有问题那就是上一步设置有问题,返回上一步重新检查下。

采集功能插件编写采集规则说明教程

随便打开个内容页源代码开始编写内容页采集规则吧。

1、标题开始代码 和 标题结束代码:

    找到源代码中标题内容,如果内容太多不好找,直接用网页搜索关键词来查找,有些页面会有多处地方显示标题,这种情况都对比过去下选择其中一处靠谱的。如下图,找到标题区域这处,开始代码<h1>,结束代码</h1>

采集功能插件编写采集规则说明教程

采集功能插件编写采集规则说明教程


2、正文开始代码 和 正文结束代码:

    找到正文内容,那它的上方代码 <div id="newsContent"><div> 就是正文开始代码

采集功能插件编写采集规则说明教程


  正文结束代码:先看文章正文是在哪里结束,如下图,“插件介绍说明...54.html”这句话结束,源代码里

找到这个地方,那他们下面代码区就有 正文结束代码,这里看过去 <div id="newsEncCont"> 比较靠谱些,可以作为正文结束代码。当然开始和结束代码还可以是其他,不仅仅就一个,特别文章正文是很复杂的,部分文章正文可能存在两三种不同开始结束代码,故这边还有【正文备用标签】项,最多允许有2个,开启2个,那就是正文标签定位不到内容时,会调用正文备用标签1,如果还是定位不到内容调用正文备用标签2。

采集功能插件编写采集规则说明教程


采集功能插件编写采集规则说明教程


    设置好,就可以下一步看看采集测试效果,没问题就OK,如果采集效果有问题,返回上一步检测定位标签。

    还有很多选项由于比较少用,所以这里就不在说明,会这些,基本其他少用选项也能大部分知道怎么设置。


相关评论
陈一冰致歉!回应“小三”风波 否认欠何雯娜钱
杜锋:没考虑这个锅有多大 应学习欧洲篮球风格
MVP赔率更新!詹皇挤进前三 东契奇飙升至第四
被当兵马俑!苏群谈李春江不当男篮主教练原因
一盘大棋!曼城亲手送曼联回前4 等红魔死磕利物浦
穆帅分别用一个词形容梅西C罗 这两个词准不准?
C罗你怎么了?!冲刺越跑越慢 竟如此浪费单刀|gif
95分大胜!这是NBA季后赛历史上第二大总分差
官宣:林书豪正式加盟猛龙 穿17号今日登场首秀
世界杯最佳阵容:斯科拉领衔 西班牙两人入选
爱的深沉!王仕鹏暂停解说号召观众为男篮加油
FIFA对香港足总罚款12万港币 因部分球迷嘘国歌
热身-美羊羊进球 苏神90分钟绝杀 巴萨2-1阿森纳
申方剑:面对恒大华夏只能招架 本轮应叫普天大欢庆
女子围甲江苏致远继续领跑 上海两分之差紧随
林书豪砍28+9贺希宁26分 北京负深圳赛季首败
西甲-武磊再次打满全场 西班牙人1-3开季主场全败
NBA最新实力榜:湖人登顶联盟第1 勇士倒数第1
玩砸了!里皮选择被质疑 国足到底归化几个才能行
鹈鹕官推已经取关浓眉哥!封面都换成了他(图)
今日推荐:

新浪小编64元中足彩任九2587元 这次小炮又帮了他
汤神即将迎来复出!竟然是以这种身份上场!
高山滑雪美女希弗林世界杯回转41冠 成为历史第一人
当初找梅西换球衣 让他被骂成狗 如今成了宠儿
悲哀!世界杯东道主输给一支没有绷带的球队
连捅曼联两刀!迪马利亚冲曼联球迷大骂“Fxxx”
C罗惹麻烦了!和绯闻女友打招呼 乔治娜当众发火
ATP年度大奖提名名单:费纳在列 穆雷入围最佳复出
男篮世界杯最新夺冠赔率:美国榜首 西班牙第三
浓眉:明年我是自由球员!芝加哥才是篮球圣地
谢峰:伤号较多小摩托回避 谁不拼不抢不认真立刻换
恒大官宣归化球员布朗宁加盟 携手韩国外援朴志洙
给穆蜜们泼一小盆冷水 穆帅的热刺之路挺难的
武磊再次赢得球迷掌声!出战78分钟跑动9.5公里
兄弟情谊!林书豪定制战靴纪念已故好友高以翔
奖金怎么花? 许昕:拿第二买奶粉夺冠给媳妇买包
权威评史上50大主帅:弗爵第2瓜帅第5 穆帅超齐祖
篮网三巨头联手内幕曝光:欧文在3年前率先提议
卡帅:输球原因就是少一人作战 肯定影响苦战鲁能
大乐透3635万得主现身称太幸运:刚买1年只是玩玩