今日最新:英超-孙兴慜2中框 萨拉赫点杀 利物浦2-1逆转热刺超3倍大冷达6场 第161期足彩头奖空开滚存1096万韦德生涯告别战砍25+三双 篮网3连胜锁东部第6国米为这妖人标价1亿欧元!曼联巴萨都想买他英超-孙兴慜红牌 9人热刺遭绝杀负 第3降级队出炉库里手术成功至少休息三个月 全明星这下悬了武磊获奖!荣膺杰出人物奖 世界足球大会给他颁奖足协公布国足选拔队27人名单 李铁挂帅出征东亚杯三巨头93分杜兰特关键三分 勇士主场险胜热火重磅!杜锋接替李楠出任中国男篮主教练哈登新绝招亮相?!防守他的球员彻底呆了男子刮中福彩“虎门硝烟”100万 兑奖时尤为平静世乒赛女双下半区签表:陈梦朱雨玲镇守慈世平首次解释为啥打哈登!没那事能拿25个奖苦涩!上港同样遇人和去年夺冠 今年却彻底出局欧冠出线形势一览:8队出线!利物浦国米末轮死战曝皇马又有大手笔!齐达内钦点挖切尔西第一天王
  • WAP手机版保存到桌面加入收藏设为首页
视频教程

网钛文章管理系统采集教程(视频)

时间:2011-11-09 23:14:10   作者:网钛工作室   来源:网钛工作室   阅读:60346   评论:192
内容摘要:一、设置采集模块    在后台点击【采集管理】,出现的是【新增采集模块】的内容,主要设置下载的大小和超时时间,以及给采集项目分类,便于查询,目前作用不是很大。 二、设置采集规则...

视频教程:




图文教程:

    其实采集可以这么理解,定义头和尾,除了在截取链接不需要检测,在其它地方你定义的头和尾,在同G个html表里不能有相同的,为什么不能有相同的呢?是因为采集的每一步(除了截取链接外)都是根据你所定义的头和尾来截取页面内容的。所以你在定义头和尾不仅不能有相同的,还要尽可能地把不需要的内容排除开。如果你理解了这个定义头和尾,基本上对于简单的页面是能采集的。G面我以一个实例来说明一下:


一、设置采集模块
    在后台点击【采集管理】,出现的是【新增采集模块】的内容,主要设置下载的大小和超时时间,以及给采集项目分类,便于查询,目前作用不是很大。
 


 

 二、设置采集规则
1、点击【新增采集项目】,进入采集项目的第一步,我们以采集SOHU的国内IT信息为例,如图设置:

   1)项目名称:给采集项目命名
   2)所属模块:采集数据入库后,放入哪个栏目
   3)目标页面编码:国内的网站选择GB2312,国外网站选择UTF-8,台湾的繁体字网站选择BIG5;
   4)采集网址URL:就是要采集的列表页面,这一步很关键,这一步关系到你能否采集完所有内容。一般你进入采集页面先判断一下是不是有多页,如果有多页你进入第二页和第一页是不是有规律变化,比如是:xxxx_1.htm,xxx_2.htm,特别注意数字,如果第一页开始就有_id的规律,那就把第一页作为列表网址,如果第一页与第二页没相关规律,而是从第二页开始才能这样的规律,那将第二页作为列表网址,第一页放到一边,等所有数据采集完了,再来采集单独页面,反正以后也只采集第一页,为啥?因为一般更新的都在第一页。
   5)分页/多页采集设置:若只采集一个页面,选择“不作设置”,采集多页面,可选择其他3项;
   6)采集属性:“立即入库”指一采集就在前台显示,建议此项不要选择,没选择此项,采集结果将进入【采集结果】页面, 后再入库;“保存远程图片”指把图片保存到本地;“倒序采集”指采集结果的排序顺序,打勾它,采集记录顺序和采集列表页一致。
   7)状态:指入库后文章的状态,即文章在前台是显示,还是隐藏;
   8)其它设置项 是按字面的意思,一般默认设置就行,就不详细说了
 


2、列表链接设置
   1)打开采集页面,如http://it.sohu.com/itguonei.shtml
 

鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的列表,如下图, 
 

 

找出“列表开始代码”、“列表结束代码”、“链接开始代码”、“链接结束代码”,最后两项一般默认就行,然后点击“下一步”。
 


 

3、正文内容设置

    打开列表页中的一个内容页,如http://it.sohu.com/20101104/n277154569.shtml,鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的“标题开始代码”、“标题结束代码”、“正文开始代码”、“正文结束代码”,其他几个设置项视需要而定,可默认,然后点击“下一步”。
 


 

4、正文内容采集效果

 
      点击“点击查看正文内容采集效果”,出现如下页面,那采集结果正常。
 

 
点击“完成”后,会跳转到【采集项目管理】页面

    注:若采集结果有问题,修改“列表链接设置”、“正文内容设置”中的起始、终止代码,多试几次,就可得出所要的内容了,有的页面可能无法采集,不同所有的页面都可以采集的。

三、采集项目管理

    现在就可以开始采集了,点击右边的采集按钮,进行单个采集,或者勾选几个要采集的项目,点击“批量采集”按钮。建议上面设置项中不要勾选“立即入库”,担心采集有异常,这样采集结束后,采集内容将在【采集结果】页面中显示,检查没问题后,再点击入库,最后到前台检查下数据,这样整个采集过程就完成了。
 

 


相关评论
老鹰柯林斯违反禁药规定被禁赛25场!本季第3人
曝皇马输球齐达内恐将下课 穆帅阿莱格里顶替他
合体后全胜!6战打服所有对手,颤抖吧全联盟
哈登vs科比谁更强?11项打分哈登只赢了2分半
足总杯-博格巴传射 埃雷拉破门 曼联2-0胜切尔西
欧冠-莱比锡补时2球绝平出线 里昂0-2客负泽尼特
韦德维护詹姆斯!27+8+8都不行那99%的人不活了
双枪51分泡椒32分空砍 开拓者胜雷霆3-1拿赛点
FIFA19为武磊推出新球星卡!总评75分 速度87分
大雷单场4扑单刀封神 特谢拉问号脸蒙了:what?
曝汤神今夏不会和湖人会面!说好的大鱼又飞1个
湖人差点被哨坑死!挑战了都没改判,这球哪犯规
叙位以待!一图get国足战叙利亚的那些事
熊猫杯-新星帽子戏法 U18国青0-3韩国三连败垫底
玩砸了!里皮选择被质疑 国足到底归化几个才能行
多位球星真实身高曝光:詹杜长高 汤神竟才196
别说武磊让你失望了 亮眼和不进球就是他的常态
1.2亿!曝皇马终于搞定阿扎尔 转会费协议达成
两场三分10中0!郭少被打爆 杨鸣都看不下去了
国米射手确认:要听孔蒂的 在家和老婆要悠着点