今日最新:半神真理老司机!三巨星NBA生涯首秀20周年纪念中国奥运帆船大奖赛暨东京奥运会帆板测试赛开赛下限之后还有下限 绝望!今夜五棵松没有奇迹最令人敬佩的韩国人!孙兴慜=亚洲荣耀+超级英雄常规赛MVP最新榜单:易建联居首 郭少周琦入围10中1!甚至不如非洲兄弟 一夏天的三分白练了英超-阿圭罗进球萨内绝杀 曼城2-1送利物浦首负争议!利物浦遭炮轰:直接给他们冠军吧 裁判保送勇士火箭G1裁判居然是杜兰特球迷?有图有真相津媒:恒大给卡帅的5年合同成包袱 连球员都猜不透曝比斯利签约广东男篮 合同仅2个月薪水天价丁俊晖逆转赵心童过首轮关 国锦赛次轮战肖国栋胡金秋34+16福特森33+9+15 广厦艰难胜浙江1-1截止日交易第一枪!火箭送顶走甜瓜之人去费城暂登榜首!国安超越恒大上港 争冠火光又亮了起来?英媒看衰穆里尼奥:他早就过时了 没钱花他赢不了帝都男子10元中福彩3075万 店主却替他惋惜-图
  • WAP手机版保存到桌面加入收藏设为首页
视频教程

网钛文章管理系统采集教程(视频)

时间:2011-11-09 23:14:10   作者:网钛工作室   来源:网钛工作室   阅读:60460   评论:192
内容摘要:一、设置采集模块    在后台点击【采集管理】,出现的是【新增采集模块】的内容,主要设置下载的大小和超时时间,以及给采集项目分类,便于查询,目前作用不是很大。 二、设置采集规则...

视频教程:




图文教程:

    其实采集可以这么理解,定义头和尾,除了在截取链接不需要检测,在其它地方你定义的头和尾,在同G个html表里不能有相同的,为什么不能有相同的呢?是因为采集的每一步(除了截取链接外)都是根据你所定义的头和尾来截取页面内容的。所以你在定义头和尾不仅不能有相同的,还要尽可能地把不需要的内容排除开。如果你理解了这个定义头和尾,基本上对于简单的页面是能采集的。G面我以一个实例来说明一下:


一、设置采集模块
    在后台点击【采集管理】,出现的是【新增采集模块】的内容,主要设置下载的大小和超时时间,以及给采集项目分类,便于查询,目前作用不是很大。
 


 

 二、设置采集规则
1、点击【新增采集项目】,进入采集项目的第一步,我们以采集SOHU的国内IT信息为例,如图设置:

   1)项目名称:给采集项目命名
   2)所属模块:采集数据入库后,放入哪个栏目
   3)目标页面编码:国内的网站选择GB2312,国外网站选择UTF-8,台湾的繁体字网站选择BIG5;
   4)采集网址URL:就是要采集的列表页面,这一步很关键,这一步关系到你能否采集完所有内容。一般你进入采集页面先判断一下是不是有多页,如果有多页你进入第二页和第一页是不是有规律变化,比如是:xxxx_1.htm,xxx_2.htm,特别注意数字,如果第一页开始就有_id的规律,那就把第一页作为列表网址,如果第一页与第二页没相关规律,而是从第二页开始才能这样的规律,那将第二页作为列表网址,第一页放到一边,等所有数据采集完了,再来采集单独页面,反正以后也只采集第一页,为啥?因为一般更新的都在第一页。
   5)分页/多页采集设置:若只采集一个页面,选择“不作设置”,采集多页面,可选择其他3项;
   6)采集属性:“立即入库”指一采集就在前台显示,建议此项不要选择,没选择此项,采集结果将进入【采集结果】页面, 后再入库;“保存远程图片”指把图片保存到本地;“倒序采集”指采集结果的排序顺序,打勾它,采集记录顺序和采集列表页一致。
   7)状态:指入库后文章的状态,即文章在前台是显示,还是隐藏;
   8)其它设置项 是按字面的意思,一般默认设置就行,就不详细说了
 


2、列表链接设置
   1)打开采集页面,如http://it.sohu.com/itguonei.shtml
 

鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的列表,如下图, 
 

 

找出“列表开始代码”、“列表结束代码”、“链接开始代码”、“链接结束代码”,最后两项一般默认就行,然后点击“下一步”。
 


 

3、正文内容设置

    打开列表页中的一个内容页,如http://it.sohu.com/20101104/n277154569.shtml,鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的“标题开始代码”、“标题结束代码”、“正文开始代码”、“正文结束代码”,其他几个设置项视需要而定,可默认,然后点击“下一步”。
 


 

4、正文内容采集效果

 
      点击“点击查看正文内容采集效果”,出现如下页面,那采集结果正常。
 

 
点击“完成”后,会跳转到【采集项目管理】页面

    注:若采集结果有问题,修改“列表链接设置”、“正文内容设置”中的起始、终止代码,多试几次,就可得出所要的内容了,有的页面可能无法采集,不同所有的页面都可以采集的。

三、采集项目管理

    现在就可以开始采集了,点击右边的采集按钮,进行单个采集,或者勾选几个要采集的项目,点击“批量采集”按钮。建议上面设置项中不要勾选“立即入库”,担心采集有异常,这样采集结束后,采集内容将在【采集结果】页面中显示,检查没问题后,再点击入库,最后到前台检查下数据,这样整个采集过程就完成了。
 

 


相关评论
曝尤文酿地震交易!买姆巴佩搭档C罗 送1帝星离队
小卡盖帽绝杀!卡泡首度合体快船加时胜绿军
最高罚款1000万!NBA全票通过重罚违规招募新规
英媒:阿森纳敲定新帅第一候选 英超奇迹主帅大热
灵性!武磊立足西甲的杀手锏 靠这个赢得主帅信任
曝巴萨已放弃1.2亿强挖格列兹曼 因这4点不买他
U19国青确定无缘2020年亚青赛 时隔26年缺席正赛
莫雷不愧NBA首席操盘手!火箭一笔交易省2190万
自由市场最大牌加盟西部第四 湖人火箭又陪跑
不能忍!韩国球员赢中国后脚踩奖杯+做撒尿动作
曝巴萨已放弃1.2亿强挖格列兹曼 因这4点不买他
秋冬季跑步该怎么穿?遵循这个原则就对了
佩雷拉:输掉天王山让上港情绪不佳 这就是足球
浓眉赛后被邀请进鹈鹕更衣室!见到锡安还拥抱
0中卫神阵!瓜帅无招胜有招 他要填曼城最大漏洞
欧冠-铁闸救主 悍腰伤退 利物浦平那不勒斯仍领跑
詹姆斯33分绝杀被盖 尼克斯双杀湖人结束8连败
卡纳瓦罗要学的企业文化是什么?看这9个关键词
足球报:足协获50个入籍名额 明年外援政策注6上4
英格拉姆承认在湖人过得不快乐 甚至患上抑郁