今日最新:王志军:志愿军遗骸回家,历史将记住这一天网络反腐5年39个案例梳理:3成落马官员涉性丑闻空姐发帖称在宾馆遭领导潜规则 厦航否认(图)美国退役军官涉嫌为俄提供情报可能监禁终身英国大法官与男妓有染被迫辞职(图)让孩子成为“纯洁而神圣”的存在环球时报:中国经济崩溃论腆着脸唱到今天环球时报:朝鲜“有核武器就有一切”是幻想纪念战胜法西斯70年 中俄合拍电影如何赢美国纽约时报称钓鱼岛纷争反映日本害怕中国崛起石原回应中国海监船巡航钓鱼岛:中国是不是疯了美国得克萨斯州已有46人死于西尼罗河病毒计生委专家澄清“捐精证”为假 自助捐精应杜绝缅北战乱,为什么是中国伐木工躺枪?王洪光:有必要建金门战役纪念碑联合国将妥为公布钓鱼岛领海基点基线坐标表秋缬滢:侧改革视阈下如何创新环境治理格局
  • WAP手机版 保存到桌面加入收藏设为首页
视频教程

网钛文章管理系统采集教程(视频)

时间:2011-11-09 23:14:10   作者:网钛工作室   来源:网钛工作室   阅读:59762   评论:190
内容摘要:一、设置采集模块    在后台点击【采集管理】,出现的是【新增采集模块】的内容,主要设置下载的大小和超时时间,以及给采集项目分类,便于查询,目前作用不是很大。 二、设置采集规则...

视频教程:




图文教程:

    其实采集可以这么理解,定义头和尾,除了在截取链接不需要检测,在其它地方你定义的头和尾,在同G个html表里不能有相同的,为什么不能有相同的呢?是因为采集的每一步(除了截取链接外)都是根据你所定义的头和尾来截取页面内容的。所以你在定义头和尾不仅不能有相同的,还要尽可能地把不需要的内容排除开。如果你理解了这个定义头和尾,基本上对于简单的页面是能采集的。G面我以一个实例来说明一下:


一、设置采集模块
    在后台点击【采集管理】,出现的是【新增采集模块】的内容,主要设置下载的大小和超时时间,以及给采集项目分类,便于查询,目前作用不是很大。
 


 

 二、设置采集规则
1、点击【新增采集项目】,进入采集项目的第一步,我们以采集SOHU的国内IT信息为例,如图设置:

   1)项目名称:给采集项目命名
   2)所属模块:采集数据入库后,放入哪个栏目
   3)目标页面编码:国内的网站选择GB2312,国外网站选择UTF-8,台湾的繁体字网站选择BIG5;
   4)采集网址URL:就是要采集的列表页面,这一步很关键,这一步关系到你能否采集完所有内容。一般你进入采集页面先判断一下是不是有多页,如果有多页你进入第二页和第一页是不是有规律变化,比如是:xxxx_1.htm,xxx_2.htm,特别注意数字,如果第一页开始就有_id的规律,那就把第一页作为列表网址,如果第一页与第二页没相关规律,而是从第二页开始才能这样的规律,那将第二页作为列表网址,第一页放到一边,等所有数据采集完了,再来采集单独页面,反正以后也只采集第一页,为啥?因为一般更新的都在第一页。
   5)分页/多页采集设置:若只采集一个页面,选择“不作设置”,采集多页面,可选择其他3项;
   6)采集属性:“立即入库”指一采集就在前台显示,建议此项不要选择,没选择此项,采集结果将进入【采集结果】页面, 后再入库;“保存远程图片”指把图片保存到本地;“倒序采集”指采集结果的排序顺序,打勾它,采集记录顺序和采集列表页一致。
   7)状态:指入库后文章的状态,即文章在前台是显示,还是隐藏;
   8)其它设置项 是按字面的意思,一般默认设置就行,就不详细说了
 


2、列表链接设置
   1)打开采集页面,如http://it.sohu.com/itguonei.shtml
 

鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的列表,如下图, 
 

 

找出“列表开始代码”、“列表结束代码”、“链接开始代码”、“链接结束代码”,最后两项一般默认就行,然后点击“下一步”。
 


 

3、正文内容设置

    打开列表页中的一个内容页,如http://it.sohu.com/20101104/n277154569.shtml,鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的“标题开始代码”、“标题结束代码”、“正文开始代码”、“正文结束代码”,其他几个设置项视需要而定,可默认,然后点击“下一步”。
 


 

4、正文内容采集效果

 
      点击“点击查看正文内容采集效果”,出现如下页面,那采集结果正常。
 

 
点击“完成”后,会跳转到【采集项目管理】页面

    注:若采集结果有问题,修改“列表链接设置”、“正文内容设置”中的起始、终止代码,多试几次,就可得出所要的内容了,有的页面可能无法采集,不同所有的页面都可以采集的。

三、采集项目管理

    现在就可以开始采集了,点击右边的采集按钮,进行单个采集,或者勾选几个要采集的项目,点击“批量采集”按钮。建议上面设置项中不要勾选“立即入库”,担心采集有异常,这样采集结束后,采集内容将在【采集结果】页面中显示,检查没问题后,再点击入库,最后到前台检查下数据,这样整个采集过程就完成了。
 

 


相关评论
美国西尼罗病毒疫情已感染1993人致死87人
甘肃野外放归21匹普氏野马和2峰野骆驼
视频:陈水扁“终统” 马英九支持罢免反制
美媒:2024年印度将超中国成世界人口第一大国
网络反腐官方正走向台前 民间反腐或式微
菲媒称中国正在美济礁扩建设施
王宏当选陕西宝鸡市长 姚引良任人大常委会主任
美称中日若在钓鱼岛发生意外将协助日本防卫
社会抚养费疑遭计生部门挪用 15名学者建议废除
灾后重建将对少数民族特色建筑物实施原址保护
王朝才等:PPP推进中面临的难点及相关建议
监察部长:刘志军案进入司法程序还需时间
美官员称叙利亚政府已做好使用化学武器准备
秘鲁发生爆竹引爆油罐事件致4死17伤
空军首批女战斗机飞行员精彩亮相
西安世园会大事记
环球时报:睡狮醒了,世界比中国人先感知
美国否认立即承认叙利亚反对联盟
菲裔团体打压海外中企以影响中国处理南海问题
胡锦涛就美国东部遭飓风灾害向奥巴马致慰问电