火车头采集时(采网址--重复网址的临时解决方法)
大家好,今天小悦来为大家解答以上问题。火车头采集时,采网址--重复网址的临时解决方法很多人还不知道,现在让我们一起来看看吧!
商业版用户的采集后的网址都存储在 PageUrl 目录里面的,一个任务对应一个db3.大家可以从最上面的任务往下数第一个,对应的就是Site_*.db3.这样大家可以先备份一下,然后清空也不怕了,到时候直接还原用户名既可以,如果怕出错,全部保存,一会恢复即可。
如图:
如果想更进一步的查看,这个db3其实就是sqlite数据库格式的文件,可以用db3数据库编辑器 查看修改。根据jobid查看,有朋友问不知道jobid怎么办,呵呵,大家可以到 Data 目录查看 3-新浪国内新闻 后面的新浪国内新闻就是你自定义的网站栏目名称。这个跟jobid对应上即可。
如图:
最后大家备份好数据库以后就可以(需要备份在 PageUrl 与 Data目录的你的任务名对应的文件夹,最好是全部以防万一,采集完就可以覆盖下。)
后来从网站也看到了如下文件,跟我的这篇大同小异。大家可以参考下。
火车头是一个不错的采集软件,“盗亦有道”,看你如何利用了。
Linker以前也偶尔研究下火车头采集软件,只是一直没有购买商业版本,想想,现在的版本远没有以前的1.x和2.x版本来得爽快。
一位兄弟,昨晚说他的火车头采集软件(企业版本的哦,有钱人!),总是提示任务地址库重复,研究了下,比较简单,告诉了他处理的方法,另外,经过搜索发现,火车头的3.0 sp1版本有过这个bug,清除不掉任务地址库,但管理员已经在sp2版本中解决掉这个问题了。
后来这位朋友又问火车头采集软件的任务地址库是哪个文件?怎么样保存任务地址库?怎么样手动清理任务地址库文件?据Linker所知,编辑任务地址库,需要是商业版本了,如果想手动来处理,可以发现,手动地址库文件是在火车头根目录下的pageurl目录中,每一个任务对应一个地址库文件,mdb格式的,打开可以发现,具体地址是被加密了。火车头也有些太商业了,嘿嘿!
既然知道任务地址库的位置和文件了,手动清理任务地址库,自然就简单了。删除让火车头重复(删除后,编辑该任务,再保存),或者直接删除该库里面的记录,都可以。想另存为其他任务所用,重命令为其它任务的id就行了。
简单测试通过。 原创文章。
本文到此结束,希望对大家有所帮助。
标签: 火车头采集时 采网址--重复网址的临时解决方法
Tags:
相关推荐
- 湖北三江航天建筑工程有限公司以 60925996.99 元中标红林总装厂房二期工程
- 江西省天久地矿建设集团有限公司中标龙里县城区排涝工程勘测
- 北京中和联信供应链管理有限公司中标山地农业科技创新基地植物表型研究设备采购及伴随服务(重新招标)项目,中标金额 7764000 元
- 霸州市佳理鑫五金制品厂中标新乐市第三中学采购项目
- 河北泽辉市政工程有限公司等为路南区乡村振兴环境综合治理项目(一期)一标段工程总承包(EPC)(二次)中标候选人
- 河北石府建设工程有限公司10110736.93元中标高铁片区景观提升项目施工三标段
- 中基恒源建设有限公司中标高铁片区(含新华商业广场)景观提升项目施工五标段,中标价 13430852.95 元
- 九芝堂换帅完成工商变更
- 山西建设投资集团有限公司为大宁县水果供应链基地运营配套建设项目施工(二次)第一中标候选人
- 浙江宁慈建设工程有限公司以97028327元中标慈溪市城市生活垃圾收转运一体化建设项目(一期)