当前位置: 首页 > 知识库问答 >
问题:

如何解决段:爬网/段/*错误

颛孙玉石
2023-03-14

在点击此链接时,我收到此错误,但无法弄清楚它 http://wiki.apache.org/nutch/NutchTutorial

runtime/local$bin/nutch parse$s1 ParseSegment:开始于2013-10-11 17:43:36 ParseSemment:segment:craw/segments/20131011173126线程“main”java.io.IOException:段已解析!位于org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:975),位于java.security.AccessController.doPrivileged(Native Method),javax.security.auth.Subject.doAs(Subject.java:415),org.apacher.hadoop.mapred.JobClient$2.run(JobClient.jawa:936)(UserGroupInformation.java:1190)位于org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936),位于org.aapache.hadoop.mapred.Job Client.subitJob(Job客户端.java:910),位于.org.apache.ahadoop.mapred.JobClient.runJob(JobClient.jawa:1353),位于org.apache.nutch.parse.ParseSegment.parse java:247),位于org.apache.nutch.parse.ParseSegment.main(ParseSeggment.java:220)上的org.apacher.hadoop.util.ToolRunner.run(ToolRunner.java:65)

共有1个答案

张砚
2023-03-14

当您想要解析已解析的段时,将发生这种情况。请注意,如果使用“crawl”命令,它还会解析段。

如果您真的想再次解析,只需删除段内的craw_parse目录(即craw/segments/20131011173126/craw_parse),然后再次发出解析命令。

 类似资料:
  • 1. 明确反反爬的主要思路 反反爬的主要思路就是:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie,代码中也可以这样去实现。 很多时候,爬虫中携带的headers字段,cookie字段,url参数,post的参数很多,不清楚哪些有用,哪些没用的情况下,只能够去尝试,因为每个网站都是不相同

  • 本文向大家介绍python3制作捧腹网段子页爬虫,包括了python3制作捧腹网段子页爬虫的使用技巧和注意事项,需要的朋友参考一下 0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程。第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便。于是乎就自己照猫画虎,抓了点图片。 科技启迪未来,身为一个程序员,怎么能干这种事呢,还是爬

  • 任务:Ajax爬取今日头条的街拍美图 爬取url地址:https://www.toutiao.com/search_content/ 分析: 分析url地址:https://www.toutiao.com/search_content/? 每页20条数据,Ajax加载数据 需要提交参数: params = { 'offset': offset, #页码数据

  • 顺便说一下,我搜索了一下这种情况,我认为我没有使用数组索引或者错误地使用了错误的指针。另外,我在这里看到了同样的问题,但我想知道为什么代码不能工作,然后自己解决这个问题。非常感谢大家的帮助。

  • 问题内容: 以下段错误消息的正确解释是什么? 问题答案: 这是一个段错误,原因是跟随空指针试图查找要运行的代码(即在指令提取期间)。 如果这是一个程序,而不是共享库 运行(并重复给定的其他指令指针值)以查看错误发生的位置。更好的方法是,获得一个带有调试工具的内部版本,并在诸如gdb之类的调试器下重现该问题。 由于是共享库 不幸的是,您被水淹了。事后无法知道动态链接程序将库放置在内存中的位置。重现该

  • 问题内容: 我正在学习Java。我编写了以下代码,但是当我尝试输入时,我在Arrayfunction()中收到此错误“无法对非静态输入字段进行静态引用”。为什么会这样,我该如何解决? } 问题答案: 扫描仪未定义为静态,因此在错误的范围内 在内部创建Scanner实例, 或使用以下方法创建扫描仪