当前位置: 首页 > 编程笔记 >

1分钟快速生成用于网页内容提取的xslt

淳于知
2023-03-14
本文向大家介绍1分钟快速生成用于网页内容提取的xslt,包括了1分钟快速生成用于网页内容提取的xslt的使用技巧和注意事项,需要的朋友参考一下

1分钟快速生成用于网页内容提取的xslt,具体内容如下

1、项目背景

在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。

网友必然会质疑:这个xslt这么长,编写不是要花很长时间?

实际情况是,这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的,熟练的话1分钟就搞定了。

2、MS谋数台能做什么

MS谋数台有个图形化界面,把一系列html解析工具集成在一起,包括:

  • 基于直观标注自动生成XSLT
  • 即时测试XSLT的正确性
  • 树状的DOM结构展示
  • 剖析某个DOM节点的属性
  • 为DOM节点生成XPath,可选择定位到class、或者id、或者绝对定位
  • 根据xpath搜索DOM节点

MS谋数台界面分成三部分:DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

3、用MS谋数台生成XSLT

假设我们要抓取论坛帖子列表,下面一步步讲解操作方法:
第一步,打开GooSeeker的MS谋数台,输入要抓取的网址
第二步,在MS谋数台的浏览器显示窗口里,直接选取要提取的内容,并且起个名字,点击确认

第三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口显示出来

通过以上的操作,不用编程,用图形化界面直接在页面上标注,1分钟就可以生成xslt

4、怎样使用XSLT

在python使用xslt提取网页数据一文,我们把生成xslt作为一个字符串交给程序,给人感觉好像一下子回到了史前文明,前面讲的那么好,最后用了很原始的拷贝。其实不然,那个只是一个例子。在《python即时网络爬虫项目: 内容提取器的定义》一文已经初见端倪了,有多种注入xslt的方式,最自动化的方式是api,将在后续文章中详细讲解。

5、文档修改历史

2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增补文字说明

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持小牛知识库。

 类似资料:
  • 问题内容: 我遇到了一个小问题,让我从代码开始 这段代码给了我控制台的输出 test0 test3 test4 test1 test2 标签也将立即更新为“ test5”,但标签将更新为“ test6”大约需要30秒。 我不知道为什么要花这么长时间,有人知道吗? 问题答案: 在辅助线程中更新UI的常见问题: 由于URL任务是异步的,因此您的关闭显然不在主线程上运行。因此,更新闭包上的标签将必须等待

  • 本文档的目的是让您学习完成之后,能对 Jboot 有一个整体的了解,开始基于 Jboot 开发自己的应用程序。 本文档假设您已经具备了如下基本技能: Java 编程语言的使用 Maven 依赖管理的使用 Java 开发工具的使用 通过开发工具创建 Maven 项目 略 在 pom.xml 上添加 Jboot 依赖 <dependency> <groupId>io.jboot</groupI

  • 问题内容: 我正在使用Python 3.1,如果有帮助的话。 无论如何,我正在尝试获取此网页的内容。我用Google搜索了一下,尝试了不同的方法,但是它们没有用。我猜想这应该是一件容易的事,但是…我做不到。:/。 urllib,urllib2的结果: 谢谢杰森。:D。 问题答案: 由于您使用的是Python 3.1,因此需要使用新的Python 3.1 API 。 尝试: 或者,看起来您正在使用P

  • 在 Y 分钟内学习 X:风景优美的编程语言之旅,以不同的视角和教程方式,展现语言工具的特性,非常趣味性的学习教程。

  • 当前输出: 所需的输出是(将提取的内容从CDATA中取出): 我也尝试了“text()”匹配模式,但它不起作用,我阅读了不同的答案并尝试了它们的方法: 我需要使用XSLT1.0。 感谢您的帮助,并向您致意

  • 问题内容: 我正在用Java开发一个应用程序,该应用程序可以从不同的网页获取文本信息并将其汇总为一页。例如,假设我在不同的网页(例如印度教,印度时报,政治家等)上都有新闻。该应用程序应该从这些页面的每个页面中提取要点,并将它们整合为一条新闻。该应用程序基于Web内容挖掘的概念。作为该领域的初学者,我不知道从哪里开始我浏览了一些研究论文,这些论文将消除噪声作为构建此应用程序的第一步。 因此,如果给我