当前位置: 首页 > 面试题库 >

如何在Java中提取网页文本内容?

鄢承运
2023-03-14
问题内容

我正在寻找一种使用jdk或其他库从网页(最初为html)提取文本的方法。请帮忙

谢谢


问题答案:

尽可能使用HTML解析器;Java有很多可用的。

或者您可以像许多人一样使用正则表达式。但是,通常不建议这样做,除非您进行的处理非常简单。

相关问题

  • Java HTML解析
  • 哪种HTML解析器最好?
  • 任何好的Java HTML解析器?

文字提取:

  • 从HTML Java提取文本

标签剥离:

  • 在Java中剥离HTML标签
  • 从Java字符串中删除HTML


 类似资料:
  • 问题内容: 我正在用Java开发一个应用程序,该应用程序可以从不同的网页获取文本信息并将其汇总为一页。例如,假设我在不同的网页(例如印度教,印度时报,政治家等)上都有新闻。该应用程序应该从这些页面的每个页面中提取要点,并将它们整合为一条新闻。该应用程序基于Web内容挖掘的概念。作为该领域的初学者,我不知道从哪里开始我浏览了一些研究论文,这些论文将消除噪声作为构建此应用程序的第一步。 因此,如果给我

  • 我有一个Excel工作表,其中一栏填充了专利号。我需要提取每个相应专利的标题,并将其放在专利号旁边的单元格中。因此,代码应执行以下操作: 访问espacenet.com并打开需要名称的专利号。 获取标题。 将其放在所需单元格的Excel工作表中。 这是一个完美适用于第一个专利号的代码,但在这之后会立即出现错误。错误显示:“运行时错误'-2147417848(80010108)': 自动化错误调用的

  • 问题内容: 更新资料 Boilerpipe看起来确实工作得很好,但是我意识到我并不需要主要内容,因为许多页面上没有文章,而只是带有简短描述的链接到整个文本(这在新闻门户网站中很常见),并且我不想丢弃这些短裤文字。 因此,如果API执行此操作,请获取不同的文本部分/以某种方式将每个部分分开的块,这些块与单个文本不同(仅在一个文本中没有用),请报告。 问题 我从随机站点下载了一些页面,现在我想分析页面

  • 问题内容: 在Linux中,如何获取URL并在shell脚本的变量中获取其内容? 问题答案: 您可以使用命令下载页面并将其读取为变量,如下所示: 我们使用的选项允许我们指定将页面内容转储到的文件的名称。我们指定将转储放入标准输出并将其收集到变量中。您可以添加安静选项以关闭wget输出。 您还可以为此使用curl命令: 我们需要使用该选项,因为我们请求的页面可能已经移动。在这种情况下,我们需要从新位

  • 我有一个带有注释元素的xsd,这些元素又包含appinfo元素。我正在使用appinfo元素传递一些有关架构的自定义信息,并且在遍历元素时需要提取appinfo的内容。 xsd中的代码段。 这是我用来从注释中提取应用程序信息的代码。 但我得到一个空值。obj。但是,toString()返回 如何从appinfo获取内容“EntityReference”?我是否应该编写一个自定义处理程序来解析字符串