当前位置：首页 > 面试题库 >

如何在Java中提取网页文本内容？

鄢承运

2023-03-14

问题内容：

我正在寻找一种使用jdk或其他库从网页（最初为html）提取文本的方法。请帮忙

谢谢

问题答案：

尽可能使用HTML解析器；Java有很多可用的。

或者您可以像许多人一样使用正则表达式。但是，通常不建议这样做，除非您进行的处理非常简单。

相关问题

Java HTML解析
哪种HTML解析器最好？
任何好的Java HTML解析器？

文字提取：

从HTML Java提取文本

标签剥离：

在Java中剥离HTML标签
从Java字符串中删除HTML

类似资料：

如何从网页中提取文本内容？

问题内容：我正在用Java开发一个应用程序，该应用程序可以从不同的网页获取文本信息并将其汇总为一页。例如，假设我在不同的网页（例如印度教，印度时报，政治家等）上都有新闻。该应用程序应该从这些页面的每个页面中提取要点，并将它们整合为一条新闻。该应用程序基于Web内容挖掘的概念。作为该领域的初学者，我不知道从哪里开始我浏览了一些研究论文，这些论文将消除噪声作为构建此应用程序的第一步。因此，如果给我
如何从网页中提取文本？

我有一个Excel工作表，其中一栏填充了专利号。我需要提取每个相应专利的标题，并将其放在专利号旁边的单元格中。因此，代码应执行以下操作：访问espacenet.com并打开需要名称的专利号。获取标题。将其放在所需单元格的Excel工作表中。这是一个完美适用于第一个专利号的代码，但在这之后会立即出现错误。错误显示：“运行时错误'-2147417848（80010108）'：自动化错误调用的
如何仅从HTML页面提取主要文本内容？

问题内容：更新资料 Boilerpipe看起来确实工作得很好，但是我意识到我并不需要主要内容，因为许多页面上没有文章，而只是带有简短描述的链接到整个文本（这在新闻门户网站中很常见），并且我不想丢弃这些短裤文字。因此，如果API执行此操作，请获取不同的文本部分/以某种方式将每个部分分开的块，这些块与单个文本不同（仅在一个文本中没有用），请报告。问题我从随机站点下载了一些页面，现在我想分析页面
如何在shell变量中获取网页的内容？

问题内容：在Linux中，如何获取URL并在shell脚本的变量中获取其内容？问题答案：您可以使用命令下载页面并将其读取为变量，如下所示：我们使用的选项允许我们指定将页面内容转储到的文件的名称。我们指定将转储放入标准输出并将其收集到变量中。您可以添加安静选项以关闭wget输出。您还可以为此使用curl命令：我们需要使用该选项，因为我们请求的页面可能已经移动。在这种情况下，我们需要从新位
提取jms文本内容
如何在java中从xsd appinfo元素中提取内容

我有一个带有注释元素的xsd，这些元素又包含appinfo元素。我正在使用appinfo元素传递一些有关架构的自定义信息，并且在遍历元素时需要提取appinfo的内容。 xsd中的代码段。这是我用来从注释中提取应用程序信息的代码。但我得到一个空值。obj。但是，toString（）返回如何从appinfo获取内容“EntityReference”？我是否应该编写一个自定义处理程序来解析字符串

如何在Java中提取网页文本内容？

相关问题

相关阅读

相关文章

相关问答

相关工具

相关文档