当前位置：首页 > 面试题库 >

如何从网页中提取文本内容？

孙朗

2023-03-14

问题内容：

我正在用Java开发一个应用程序，该应用程序可以从不同的网页获取文本信息并将其汇总为一页。例如，假设我在不同的网页（例如印度教，印度时报，政治家等）上都有新闻。该应用程序应该从这些页面的每个页面中提取要点，并将它们整合为一条新闻。该应用程序基于Web内容挖掘的概念。作为该领域的初学者，我不知道从哪里开始我浏览了一些研究论文，这些论文将消除噪声作为构建此应用程序的第一步。

因此，如果给我一个新闻网页，第一步就是从该页面中提取主要新闻，不包括超链接，广告，无用图像等。我的问题是我该怎么做？请给我一些好的教程来解释使用Web内容挖掘的这种应用程序的实现。或者至少给我一些如何完成它的提示？

问题答案：

您可以使用可读性或boilerpipe，这是两个开源工具。对于教程，您应该阅读这两个项目的代码和文档。

类似资料：

如何从网页中提取文本？

我有一个Excel工作表，其中一栏填充了专利号。我需要提取每个相应专利的标题，并将其放在专利号旁边的单元格中。因此，代码应执行以下操作：访问espacenet.com并打开需要名称的专利号。获取标题。将其放在所需单元格的Excel工作表中。这是一个完美适用于第一个专利号的代码，但在这之后会立即出现错误。错误显示：“运行时错误'-2147417848（80010108）'：自动化错误调用的
如何在Java中提取网页文本内容？

问题内容：我正在寻找一种使用jdk或其他库从网页（最初为html）提取文本的方法。请帮忙谢谢问题答案：尽可能使用HTML解析器；Java有很多可用的。或者您可以像许多人一样使用正则表达式。但是，通常不建议这样做，除非您进行的处理非常简单。相关问题 Java HTML解析哪种HTML解析器最好？任何好的Java HTML解析器？文字提取：从HTML Java提取文本标签剥离：
如何仅从HTML页面提取主要文本内容？

问题内容：更新资料 Boilerpipe看起来确实工作得很好，但是我意识到我并不需要主要内容，因为许多页面上没有文章，而只是带有简短描述的链接到整个文本（这在新闻门户网站中很常见），并且我不想丢弃这些短裤文字。因此，如果API执行此操作，请获取不同的文本部分/以某种方式将每个部分分开的块，这些块与单个文本不同（仅在一个文本中没有用），请报告。问题我从随机站点下载了一些页面，现在我想分析页面
如何从PDF文件中提取文本？

问题内容：我正在尝试使用提取此 PDF文件中包含的文本。我正在使用PyPDF2模块，并具有以下脚本：运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：如何提取PDF文档中的文本？问题答案：要从PDF提取文本，请使用以下代码
如何从PDF文档中提取文本？

问题内容：如何使用PHP 从PDF文档中提取文本？（我不能使用其他工具，我没有root用户访问权限）我发现一些函数可用于纯文本，但是它们不能很好地处理Unicode字符： http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf- data-extraction-437.html 问题答案：下载 c
从网页中提取链接

问题内容：使用Java，如何从给定的网页中提取所有链接？问题答案：将Java文件下载为纯文本/ html格式，并通过Jsoup或 html clean传递，两者相似，甚至可以用于解析格式错误的html 4.0语法，然后可以使用流行的HTML DOM解析方法，例如getElementsByName（“ a”）或在jsoup中它甚至很酷，您只需使用并找到所有链接，然后使用取自http://j

相关阅读

从网页中提取链接从文本中提取JSON Jsoup：从锚标记中提取内部文本从网页获取文本到字符串如何从PDF文件提取文本和文本坐标？

相关文章

Jsoup 获取文本网页构成 Selenium WebDriver滚动网页审查网页元素 C++ getline()：从文件中读取一行字符串

相关问答

从大文件中提取文本如何在Python 3.7中从pdf中提取文本[duplicate]如何使用NLTK[复制]从文本中提取引文如何从中提取文件。obb文件？如何使用pdfbox从pdf中提取粗体文本？

相关工具

获取网页的所有图片点击查看网页中图片半月笔记网页版 Marlin 中文版本 LCD 解析html网页的数据

相关文档

MIP 移动网页加速器开发文档 ThinkSNS Plus 官网中文文档网页安全配色手册 Python 取证中文教程网络基本功系列