当前位置：首页 > 面试题库 >

从网页中提取链接

韦正业

2023-03-14

问题内容：

使用Java，如何从给定的网页中提取所有链接？

问题答案：

将Java文件下载为纯文本/ html格式，并通过Jsoup或 html clean传递，两者相似，甚至可以用于解析格式错误的html 4.0语法，然后可以使用流行的HTML
DOM解析方法，例如getElementsByName（“ a”）或在jsoup中它甚至很酷，您只需使用

File input = new File("/tmp/input.html");
 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Elements links = doc.select("a[href]"); // a with href
Elements pngs = doc.select("img[src$=.png]");
// img with src ending .png

Element masthead = doc.select("div.masthead").first();

并找到所有链接，然后使用

String linkhref=links.attr("href");

取自http://jsoup.org/cookbook/extracting-data/selector-
syntax

选择器具有与jQuery您知道jQuery函数链相同的语法，那么您一定会喜欢它。

编辑：如果您想要更多的教程，您可以尝试一下由mkyong制作的教程。

http://www.mkyong.com/java/jsoup-html-parser-hello-world-
examples/

类似资料：

如何从网页中提取文本？

我有一个Excel工作表，其中一栏填充了专利号。我需要提取每个相应专利的标题，并将其放在专利号旁边的单元格中。因此，代码应执行以下操作：访问espacenet.com并打开需要名称的专利号。获取标题。将其放在所需单元格的Excel工作表中。这是一个完美适用于第一个专利号的代码，但在这之后会立即出现错误。错误显示：“运行时错误'-2147417848（80010108）'：自动化错误调用的
如何从网页中提取文本内容？

问题内容：我正在用Java开发一个应用程序，该应用程序可以从不同的网页获取文本信息并将其汇总为一页。例如，假设我在不同的网页（例如印度教，印度时报，政治家等）上都有新闻。该应用程序应该从这些页面的每个页面中提取要点，并将它们整合为一条新闻。该应用程序基于Web内容挖掘的概念。作为该领域的初学者，我不知道从哪里开始我浏览了一些研究论文，这些论文将消除噪声作为构建此应用程序的第一步。因此，如果给我
如何从.html页面提取链接和标题？

问题内容：对于我的网站，我想添加一个新功能。我希望用户能够上传他的书签备份文件（如果可能的话，可以从任何浏览器上传），这样我就可以将其上传到他们的个人资料，而他们不必手动插入所有文件… 我唯一缺少的是从上传文件中提取标题和URL的部分。任何人都可以提供从哪里开始或在哪里阅读的线索？使用的搜索选项和如何从原始HTML文件提取数据？这是与我最相关的问题，因此不再赘述。我真的不介意它是否使用jq
C#提取网页中超链接link和text部分的方法

本文向大家介绍C#提取网页中超链接link和text部分的方法，包括了C#提取网页中超链接link和text部分的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了C#提取网页中超链接link和text部分的方法。分享给大家供大家参考，具体如下：更多关于C#相关内容感兴趣的读者可查看本站专题：《C#正则表达式用法总结》及《C#字符串操作技巧总结》希望本文所述对大家C#程序设计有所帮助
使用Python从多个网页中提取日期

我想提取新闻文章在网站上发表的日期。对于某些网站，我有确切的html元素，其中日期/时间为（div，p，time），但在某些网站上，我没有：以下是一些网站（德国网站）的链接：（2020年11月3日）http://www.linden.ch/de/aktuelles/aktuellesinformationen/?action=showinfo （2020年12月1日）http://www.re
使用python LXML从html网页中提取信息

我正在尝试制作一个python脚本，用我所拥有的有限知识从一个网页中刮取特定的信息。但我想我有限的知识是不够的。我需要提取7-8条信息。标签如下- 1 我已使用此代码开始

相关阅读

如何从嵌入在网页中的Tableau图形中提取工具提示值使用python和BeautifulSoup从网页检索链接通过网页抓取提取JavaScript变量值 php获取网页上所有链接的方法如何在Java中提取网页文本内容？

相关文章

Bootstrap 创建一个网页 Bootstrap4 创建一个网页网易雷火区块链一面 Scala 提取器(Extractor)Linux提取RPM包

相关问答

使用JSoup for Java从网页中提取特定行 Python网页抓取/数据提取使用CSS选择器从网页中提取数据-Selenium Python JSOUP-从Google获取页面和链接 Jsoup从页面获取所有链接

相关工具

获取网页的所有图片点击查看网页中图片半月笔记网页版解析html网页的数据飞岩走壁网页游戏

相关文档

网页安全配色手册 MOAC 链中文文档 MIP 移动网页加速器开发文档 HPB 区块链中文 WIKI 文档 ThinkSNS Plus 官网中文文档