当前位置：首页 > 面试题库 >

如何从.html页面提取链接和标题？

董元徽

2023-03-14

问题内容：

对于我的网站，我想添加一个新功能。

我希望用户能够上传他的书签备份文件（如果可能的话，可以从任何浏览器上传），这样我就可以将其上传到他们的个人资料，而他们不必手动插入所有文件…

我唯一缺少的是从上传文件中提取标题和URL的部分。任何人都可以提供从哪里开始或在哪里阅读的线索？

使用的搜索选项和如何从原始HTML文件提取数据？这是与我最相关的问题，因此不再赘述。

我真的不介意它是否使用jquery或php

非常感谢你。

问题答案：

谢谢大家，我知道了！

最终代码：

$html = file_get_contents('bookmarks.html');
//Create a new DOM document
$dom = new DOMDocument;

//Parse the HTML. The @ is used to suppress any parsing errors
//that will be thrown if the $html string isn't valid XHTML.
@$dom->loadHTML($html);

//Get all links. You could also use any other tag name here,
//like 'img' or 'table', to extract other tags.
$links = $dom->getElementsByTagName('a');

//Iterate over the extracted links and display their URLs
foreach ($links as $link){
    //Extract and show the "href" attribute.
    echo $link->nodeValue;
    echo $link->getAttribute('href'), '<br>';
}

这将显示给您分配的 anchor 文本和 .html 文件中所有链接的 href 。 __

再次，非常感谢。

类似资料：

如何从Android中的HTML链接获取页面的HTML源？

问题内容：我正在开发一个需要从链接获取网页源，然后从该页面解析html的应用程序。您能给我一些例子，还是从哪里着手开始编写这样的应用程序？问题答案：您可以使用HttpClient执行HTTP GET并检索HTML响应，如下所示：
如何在Perl中从HTML提取URL和链接文本？

问题内容：我以前曾问过如何在Groovy中做到这一点。但是，由于所有CPAN库，现在我要在Perl中重写我的应用程序。如果页面包含以下链接：输出为：在Perl中执行此操作的最佳方法是什么？问题答案：请查看使用WWW :: Mechanize模块来实现此目的。它将为您获取您的网页，然后为您提供易于使用的URL列表。非常简单，如果您要导航到该页面上的其他URL，则更加简单。机械基本上是
从网页中提取链接

问题内容：使用Java，如何从给定的网页中提取所有链接？问题答案：将Java文件下载为纯文本/ html格式，并通过Jsoup或 html clean传递，两者相似，甚至可以用于解析格式错误的html 4.0语法，然后可以使用流行的HTML DOM解析方法，例如getElementsByName（“ a”）或在jsoup中它甚至很酷，您只需使用并找到所有链接，然后使用取自http://j
JSOUP-从Google获取页面和链接

我们会很感激你的帮助。
Jsoup 提取URL和链接标题

本文向大家介绍Jsoup 提取URL和链接标题，包括了Jsoup 提取URL和链接标题的使用技巧和注意事项，需要的朋友参考一下示例 Jsoup可用于轻松地从网页中提取所有链接。在这种情况下，我们可以使用Jsoup提取我们想要的特定链接，这里h3是页面标题中的链接。我们还可以获取链接的文本。这给出以下输出：这里发生了什么事：首先，我们从指定的URL获取HTML文档。此代码还将请求的用户代理标
如何从a href=“javascript:…”获取页面链接？

我正在用Python做网页抓取。我需要获得所有搜索结果页面的链接。但是，我发现href值不是一个常规的html链接，而是如下所示的内容。如何获得正确的页面链接？谢谢

相关阅读

如何使用php从HTML提取img src，标题和alt？如何仅从HTML页面提取主要文本内容？如何在HTML的新标签页中打开链接？如何使用Jsoup从相对HTML链接中提取绝对URL？如何使用JavaScript获取HTML页面的标题？

相关文章

🐧面完还是面试链接状态 CSS链接 JavaFX超链接 Jsoup 获取HTML 中移信息忘我发终面链接

相关问答

如何在HTML中打开新标签页中的链接？如何从隐藏的跨类HTML中刮取链接？Thymeleaf-如何从静态html页面调用模板html页面使用java和jsoup从html标记中提取值如何禁用HTML链接

相关工具

多线程页面抓取服务器解析html网页的数据 WP插件-拼音链接 JW Page factory 页面工厂获取网页的所有图片

相关文档

HTML 宝典 C 语言编码风格和标准 HTML Canvas Deep Dive HTML 基础教程 HTML 入门教程