当前位置: 首页 > 面试题库 >

如何从.html页面提取链接和标题?

董元徽
2023-03-14
问题内容

对于我的网站,我想添加一个新功能。

我希望用户能够上传他的书签备份文件(如果可能的话,可以从任何浏览器上传),这样我就可以将其上传到他们的个人资料,而他们不必手动插入所有文件…

我唯一缺少的是从上传文件中提取标题和URL的部分。任何人都可以提供从哪里开始或在哪里阅读的线索?

使用的搜索选项和如何从原始HTML文件提取数据?这是与我最相关的问题,因此不再赘述。

我真的不介意它是否使用jquery或php

非常感谢你。


问题答案:

谢谢大家,我知道了!

最终代码:

$html = file_get_contents('bookmarks.html');
//Create a new DOM document
$dom = new DOMDocument;

//Parse the HTML. The @ is used to suppress any parsing errors
//that will be thrown if the $html string isn't valid XHTML.
@$dom->loadHTML($html);

//Get all links. You could also use any other tag name here,
//like 'img' or 'table', to extract other tags.
$links = $dom->getElementsByTagName('a');

//Iterate over the extracted links and display their URLs
foreach ($links as $link){
    //Extract and show the "href" attribute.
    echo $link->nodeValue;
    echo $link->getAttribute('href'), '<br>';
}

这将显示给您分配的 anchor 文本和 .html 文件中所有链接的 href 。 __

再次,非常感谢。



 类似资料:
  • 问题内容: 我正在开发一个需要从链接获取网页源,然后从该页面解析html的应用程序。 您能给我一些例子,还是从哪里着手开始编写这样的应用程序? 问题答案: 您可以使用HttpClient执行HTTP GET并检索HTML响应,如下所示:

  • 问题内容: 我以前曾问过如何在Groovy中做到这一点。但是,由于所有CPAN库,现在我要在Perl中重写我的应用程序。 如果页面包含以下链接: 输出为: 在Perl中执行此操作的最佳方法是什么? 问题答案: 请查看使用WWW :: Mechanize模块来实现此目的。它将为您获取您的网页,然后为您提供易于使用的URL列表。 非常简单,如果您要导航到该页面上的其他URL,则更加简单。 机械基本上是

  • 问题内容: 使用Java,如何从给定的网页中提取所有链接? 问题答案: 将Java文件下载为纯文本/ html格式,并通过Jsoup或 html clean传递,两者相似,甚至可以用于解析格式错误的html 4.0语法,然后可以使用流行的HTML DOM解析方法,例如getElementsByName(“ a”)或在jsoup中它甚至很酷,您只需使用 并找到所有链接,然后使用 取自http://j

  • 我们会很感激你的帮助。

  • 本文向大家介绍Jsoup 提取URL和链接标题,包括了Jsoup 提取URL和链接标题的使用技巧和注意事项,需要的朋友参考一下 示例 Jsoup可用于轻松地从网页中提取所有链接。在这种情况下,我们可以使用Jsoup提取我们想要的特定链接,这里h3是页面标题中的链接。我们还可以获取链接的文本。 这给出以下输出: 这里发生了什么事: 首先,我们从指定的URL获取HTML文档。此代码还将请求的用户代理标

  • 我正在用Python做网页抓取。我需要获得所有搜索结果页面的链接。但是,我发现href值不是一个常规的html链接,而是如下所示的内容。如何获得正确的页面链接?谢谢