当前位置: 首页 > 面试题库 >

如何在Perl中从HTML提取URL和链接文本?

林德华
2023-03-14
问题内容

我以前曾问过如何在Groovy中做到这一点。但是,由于所有CPAN库,现在我要在Perl中重写我的应用程序。

如果页面包含以下链接:

<a href="http://www.google.com"> Google </a>

<a href="http://www.apple.com"> Apple </a>

输出为:

Google,http://www.google.com
苹果公司,http://www.apple.com

在Perl中执行此操作的最佳方法是什么?


问题答案:

请查看使用WWW :: Mechanize模块来实现此目的。它将为您获取您的网页,然后为您提供易于使用的URL列表。

my $mech = WWW::Mechanize->new();
$mech->get( $some_url );
my @links = $mech->links();
for my $link ( @links ) {
    printf "%s, %s\n", $link->text, $link->url;
}

非常简单,如果您要导航到该页面上的其他URL,则更加简单。

机械基本上是对象中的浏览器。



 类似资料:
  • 问题内容: 对于我的网站,我想添加一个新功能。 我希望用户能够上传他的书签备份文件(如果可能的话,可以从任何浏览器上传),这样我就可以将其上传到他们的个人资料,而他们不必手动插入所有文件… 我唯一缺少的是从上传文件中提取标题和URL的部分。任何人都可以提供从哪里开始或在哪里阅读的线索? 使用的搜索选项和如何从原始HTML文件提取数据?这是与我最相关的问题,因此不再赘述。 我真的不介意它是否使用jq

  • 问题内容: 我正在使用Jsoup提取网页的URL。在这些URL的属性是相对的,如: 这是我的尝试: 这工作正常,但如果我使用 获得像这样的绝对URL ,它不起作用。如何获得绝对URL? 问题答案: 你需要。 您可以通过以下方式缩短选择:

  • 本文向大家介绍Jsoup 提取URL和链接标题,包括了Jsoup 提取URL和链接标题的使用技巧和注意事项,需要的朋友参考一下 示例 Jsoup可用于轻松地从网页中提取所有链接。在这种情况下,我们可以使用Jsoup提取我们想要的特定链接,这里h3是页面标题中的链接。我们还可以获取链接的文本。 这给出以下输出: 这里发生了什么事: 首先,我们从指定的URL获取HTML文档。此代码还将请求的用户代理标

  • 问题内容: 不过,这是一个设计:例如,我放置了一个链接,例如 http://example.com 在 textarea中 。我如何获取PHP以检测它是一个链接,然后将其打印为 我记得以前做过这样的事情,但这并不是傻瓜式的证明,它会因为复杂的链接而中断。 修复它 这只是一个经过深思熟虑的.. stackoverflow也可能会使用它:D 有任何想法吗 问题答案: 让我们看一下需求。您有一些用户提供

  • 问题内容: 我正在开发一个需要从链接获取网页源,然后从该页面解析html的应用程序。 您能给我一些例子,还是从哪里着手开始编写这样的应用程序? 问题答案: 您可以使用HttpClient执行HTTP GET并检索HTML响应,如下所示:

  • 问题内容: 使用Java,如何从给定的网页中提取所有链接? 问题答案: 将Java文件下载为纯文本/ html格式,并通过Jsoup或 html clean传递,两者相似,甚至可以用于解析格式错误的html 4.0语法,然后可以使用流行的HTML DOM解析方法,例如getElementsByName(“ a”)或在jsoup中它甚至很酷,您只需使用 并找到所有链接,然后使用 取自http://j