当前位置: 首页 > 编程笔记 >

node.js正则表达式获取网页中所有链接的代码实例

夏侯航
2023-03-14
本文向大家介绍node.js正则表达式获取网页中所有链接的代码实例,包括了node.js正则表达式获取网页中所有链接的代码实例的使用技巧和注意事项,需要的朋友参考一下

实现代码

var http = require('http');

//定义函数 var getAHref = function(htmlstr){     var reg = /<a.+?href=('|")?([^'"]+)('|")?(?:\s+|>)/gim;     var arr = [];     while(tem=reg.exec(htmlstr)){         arr.push(tem[2]);     }     return arr; }

var qHref = "http://xxx";//设置被查询的目标网址     var req = http.get(qHref, function(res) {     var pageData = "";     res.setEncoding('utf8');     res.on('error', function (errget) {            //出错处理     });     res.on('data', function (chunk) {            pageData += chunk;     });

    res.on('end', function(){           //console.dir(pageData);           var content = pageData;//获取到网页内容           var hrefs=getAHref(content);//获取链接

    });

});

 类似资料:
  • 问题内容: 我正在寻找一个.NET正则表达式来提取网页中的所有URL,但是还没有找到一个足以涵盖指定链接的所有不同方式的URL。 还有一个问题: 是否有 一个正则表达式可以统治所有人 ?还是我最好使用一系列不那么复杂的正则表达式,而只对原始HTML使用多重传递?(速度与可维护性) 问题答案: ((mailto\:|(news|(ht|f)tp(s?))\://){1}\S+) 我从regexlib

  • 本文向大家介绍Java中使用正则表达式获取网页中所有图片的路径,包括了Java中使用正则表达式获取网页中所有图片的路径的使用技巧和注意事项,需要的朋友参考一下

  • 本文向大家介绍python的re正则表达式实例代码,包括了python的re正则表达式实例代码的使用技巧和注意事项,需要的朋友参考一下 本文研究的主要是python的re正则表达式的相关内容,具体如下。 概念:正则表达式(通项公式)是用来简洁表达一组字符串的表达式。优势是简洁,一行胜千言。 应用:字符串匹配。 实例代码: 打印信息 总结 以上就是本文关于python的re正则表达式实例代码的全部内

  • 本文向大家介绍php获取网页上所有链接的方法,包括了php获取网页上所有链接的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php取得网页上所有链接的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的php程序设计有所帮助。

  • 问题内容: 使用(jdk 1.6),在给定以下代码的情况下,应用于主题字符串的正则表达式将仅捕获而不应捕获(模式)正则表达式: 奇怪的是,另一个类似的正则表达式(如应用于主题字符串)捕获组0和1,但不捕获组2。 相反,通过使用JavaScript的RegExp对象,可以将完全相同的正则表达式应用于完全相同的主题字符串,从而捕获所有组。我通过使用以下在线测试器亲自检查并重新检查了这一事实: http

  • 问题内容: 这是我的正则表达式,可以很好地匹配字符串中的链接。但是我不希望它选择每个链接。如果链接位于链接之前或之后,则不应对该链接进行数学计算。怎么做到呢? 这些应匹配: 这些不应该匹配: 为什么需要这个?:我希望每个链接都可以单击,即使它不在锚标记之间也是如此。 问题答案: 关于使用正则表达式解析html的所有免责声明,如果您想对这个任务使用正则表达式,则可以使用: 交替匹配的左侧 完成,然后