获取网站的<meta name="keywords" content="" />和<meta name="description" content="“>关键字和描述内容
实现HTML解析器jsoup
下载jsoup的lib地址:http://jsoup.org/download
package cn.evan.util; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class SemanticCrawl { public static void main(String[] args) { Document doc = null; try { doc = Jsoup.connect("网址").get(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } String title = doc.title(); Elements metas = doc.head().select("meta"); for (Element meta : metas) { String content = meta.attr("content"); if ("keywords".equalsIgnoreCase(meta.attr("name"))) { System.out.println("关键字:"+content); } if ("description".equalsIgnoreCase(meta.attr("name"))) { System.out.println("网站内容描述:"+content); } } Elements keywords = doc.getElementsByTag("meta"); System.out.println("标题"+title); } }
以上所述就是本文分享的全部内容了,希望大家能够喜欢。
问题内容: 我想使用Java来获取网站的源(安全),然后解析该网站以获取其中的链接。我已经找到了如何连接到该URL的方法,但是然后我如何才能轻松地仅获取源代码,更喜欢作为DOM Document oso来获取我想要的信息。 还是有更好的方法连接到https站点,获取源代码(我很容易做到以获取数据表…非常简单),然后这些链接就是我要下载的文件。 我希望它是FTP,但是这些是存储在我的Tivo中的文件
我正在制作自己的Start/BookmarkPage作为一个业余项目。 我想以一种干净的方式组织我的书签。我喜欢苹果通过请求meta应用程序图标来完成这一工作的方式,所以我制作了一个JavaScript/Ajax/PHP函数来完成这项工作。 然而,当一个网站的头部没有应用程序图标时,我想知道该网站使用的主颜色,就像你在这里看到的那样 safari上的苹果书签(背景有网站的主色) chrome书签(
本文向大家介绍php实现专业获取网站SEO信息类实例,包括了php实现专业获取网站SEO信息类实例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php实现专业获取网站SEO信息类。分享给大家供大家参考。具体如下: 这个seo类的功能包括: - 检查指定的网站响应 - 获取从该网站主页的语言和其他meta标签数据的 - 获取网站的导入链接,从Alexa的流量排名 - 获取网站的导入链接,由
cmf_get_site_info() 功能 获取后台管理设置的网站信息,此类信息一般用于前台 参数 无 返回 array 网站信息
我尝试用BS4 python来抓取动态网站: https://www.nadlan.gov.il/?search=תל אביב יפו 我试过: 我有两个问题: > 当我打开站点时,数据加载需要几秒钟: 硒如何解决这些问题?
本文向大家介绍WordPress 获取网站标语,包括了WordPress 获取网站标语的使用技巧和注意事项,需要的朋友参考一下 示例 输出结果 基于这些样本设置