当前位置: 首页 > 编程笔记 >

java实现获取网站的keywords,description

微生学
2023-03-14
本文向大家介绍java实现获取网站的keywords,description,包括了java实现获取网站的keywords,description的使用技巧和注意事项,需要的朋友参考一下

获取网站的<meta name="keywords" content="" />和<meta name="description" content="“>关键字和描述内容

实现HTML解析器jsoup

下载jsoup的lib地址:http://jsoup.org/download


package cn.evan.util;

import java.io.IOException;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class SemanticCrawl {

    public static void main(String[] args) {

        Document doc = null;

        try {

            doc = Jsoup.connect("网址").get();

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        String title = doc.title();

        Elements metas = doc.head().select("meta");  

        for (Element meta : metas) {  

            String content = meta.attr("content");  

            if ("keywords".equalsIgnoreCase(meta.attr("name"))) {  

                System.out.println("关键字:"+content);  

            }  

            if ("description".equalsIgnoreCase(meta.attr("name"))) {  

                System.out.println("网站内容描述:"+content);  

            }  

        }  

        Elements keywords = doc.getElementsByTag("meta");

        System.out.println("标题"+title);

    }

}

以上所述就是本文分享的全部内容了,希望大家能够喜欢。

 类似资料:
  • 问题内容: 我想使用Java来获取网站的源(安全),然后解析该网站以获取其中的链接。我已经找到了如何连接到该URL的方法,但是然后我如何才能轻松地仅获取源代码,更喜欢作为DOM Document oso来获取我想要的信息。 还是有更好的方法连接到https站点,获取源代码(我很容易做到以获取数据表…非常简单),然后这些链接就是我要下载的文件。 我希望它是FTP,但是这些是存储在我的Tivo中的文件

  • 我正在制作自己的Start/BookmarkPage作为一个业余项目。 我想以一种干净的方式组织我的书签。我喜欢苹果通过请求meta应用程序图标来完成这一工作的方式,所以我制作了一个JavaScript/Ajax/PHP函数来完成这项工作。 然而,当一个网站的头部没有应用程序图标时,我想知道该网站使用的主颜色,就像你在这里看到的那样 safari上的苹果书签(背景有网站的主色) chrome书签(

  • 本文向大家介绍php实现专业获取网站SEO信息类实例,包括了php实现专业获取网站SEO信息类实例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php实现专业获取网站SEO信息类。分享给大家供大家参考。具体如下: 这个seo类的功能包括: - 检查指定的网站响应 - 获取从该网站主页的语言和其他meta标签数据的 - 获取网站的导入链接,从Alexa的流量排名 - 获取网站的导入链接,由

  • cmf_get_site_info() 功能 获取后台管理设置的网站信息,此类信息一般用于前台 参数 无 返回 array 网站信息

  • 我尝试用BS4 python来抓取动态网站: https://www.nadlan.gov.il/?search=תל אביב יפו 我试过: 我有两个问题: > 当我打开站点时,数据加载需要几秒钟: 硒如何解决这些问题?

  • 本文向大家介绍WordPress 获取网站标语,包括了WordPress 获取网站标语的使用技巧和注意事项,需要的朋友参考一下 示例 输出结果 基于这些样本设置