当前位置: 首页 > 面试题库 >

如何使用Java从网页上阅读文本?

江智
2023-03-14
问题内容

我想从网页上阅读文字。我不想获取网页的HTML代码。我发现此代码:

    try {
        // Create a URL for the desired page
        URL url = new URL("http://www.uefa.com/uefa/aboutuefa/organisation/congress/news/newsid=1772321.html#uefa+moving+with+tide+history");

        // Read all the text returned by the server
        BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
        String str;
        while ((str = in.readLine()) != null) {
            str = in.readLine().toString();
            System.out.println(str);
            // str is one line of text; readLine() strips the newline character(s)
        }
        in.close();
    } catch (MalformedURLException e) {
    } catch (IOException e) {
    }

但是此代码为我提供了网页的HTML代码。我想在此页面中获取全文。如何使用Java做到这一点?


问题答案:

您可能想要看看jsoup:

String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html); 
String text = doc.body().text(); // "An example link"

本示例是他们网站上的摘录。



 类似资料:
  • 问题内容: 阅读网页时,我经常收到“过早的EOF”异常。 以下是StackTrace 以下是getPage()方法 什么是持久性EOFException?为什么在这种特殊情况下会发生这种情况?如何避免呢? 其他一些信息:正在读取的页面大小约为20 KB,并且我正在程序中读取许多此类页面(大约20 000) 问题答案: 这可能是因为您正在逐行读取内容,而对于最后一行,文件可能缺少返回值以表示行结束。

  • 问题内容: 我正在尝试读取“ file.txt”,然后使用Golang将内容放入变量中。这是我尝试过的… 文件已成功读取,并且从 os.Open 返回的返回类型为 * os.File 问题答案: 这取决于您要执行的操作。 它输出&{0xc082016240}的原因是因为您正在打印文件描述符()的指针值,而不是文件内容。要获取文件内容,可以从文件描述符中获取。 要将所有文件内容(以字节为单位)读取到

  • 因此,我有一个扫描仪,它可以使用while(file.hasNext())读取多行的文本文件,但是在它到达文本文件的末尾之后,我该如何制作它,以便在单独的while循环中重新开始读取行?

  • 我无法从以下网页中读取电子邮件id: 网址:https://targetstudy.com/university/2/acharya-ng-ranga-agricultural-university/ 这是我的代码

  • 问题内容: 因此,我正在开发一个应用程序来存储所有用户喜欢的应用程序的快捷方式,就像集线器一样。我可以支持实际文件,并且可以使用快捷方式解析器。我认为应用程序也支持Internet快捷键也将非常不错。这就是我在做什么: 假设我要获取Google的图标()。 首先,我摆脱掉多余的页面(例如将成为)。 然后,我用来获取图像。 问题是,当我调用此方法时,永远不会返回Image: 现在我有两个问题: Ja

  • 问题内容: 我正在尝试从在线文本文件中读取一些单词。 我试图做这样的事情 但它没有用,我正在 作为输出,我只想知道所有的话。 我知道他们是在那天教给我的,但是我现在不记得确切怎么做,非常感谢您的帮助。 问题答案: 使用代替来访问不在本地计算机上的任何访问。 实际上,URL甚至在一般情况下甚至对于本地访问(使用URL),jar文件以及可以以某种方式检索的所有内容都非常有用。 上面的方法以您的平台默认