当前位置：首页 > 面试题库 >

如何使用Java从网页上阅读文本？

江智

2023-03-14

问题内容：

我想从网页上阅读文字。我不想获取网页的HTML代码。我发现此代码：

    try {
        // Create a URL for the desired page
        URL url = new URL("http://www.uefa.com/uefa/aboutuefa/organisation/congress/news/newsid=1772321.html#uefa+moving+with+tide+history");

        // Read all the text returned by the server
        BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
        String str;
        while ((str = in.readLine()) != null) {
            str = in.readLine().toString();
            System.out.println(str);
            // str is one line of text; readLine() strips the newline character(s)
        }
        in.close();
    } catch (MalformedURLException e) {
    } catch (IOException e) {
    }

但是此代码为我提供了网页的HTML代码。我想在此页面中获取全文。如何使用Java做到这一点？

问题答案：

您可能想要看看jsoup：

String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html); 
String text = doc.body().text(); // "An example link"

本示例是他们网站上的摘录。

类似资料：

在Java IOException Premature EOF中阅读网页

问题内容：阅读网页时，我经常收到“过早的EOF”异常。以下是StackTrace 以下是getPage（）方法什么是持久性EOFException？为什么在这种特殊情况下会发生这种情况？如何避免呢？其他一些信息：正在读取的页面大小约为20 KB，并且我正在程序中读取许多此类页面（大约20 000）问题答案：这可能是因为您正在逐行读取内容，而对于最后一行，文件可能缺少返回值以表示行结束。
如何阅读文本文件？

问题内容：我正在尝试读取“ file.txt”，然后使用Golang将内容放入变量中。这是我尝试过的… 文件已成功读取，并且从 os.Open 返回的返回类型为 * os.File 问题答案：这取决于您要执行的操作。它输出＆{0xc082016240}的原因是因为您正在打印文件描述符（）的指针值，而不是文件内容。要获取文件内容，可以从文件描述符中获取。要将所有文件内容（以字节为单位）读取到
如何从头开始阅读课文？

因此，我有一个扫描仪，它可以使用while（file.hasNext（））读取多行的文本文件，但是在它到达文本文件的末尾之后，我该如何制作它，以便在单独的while循环中重新开始读取行？
无法使用Selenium网络驱动程序从网页读取文本

我无法从以下网页中读取电子邮件id：网址：https://targetstudy.com/university/2/acharya-ng-ranga-agricultural-university/ 这是我的代码
如何使用Java从网站上获取favicon.ico？

问题内容：因此，我正在开发一个应用程序来存储所有用户喜欢的应用程序的快捷方式，就像集线器一样。我可以支持实际文件，并且可以使用快捷方式解析器。我认为应用程序也支持Internet快捷键也将非常不错。这就是我在做什么：假设我要获取Google的图标（）。首先，我摆脱掉多余的页面（例如将成为）。然后，我用来获取图像。问题是，当我调用此方法时，永远不会返回Image：现在我有两个问题： Ja
如何使用Java直接从Internet读取文本文件？

问题内容：我正在尝试从在线文本文件中读取一些单词。我试图做这样的事情但它没有用，我正在作为输出，我只想知道所有的话。我知道他们是在那天教给我的，但是我现在不记得确切怎么做，非常感谢您的帮助。问题答案：使用代替来访问不在本地计算机上的任何访问。实际上，URL甚至在一般情况下甚至对于本地访问（使用URL），jar文件以及可以以某种方式检索的所有内容都非常有用。上面的方法以您的平台默认

相关阅读

使用Selenium WebDriver（XPath）阅读文本我应该如何从缓冲的阅读器中阅读？如何在Android中阅读文本文件？如何使用Go从文件读/写文件？如何从网页中提取文本内容？

相关文章

7.5.1 WebView(网页视图)基本用法网页构成阅文测开面经阅文测开面经阅文集团测开

相关问答

如何用javascript和applescript替换网页上的文本从网页获取数据并在Android Java上使用[副本]python - flask-sqlalchemy 文档如何阅读？如何阅读Java中的%字符如何用Python阅读pdf？[副本]

相关工具

虎嗅网RSS阅读器实用rss阅读器 Android PDF 阅读器简单阅读器 gPhone手机RSS阅读器

相关文档

Metasploit v4 POC 上手指南在线阅读阅读 express 源码 Java 并发编程实战阅读笔记深入理解 Java 虚拟机阅读笔记 JDK 源码阅读笔记