当前位置: 首页 > 面试题库 >

从html获取原始文本

蒯宇定
2023-03-14
问题内容

我在相当基本的android开发水平上。

我想从诸如“
http://www.google.com”的页面获取文本。(我将使用的页面只有文本,因此没有图片或类似的东西)所以,要明确:我想将页面上的文本写入应用程序中的字符串等。

我尝试了这段代码,但是我什至不知道它是否能满足我的要求。

URL url = new URL(/*"http://www.google.com");
URLConnection connection = url.openConnection();
// Get the response     
BufferedReader rd = new BufferedReader(new InputStreamReader(connection.getInputStream()));
String line = "";

无论如何我都无法收到任何文字。我应该怎么做?


问题答案:

从您提供的示例代码中,您甚至没有读取请求的响应。我将使用以下代码获取html

URL u = new URL("http://www.google.com");
URLConnection conn = u.openConnection();
BufferedReader in = new BufferedReader(
                        new InputStreamReader(
                            conn.getInputStream()));
StringBuffer buffer = new StringBuffer();
String inputLine;
while ((inputLine = in.readLine()) != null) 
    buffer.append(inputLine);
in.close();
System.out.println(buffer.toString());

如果只需要文本,则需要从那里将字符串传递到某种html解析器中。从我听到的信息来看,JTidy将是一个很好的库,但是我从未使用过任何Java
html解析库。



 类似资料:
  • 问题内容: 在我的应用程序中,我使用来显示一些日志信息。因为我想突出显示文本中的某些特定行(例如错误消息),所以将设置为“ ”。这样,我可以设置文本格式。 现在,我创建一个JButton,将其内容复制到剪贴板中。这部分很简单,但是我的问题是,当我调用时,我得到了HTML代码,例如: 而不是只获取原始内容: 有没有办法只获取纯文本格式的内容?还是我需要自己将HTML转换为原始文本? 问题答案: 基于

  • 我使用WordPress REST API在外部应用程序中获取WordPres页面的HTML内容。我将这个mysite/wp json/wp/v2/pages/10调用,它返回: 是否有任何方法可以在最终的超文本标记语言输出中返回代码,并且没有[vc_]简码,例如:

  • 问题内容: 例如: 然后,我得到以下原始HTML代码: 但是我想直接从scrapy 获取纯文本。 我不希望使用任何XPath选择提取,,…标签,因为我爬一个网站,其主要内容嵌入到table,tbody; 递归地 找到xPath可能是一项繁琐的任务。 可以通过Scrapy中的内置函数来实现吗?还是我需要外部工具进行转换?我已经阅读了Scrapy的所有文档,但一无所获。 问题答案: Scrapy没有内

  • 问题内容: 我正在尝试从文件夹中包含在项目中的原始文件获取。但是无论如何,我都会得到一个。 该文件是一个文件,也尝试过使用,也不起作用。使用DOES 播放两个文件都可以。 的回报: 我的代码: 错误: 问题答案: 尝试这种方法,用作您的inputStream。沿着这个地方: 返回一个InputStream 编辑:如果您使用上述方法,请删除这些代码 希望这有帮助,祝你好运!^^

  • 问题内容: 我需要获取网页中元素的实际html代码。 例如,如果元素中的实际html代码是 运行此javascript getElementById(’myE’)。innerHTML 给我,这是解码后的形式 如何使用javascript? 问题答案: 您所拥有的应该工作: 元素测试: JavaScript测试: 确保无论您在哪里 _使用_结果都不会显示为空格,这种情况很可能会出现。如果要将其显示在

  • 问题内容: 有没有办法从获取原始/原始JSON值? 问题: 现在是,但是我需要原始字符串。 有没有办法获得这个原始价值?另外,我无法更改创建方式(例如更改设置),因为它作为参数传递给我的课程… (参考:原始的NJsonSchema问题) 问题答案: 您无法获取原始字符串,无法识别日期字符串并将其转换为自身内部的结构。如果您这样做,则可以看到以下内容: 但是,您可以通过执行以下操作以ISO 8601