当前位置: 首页 > 知识库问答 >
问题:

HTML解析不需要TR,TD元素

沈栋
2023-03-14

我有一个包含HTML内容的平面文件。我试图从中读取文本,并从中解析HTML内容。我使用jsoup来实现这个功能。

我的示例字符串

  <tr>
     <td><font color="#6C2DC7">Platform</td>
     <td><font color="RED" TITLE='n7k_reg_adxl07_2nd0'>aclxl</td>
     <td><font color="RED">0.0</td>
     <td><a href="http://wwwinearmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20079/88/89-1/report">200798889-1</a></td>
     <td><font color="GREEN">0</td>
     <td><font color="RED" title='Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0'>1</td>
     <td><font color="#7D2252">&nbsp;</td>
     <td><font color="#827839">&nbsp;</td>

不幸的是,它不能正确解析这个,没有它,我不能使用任何API方法来提取内容。它的解析如下:

<html>
<head></head>
<body>
<font color="#6C2DC7">Platform<font color="RED" title="n7k_xb45_F3100G_2nd0">qos_100G_FLK_xb_sup3<font color="RED">73.01<a href="http://wwwin-earmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20076/79/43-1/report">200767943-1</a><font color="GREEN">238<font color="RED" title="Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0">88<font color="#7D2252">&nbsp;<font color="#827839">&nbsp;</font></font></font></font></font></font></font>
</body>
</html>

这有什么错。我如何使它工作,以获得TR,TD元素,并继续使用jSoup方法来提取我需要的内容。

示例代码:

String html = "<html><body><tr><td><font color=\"#6C2DC7\">Platform</td><td><font color=\"RED\" TITLE='n7k_xb45_F3100G_2nd0'>qos_100G_FLK_xb_sup3</td><td><font color=\"RED\">73.01</td><td><a href=\"http://wwwin-earmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20076/79/43-1/report\">200767943-1</a></td><td><font color=\"GREEN\">238</td><td><font color=\"RED\" title='Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0'>88</td><td><font color=\"#7D2252\">&nbsp;</td><td><font color=\"#827839\">&nbsp;</td></tr></body></html>";
String charSet = "ISO-8859-1";
Document innerHtml = Jsoup.parse(html,charSet);

共有1个答案

邹博明
2023-03-14

TRTD是超文本标记语言表标记,但是您输入的超文本标记语言确实包含任何

String html = "<html><body><table>...</table></body></html>";

如果您不能添加标记,那么它作为超文本标记语言是无效的,因此需要解析为XML

 类似资料:
  • 问题内容: 有没有一种快速的方法可以将表TD(使用CSS或Javascript)转换为TR,目前我有: 我想翻译成: ?? 问题答案: 您想要将HTML排列成这样: 变成这个: 正确? 您可以使用Javascript来做到这一点,但是,很难在不完全了解站点/ HTML文件的结构的情况下建议一种方法。我会去的。 假设您的代码带有ID(例如:您可以像这样在javascript中访问它: 您可以创建一个

  • 我试图在标签之间获得文本并保存到一些变量中,例如:在这里我想保存值,这是标签之间。我还需要其余的文本,这是在标签,标签值分配与和标签值应该只返回- 我写了下面的内容:下面返回的只是“'em”标记中的“return”。这里的基本上是,选择标记,然后进行迭代,不确定我的方法是否正确,任何其他方法都受到高度赞赏。

  • 我有一个大的超文本标记语言电子邮件表,我正在尝试查找特定电子邮件的名称,然后在此元素中选择一个按钮。我可以通过XPATH轻松找到表体: 那么在这个表中有多行(tr),是否可以在所有表行中搜索文本? 我得到的最接近的结果是: 不幸的是,这无法定位元素。 我知道我可以简单地复制XPATH以定位特定的tr,但是出于自动化目的,我尝试传递一个字符串,然后在所有tr中搜索我的特定文本。

  • 我有一个json文件,大约1MB。我正在尝试用Klaxon库解析这个JSON,但需要大约30秒。我不想使用SQLite。我能做什么?

  • 我正在编写XSD来验证XML,但在验证时出现了以下错误: 输出错误 使用XML架构验证当前文件: 错误:元素'{http://www.w3.org/2001/XMLSchema-instance}Gasto':不应使用此元素。预计为(加斯托) ...我不明白这个错误 以下是我的XML示例: 下面是我的XSD示例:

  • 问题内容: 我目前正在尝试开发一个应用程序,使其访问以下网站(http://lulpix.com)并解析HTML,并从以下部分获取img src 当然,每次加载页面时它都会有所不同,因此,例如,我无法将直接URL分配给我打算做的异步图像库 加载页面 >解析img src>下载Async到imageview>重新加载lulpix.com>重新开始 然后将它们分别放置在图像视图中,用户可以从中向左或向