当前位置：首页 > 面试题库 >

在Java中使用XPath和Selenium解析HTML表数据

罗烨霖

2023-03-14

问题内容：

我想获取数据并在没有标签的情况下进行整理。看起来像这样

<table class="SpecTable">
    <col width="40%" />
    <col width="60%" />
    <tr>
        <td class="LightRowHead">Optical Zoom:</td>
        <td class="LightRow">15x</td>
    </tr>
    <tr>
        <td class="DarkRowHead">Digital Zoom:</td>
        <td class="DarkRow">6x</td>
    </tr>
    <tr>
        <td class="LightRowHead">Battery Type:</td>
        <td class="LightRow">Alkaline</td>
    </tr>
    <tr>
        <td class="DarkRowHead">Resolution Megapixels:</td>
        <td class="DarkRow">14 MP</td>
    </tr>
</table>

并且我希望能够提取所有信息字符串，以便可以使用以下方式将其存储在纯文本文件中：

光学变焦：15倍数码变焦：6倍电池类型：碱性分辨率百万像素：14 MP

public static void main(String[] args) {

        FirefoxProfile profile = new FirefoxProfile();
        profile.setPreference("general.useragent.override", "some UA string");
        WebDriver driver = new FirefoxDriver(profile);

        String Url = "http://www.walmart.com/ip/Generic-14-MP-X400-BK/19863348";
        driver.get(Url);
        List<WebElement> resultsDiv = driver.findElements(By.xpath("//table[contains (@class,'SpecTable')//td"));

        System.out.println(resultsDiv.size());
        for (int i=0; i<resultsDiv.size(); i++) {
            System.out.println(i+1 + ". " + resultsDiv.get(i).getText());
        }

我使用Selenium在Java中进行编程，因此无法为其找到正确的XPath表达式。

有人可以找出我为什么会犯错误的原因，并可能给我一些如何正确解析此数据的指示吗？我对Selenium和XPath很陌生，但我需要这项工作。

另外，如果有人能为我提供快速学习Selenium和XPath的良好资源，也将不胜感激！

问题答案：

可能这将满足您的需求：

string text = driver.findElement(By.cssSelector("table.SpecTable")).getText();

字符串text将包含表中所有带有SpecTable类的文本节点。我更喜欢使用css，因为它受IE支持并且比xpath更快。但是对于xpath教程，请尝试this和this。

类似资料：

使用Selenium Python解析HTML并读取HTML表

问题内容：我正在将我的某些网络抓取代码从R转换为Python（我无法让geckodriver与R一起使用，但它与Python一起使用）。无论如何，我试图了解如何使用Python解析和读取HTML表。快速背景，这是我的R代码：我将HTML页面解析为doc对象。然后，我将以开始，并通过更大的数字，直到看到所需的数据。在这种情况下，我去看了想要的数据。然后，我将读取该HTML表并将其分配给WebEl
通过XPath解析HTML

问题内容：在.Net中，我发现了一个很棒的库HtmlAgilityPack，它使您可以使用XPath轻松解析格式不正确的HTML。我已经在.Net站点中使用了几年，但是我不得不为我的Python，Ruby和其他项目选择更痛苦的库。有人知道其他语言的类似库吗？问题答案：在python中，ElementTidy解析标记汤并生成一个元素树，该树允许使用XPath进行查询：
使用JAVA解析html

我在使用jsoup（Java）解析html文档时遇到了一个问题。我正在分析的HTML具有以下格式：我想在两个“hr”标记之间隔离HTML文本。我正在尝试以下代码：系统出来println（对象）；但是ArrayList没有包含我想要的内容，我不知道如何解决它。（我是否可以将“hr”标记转换为“hr”文本“/hr”标记）？
在 Java 中使用 JSoup 从 HTML 中解析标记数据

如何从下面的html中解析出46389333？我使用的是JSoup，显然我可以解析文本、标签和其他值。但是我不知道如何解析这个值。即使我只能解析出/exampleTweet/status/46389333，至少我可以解析这个字符串，这要容易得多。问题是，数字变了，显然例子也变了。不过，地位还是存在的，所以也许我可以利用这一点？任何帮助都是巨大的。
在selenium python中使用xpath

我在Firefox中使用Firebug为没有分配ID的链接获取xpath。该链接是一个带有图像作为实际按钮的javascript链接。我希望能够单击此链接，但它不起作用。实际的xpath是'/html/body/div[2]/div/div/div[3]/div/div/table/tbody/tr[1]/td[2]/form/table/tbody/tr[1]/td/div[1]/div/ta
使用xpath在Java中使用名称空间解析XML

问题内容：我正在尝试解析Java中的SOAP请求，但代码未返回任何节点，这里的代码可以使任何人找到错误问题答案：您需要设置一个上：演示版输出量

相关阅读

在Java中针对HTML使用XPath包含使用JAVA解析网站HTML 如何使用jsoup解析HTML表？php用xpath解析html的代码实例讲解 Java HTML解析

相关文章

Java ConcurrentSkipListMap跳跃表解析 Jsoup 解析HTML正文 Java JSON的解析和创建 Java LinkedBlockingQueue解析 Java ArrayBlockingQueue解析

相关问答

使用Jsoup解析HTML时间表使用selenium python使用复合类解析HTML内容使用J汤解析html和javascript Android用JSoup解析html表无法使用 tidy 和 Xpath 在 Java 中检索 Web 数据

相关工具

解析html网页的数据天气数据解析标准TVL格式数据解析 Selenium Java Evidence XPath-XCat

相关文档

小米数据处理和分析服务（EMR）使用指南 Python 和 Pandas 数据分析教程深入解析 Go Tornado 源码解析深度解析 ECMAScript 6