问题：

如何使用JSoup（java）正确解析数据

蔡鹏程

2023-03-14

我想从这个HTML中解析数据（CompanyName,Location,jobDescription,...）使用JSoup（java）。我在尝试迭代工作列表时会被卡住

从HTML中提取是我想要迭代并从中提取数据的许多“joblisting”div中的一个。我只是无法处理如何迭代特定的div对象。很抱歉这个问题，但也许有人可以帮助我谁已经知道使用哪一个功能。选择？

<div class="between_listings"><!-- local.spacer --></div>

<div id="joblisting-2944914" class="joblisting listing-even listing-even company-98028 " itemscope itemtype="http://schema.org/JobPosting">


<div class="company_logo" itemprop="hiringOrganization" itemscope itemtype="http://schema.org/Organization">
     <a href="/stellenangebote-des-unternehmens--Delivery-Hero-Holding-GmbH--98028.html" title="Jobs Delivery Hero Holding GmbH" itemprop="url">
       <img src="/upload_de/logo/D/logoDelivery-Hero-Holding-GmbH-98028DE.gif" alt="Logo Delivery Hero Holding GmbH" itemprop="image" width="160" height="80" />
     </a>
</div>


<div class="job_info">


<div class="h3 job_title">
   <a id="jobtitle-2944914" href="/stellenangebote--Junior-Business-Intelligence-Analyst-CRM-m-f-Berlin-Delivery-Hero-Holding-GmbH--2944914-inline.html?ssaPOP=204&ssaPOR=203" title="Arbeiten bei Delivery Hero Holding GmbH" itemprop="url">
      <span itemprop="title">Junior Business Intelligence Analyst / CRM (m/f)</span>
   </a>
</div>

<div class="h3 company_name" itemprop="hiringOrganization" itemscope itemtype="http://schema.org/Organization">

    <span itemprop="name">Delivery Hero Holding GmbH</span>

</div>

</div>




<div class="job_location_date">

    <div class="job_location target-location">
         <div class="job_location_info" itemprop="jobLocation" itemscope itemtype="http://schema.org/Place">


            <div class="h3 locality" itemprop="address" itemscope itemtype="http://schema.org/PostalAddress">
                  <span itemprop="addressLocality"> Berlin</span>
            </div>


            <span class="location_actions">
                <a href="javaScript:PopUp('http://www.stepstone.de/5/standort.html?OfferId=2944914&ssaPOP=203&ssaPOR=203','resultList',800,520,1)" class="action_showlistingonmap showlabel" title="Google Maps" itemprop="maps">
                   <span class="location-icon"><!-- --></span>
                   <span class="location-label">Google Maps</span>
                </a>
            </span>

          </div>
       </div>

       <div class="job_date_added" itemprop="datePosted"><time datetime="2014-07-04">04.07.14</time></div>
</div>


<div class="job_actions">


</div>

</div>
<div class="between_listings"><!-- local.spacer --></div>

文件输入=新文件（“C:/talend/workspace/webcrawler/output/keywords_soa.txt”）；//将文件加载到extraction1文档ParseResult=jsoup.parse（输入，“utf-8”，“http://example.com/”）；Elements jobListingElements=parsereSult.Select（“.joblisting”）；对于（Element joblistingElement：jobListingElements）{joblistingElement.Select（“.companyName span[itemprop=\”name\“]”）；//其他元素属性system.out.println（jobListingElements）；

Java代码：

File input = new File("C:/Talend/workspace/WEBCRAWLER/output/keywords_SOA.txt");
// Load file into extraction1       
Document ParseResult = Jsoup.parse(input, "UTF-8", "http://example.com/");                          
Elements jobListingElements = ParseResult.select(".joblisting");        
for (Element jobListingElement: jobListingElements) {         
    jobListingElement.select(".companyName span[itemprop=\"name\"]");         
    // other element properties         
    System.out.println(jobListingElements);
}

谢谢你！

共有1个答案

濮阳驰

2023-03-14

你的Jsoup文档弄对了吗？如果css类joblisting不出现在其他任何地方，那么看起来就很容易了。

Document document = Jsoup.parse(new File("d:/bla.html"), "utf-8");
Elements elements = document.select(".joblisting");
for (Element element : elements) {
    Elements jobTitleElement = element.select(".job_title span");
    Elements companyNameElement = element.select(".company_name spanspan[itemprop=name]");
    String companyName = companyNameElement.text();
    String jobTitle = jobTitleElement.text();

    System.out.println(companyName);
    System.out.println(jobTitle);
}

<罢工> 我不知道为什么属性 [itemprop*=\“name\”]选择器找不到跨度（进一步阅读： http://jsoup.org/cookbook/extracture-data/selector-syntax）

明白了：span[itemprop=name]没有任何引号或转义。其他属性或值也应该起作用以获得更具体的选择。

类似资料：

使用JSoup解析HTML（格式不正确）

然后我在Jsoup as中将xpath转换为CSS查询,以便稍后提取特定元素：代码的执行没有正确定位我，而是定位到Firebug在XPath中引用的元素：从最后来看，第一个区别是：有没有任何替代Jsoup的方法可以处理这类问题？
实例解析如何正确使用Java数组

本文向大家介绍实例解析如何正确使用Java数组，包括了实例解析如何正确使用Java数组的使用技巧和注意事项，需要的朋友参考一下一．关于数组的特点 1.在Java中，无论使用数组或集合，都有边界检查。如果越界操作就会得到一个RuntimeException异常。 2.数组只能保存特定类型。数组可以保存原生数据类型，集合则不能。集合不以具体的类型来处理对象，它们将所有对象都按Object类型处理，集
使用jsoup（java）解析https
如何使用SAX正确解析XML？

问题内容：我正在从REST服务接收XML文档，该文档将使用SAX进行解析。请参见以下示例，它是从XSD生成的。设置解析器不是问题。我的主要问题是在实际的处理，方法等，我不知道如何提取我需要的项目，并将其作为他们有些“嵌套”。例所述可发生一次或两次，并且可以包含任意数量的其-in了转向有关于一个连接的信息的元素。基本上，我需要与他们的所有连接的列表，和。我必须为每个元素创建一个类吗？就我所
如何使用jsoup解析HTML表？

问题内容：我正在尝试使用jsoup解析HTML。这是我第一次使用jsoup，并且我也阅读了有关它的一些教程。以下是我要解析的HTML表- 如果您看到我的下表，则它现在有3个（我只是为了理解目的将其缩短为3个表行，但总的来说会更多）。现在，我想从我的下表中提取出它的对应信息，例如-我将提取其群集状态及其状态为关闭的所有主机名。正如你可以看到下面的群集名称，我有两个主机名和其地位，但地位。因此，
如何使用JSOUP解析HTML表？

正如您在下面看到的集群名称，我有两个主机名和，其中状态为，但状态为。因此，我将打印作为集群名，并打印作为主机名，因为它已关闭。使用JSOUP可以做到这一点吗？到目前为止，我能够使用jsoup提取整个HTML表，但不确定如何提取集群名和主机名- 更新：- 表中可能有两个集群名称，如下所示- 现在，如果您看到上面，我有两个集群名称--一个是，另一个是，所以我想找到所有仅为集群名称关闭的计算机。

如何使用JSoup（java）正确解析数据

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档