您好,我已经尝试了以下答案:如何使用jsoup替换标记,以及如何使用jsoup替换HTML标记,但都没有成功。我正在用JSoup解析一个网站,我运行了一个accross-letter-look GIF图像。幸运的是,这些gif图像有一个特定的名称,例如字母“a”的a.gif。 HTML输入: 期望输出: 我的java代码(以下)未打印预期输出: 谢谢你的帮助。
JSoup在这里。我有以下我试图解析的超文本标记语言: 不幸的是,它的格式有点不正确(在
所以我尝试从pretag获取数据,我设置doc连接到url选择pretag,结果出错了,我需要获取的数据按这里
这是我的密码 我想替换字体标签,并把span标签。在这将取代第一个字体标签但不是第二个标签
在像这样的网站上http://wikitravel.org/en/San_Francisco,诸如“Districts”、“Understand”、“Get in”等部分实际上并不包含HTML中的整个部分。节实际上只是标题中的跨类。正因为如此,我们不能简单地通过选择id来获取wiki文档的某些部分。 但是,是否可以收集两个标记之间的所有html?比如说我想要“四处走动”部分。我该如何发出一个选择器
我正在从事一个个人项目,希望解析这个html并从中检索信息。 基本上,我希望获得 标记中给出的所有信息,为此,我在java中使用JSOUP。 我使用这段代码来获取,但这是在一个段落中给出所有值。 我也试过了 但他的观点是空泛的。 有人能帮我以更好的方式获得这些数据吗?
我试图在这里使用JSOUP解析html标记。我对jsoup是新来的。基本上,我需要解析这些标记,获取这些标记中的文本,并应用class属性中提到的样式。 我正在创建一个SpannableStringBuilder,它可以创建子字符串,应用样式,并将它们附加到没有样式的文本中。 我不确定如何解析不在任何标记之间的字符串,例如“there are”和“worker from the”。 需要输出,例如
在我使用Jsoup连接到Instagram页面后,我想从一个标记中提取整个外部html。不知怎的,当我检查页面并从标记中复制外部html时,我得到了大量的行,而我使用Jsoup只得到了很少的行(不知怎的,嵌套标记的html被忽略了)任何帮助都将感谢如何获得整个html! 代码: 输出: 编辑:我希望保存span标记的整个HTML(我希望HTMLUnit/JSOUP的结果与我右键单击标记时的结果相同
我试图只解析包含尖括号作为文本一部分的html文档的文本。 例如,html文件看起来如下所示: 我希望解析的文本文件的结果如下所示: 我使用JSOUP的解析函数来实现这一点,如下所示, 但是,一旦Jsoup完成解析过程,它就会为每个尖括号添加标记,后面跟字符。 最终产生结果 如何防止Jsoup在解析文本时擦除文本中的尖括号? 或者是否有一种方法使Jsoup识别某些尖括号不是html元素?(可能使用
我是jsoup的新手,在使用非HTML元素(脚本)时遇到了一些困难。我有以下HTML: 用于显示这一点的应用程序知道如何处理 和.语句。因此,当我简单地用jsoup解析文本时,<和>被编码,html被重新组织,所以它不能正确地执行或显示。例如: 我的最终目标是添加一些css和js包含,并修改几个元素属性。那真的不是问题,我已经解决了那么多了。问题是我不知道如何保留非HTML元素,并将格式与原始格式
Jsoups解析是否存在某种类型的限制。我一直在处理内存问题,这是我在这个网站上公开的另一个问题,但我开始意识到我甚至没有得到我需要的所有信息。 我正在使用jsoup来解析一个html页面,它是一个测试页面,里面只有数百万个由空白分隔的数字。当我用jsoup解析它时,我可以得到一些文本,但它不会得到全部。 例如,如果我有一个,它包含来自.parse()的html,那么它只有整个网页中数字的一半。如
我必须解析一些html并移除锚标记,但我需要保留锚标记的innerHTML 例如,如果我的html文本是: 现在我可以解析上面的html并在jsoup中选择如下所示的标记, 我可以通过, 但是它会从开始括号到结束括号删除完整的achor标记,并且内部html会丢失,如何才能保留只删除开始和结束标记的内部html。 另外,请注意:我知道有从元素中获取outerHTML()和innerHTML()的方
我从一个使用Jsoup的网站上获得。连接() 当我们使用Jsoup或任何其他技术来请求使用我们的代码和平时,这是有效的还是合法的??。 . 我们试图使用Jsoup.connect(网址)或其他技术访问的网址。这样网址所有者就可以指控我们违反任何类型的信息技术条款。 . 这是合法的访问任何类型的网站,如私人网站,社交网站,PSU网站,政府网站从我们的和平的代码,并使用他们的反应过度发展 . 谢谢。
谢谢你到目前为止的帮助。 我的第一个问题是文档doc=Jsoup.connect(URL). get();在这个操作中通常会发生什么编码和解码。例如,我可以给它utf-8或utf-16(具有最新的JSoup库)。 我的第二个问题是以下网址: 如果滚动到england之前有一个空格,我尝试将空格编码为UTF-8,但Jsoup解析器会对URL进行双重编码,我需要这样做,因为Jsoup根本不喜欢空格。
在HTML文档中,我有以下标记 我正在使用JSoup,希望提取中包含的URL,该URL由标识。在阅读了下面的文章之后 > JSoup解析标记中的数据 我想出了这段代码 但这些都是印刷品 我尝试过其他的变化,但都没有成功。我要么什么也没打印出来,要么最后出现了空指针异常。 我不确定如何提取