我有以下html:
<html>
<body>
bla bla bla bla
<div id="myDiv">
more text
<div id="anotherDiv">
And even more text
</div>
</div>
bla bla bla
</body>
</html>
我要删除从开始<div id="anotherDiv">
到结束为止的所有内容<div>
。我怎么做?
使用本机DOM
$dom = new DOMDocument;
$dom->loadHTML($htmlString);
$xPath = new DOMXPath($dom);
$nodes = $xPath->query('//*[@id="anotherDiv"]');
if($nodes->item(0)) {
$nodes->item(0)->parentNode->removeChild($nodes->item(0));
}
echo $dom->saveHTML();
问题内容: 我如何脱衣 我知道您可以使用剥离标签删除标签,但是我也希望两者之间的所有内容都消失了。 任何帮助,将不胜感激。 问题答案: 在处理HTML时,应使用HTML解析器正确处理它。您可以使用PHP的DOMDocument并使用DOMXPath查询元素,例如:
问题内容: 我一直在玩BeautifulSoup,这很棒。我的最终目标是尝试仅从页面获取文本。我只是想从正文中获取文本,有一种特殊情况是从或标签中获取标题和/或alt属性。 到目前为止,我有这个: 1)对于我的特殊情况,您如何建议不从上面列出的两个标签中排除这些属性的最佳方法?如果执行此操作太复杂,则它不如#2重要。 2)我想剥离标签以及标签之间的所有内容。我该怎么办? @jathanism:以下
问题内容: 我正在尝试使用BeautifulSoup从网页获取文本。 以下是我编写的脚本。它带有两个参数,第一个是输入HTML或XML文件,第二个是输出文件。 不幸的是,对于许多网页来说,例如:http : //www.greatjobsinteaching.co.uk/career/134112/Education- Manager- Location 我得到这样的信息(我只显示了几行): 我的
问题内容: 是否存在现有的Java库,该库提供了一种从字符串中剥离所有HTML标记的方法?我正在寻找与PHP中的功能等效的东西。 我知道我可以使用这个问题中描述的正则表达式,但是我很好奇,是否可能已经有一种方法可以在Apache Commons库中的某个地方使用。 问题答案: 在开放了将近一个星期的问题之后,我可以肯定地说,Java API或Apache库中没有可用的方法可从字符串中剥离HTML标
问题内容: 我需要用ajax调用产生的html替换页面中div的内容。问题是html中包含一些必要的脚本,并且jquery html()函数似乎将它们剥离了,我需要过滤响应并仅获取特定的div。 我正在考虑一种解决方法,该方法是从ajax响应中提取所有脚本标签,然后将其附加到DOM中,但是这样做很麻烦。 这是我的代码; 但这是任何结论。我尝试了那里提出的解决方案,但没有一个起作用。 编辑:我似乎找
问题内容: 我有这个HTML输入: 我想使用正则表达式删除HTML标记,以便输出为: 谁能建议使用正则表达式执行此操作? 问题答案: 您可以使用称为Jericho Html解析器的HTML解析器。 您可以从这里下载-http://jericho.htmlparser.net/docs/index.html Jericho HTML Parser是一个Java库,允许对HTML文档的各个部分(包括服