当前位置: 首页 > 知识库问答 >
问题:

需要帮助从整个博客页面html中提取特定段落文本和图像

郎飞航
2023-03-14

我需要html解析方面的帮助。在这里发布问题之前,我试图找到这个答案,但没有找到。我已经在一个数据库表中存储了博客页面的完整html。现在我想从HTML中提取文本和图像。但我只能从整个HTML中提取特定段落的文本和图像。

参见下面的示例,它有很多代码标记。它有三段。我只能从与我的要求相关的第2段中提取文本和图像。(我有关键字,我可以搜索关键字,这样我就可以识别我需要提取这个段落。)

我如何从任何博客中提取特定的段落文本和图像。我有关键字在html中搜索,即关键字=产品ABC。我正在使用PHP。

<html>
<!-- Javascript: tag come here --->
<!-- Head: tag come here --->
<!-- Meta: tag come here --->
<!-- Title: tag come here --->
<!-- Links: tag come here --->
<!-- Javascript: tag come here --->

<body>

<!-- Lot of other code come here about links, javascript, headings etc -->
<!-- DIV: tag come here --->

<p> "PARAGRAPH 1, This paragraph contain only some text." </p>
<!-- Script: tag come here --->

<p> PARAGRAPH 2, It has some information about PRODUCT ABC...</p>
<img /> <!-- some images come here related to this paragraph.-->
<img /> <!-- some images come here related to this paragraph.-->
<img /> <!-- some images come here related to this paragraph.-->
<!-- Script: tag come here --->

<p> PARAGRAPH 3, This paragraph contain only some text. </p>
<img /> <!-- some images come here related to this paragraph.-->
<!-- Links: tag come here --->
<!-- Javascript: tag come here --->

</body>
</head>
</html>

共有1个答案

赵征
2023-03-14

我同意梦想家的观点。虽然,这是html论坛。:p

使用此代码

$HTML=file_get_html('http://www.google.com/');$par=$html->查找('p[id=hello]');foreach($par->find('img')as$element)echo$element->src。“

 类似资料:
  • 在一个HTML文件中, 包含许多 ,而在另一个 中, 包含许多 。使用我需要的JavaScript,当我悬停在第一个上时,第一个 的背景颜色会发生变化,以此类推... 匿名用户 你的问题是如此令人困惑,提供一个屏幕截图或绘图表明你实际想要什么。

  • 问题内容: 更新资料 Boilerpipe看起来确实工作得很好,但是我意识到我并不需要主要内容,因为许多页面上没有文章,而只是带有简短描述的链接到整个文本(这在新闻门户网站中很常见),并且我不想丢弃这些短裤文字。 因此,如果API执行此操作,请获取不同的文本部分/以某种方式将每个部分分开的块,这些块与单个文本不同(仅在一个文本中没有用),请报告。 问题 我从随机站点下载了一些页面,现在我想分析页面

  • 结果我只想要abc,xyz,jkl。 相同的正则表达式或代码是什么...?

  • 我正在尝试使用表单识别器-Azure认知服务从pdf文件中提取文本。我使用的是定制模型,我用我的模型训练这项服务,然后尝试提取数据。 我的PDF通常有超过1页。但是我对从第一页提取文本感兴趣。Rest所有页面没有任何重要性。 那么,有没有什么方法可以训练我的系统通过给出页码从选定的页面中提取文本? 祝好 玛杜

  • activity\u checklist\u详细信息。xml 以下是ChecklistDetail活动 但对我来说什么都不管用。如果我将activity\u checklist\u detail中的布局更改为水平或垂直,我将得到下图。 注意:我知道使用RecyclerView是最好的选择,但这里我没有很多项目。提前谢谢。

  • 然后,这需要转到数据库,该数据库向工作人员发送返回消息,告诉他们该成员已被添加。 只有工作人员在和系统通话,没有人。