当前位置：首页 > 面试题库 >

使用Python从HTML提取数据

季嘉良

2023-03-14

问题内容：

我的Python代码处理了以下文本：

<td>
<a href="http://www.linktosomewhere.net" title="title here">some link</a>
<br />
some data 1<br />
some data 2<br />
some data 3</td>

您能建议我如何从内部提取数据<td>吗？我的想法是将其放入具有以下格式的CSV文件中：some link, some data 1, some data 2, some data 3。

我希望没有正则表达式会很困难，但实际上我仍然在反对正则表达式。

我或多或少地通过以下方式使用了代码：

tabulka = subpage.find("table")

for row in tabulka.findAll('tr'):
    col = row.findAll('td')
print col[0]

理想情况下是将每个td竞争以某个数组进行竞争。上面的HTML是python的结果。

问题答案：

获取BeautifulSoup并使用它。这很棒。

$> easy_install pip
$> pip install BeautifulSoup
$> python
>>> from BeautifulSoup import BeautifulSoup as BS
>>> import urllib2
>>> html = urllib2.urlopen(your_site_here)
>>> soup = BS(html)
>>> elem = soup.findAll('a', {'title': 'title here'})
>>> elem[0].text

类似资料：

使用Python从HTML文件中提取文本

问题内容：我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中，我希望得到的输出基本上相同。我想要比使用正则表达式更强大的功能，而正则表达式可能在格式不正确的HTML上失败。我见过很多人推荐美丽汤，但是使用它时遇到了一些问题。例如，它拾取了不需要的文本，例如JavaScript源。此外，它没有解释HTML实体。例如，我希望＆＃39; 在HTML源代码中转换为
使用Jsoup提取HTML数据

我有一个带有ID、TEXT等列的表，这里的TEXT是超文本标记语言FORMAT中包含数据的Clob列样本数据：当我使用Jsoup.parse（AUDIT_SCOPE_LOB.text（）时；我得到的数据如下我对java知之甚少。我可以使用jsoup获取java代码来提取数据并重新运行下面的outpu吗实际上，这个数据是一个样本数据。我有一些带有html标记的数据，这里没有提到。
使用python LXML从html网页中提取信息

我正在尝试制作一个python脚本，用我所拥有的有限知识从一个网页中刮取特定的信息。但我想我有限的知识是不够的。我需要提取7-8条信息。标签如下- 1 我已使用此代码开始
从HTML表中提取数据

问题内容：我正在寻找一种在Linux Shell环境中从HTML获取某些信息的方法。这是我感兴趣的一点：我想将它们存储在shell变量中或在从html上面提取的键值对中回显这些变量。范例：目前，我可以做的是创建一个Java程序，该程序将使用sax解析器或html解析器（例如jsoup）来提取此信息。但是在这里使用Java似乎很麻烦，因为要在您要执行的“包装器”脚本中包含可运行的jar。
使用Jsoup提取HTML

我一直在研究用于数据提取的Jsoup示例，并提取了此链接的一个示例 J汤
使用python selenium[duplicate]从HTML标记中提取占位符

我使用以下python代码启动Firefox网页。在启动if之后，不知何故我知道了这个标记的xpath。如果我现在是属性的名称，我可以使用python上的selenium webdrive使用以下命令提取属性。所以我的输出是请帮助我找出提取所有属性及其值的方法，即使我不知道它有哪些属性。我的预期输出是我不确定这可能有多远，但我希望像在字典中一样，我们甚至可以在不知道键的情况下提取数据。非

相关阅读

Python从文件中提取数据如何使用Python从doc / docx文件中提取数据从HTML Java提取文本使用JSoup从表中提取数据 Python请求-从response.text中提取数据

相关文章

Jsoup 读取URL获取HTML Jsoup 读取文件获取HTML Jsoup 使用DOM解析HTML HttpClient HTML表单提交示例 Python使用Redis

相关问答

如何使用python从pdf中提取数据[复制]使用Jsoup从表中提取数据如何使用提取从api获取数据使用java和jsoup从html标记中提取值使用Python提取和合并Excel数据

相关工具

解析html网页的数据 html HTML Purifier HTML Tidy Requests-HTML

相关文档

机器学习：使用 Python Python 数据结构 Python 数据结构 Python 数据科学利用 Python 进行数据分析 · 第 2 版