问题：

从html中提取表格数据并另存为文本文件

夏才

2023-03-14

我想从html中提取表格数据，并另存为文本文件

import urllib2, numpy as np, pandas as pd
fo = 'fo.txt'
url = 'https://coinmarketcap.com/currencies/bitcoin/historical-data/'
html = urllib2.urlopen(url).read()
rows = pd.read_html(html)
print type(rows)
print rows

for row in rows:
    this_row = "|".join([str(td) for td in row])
    fo.write(this_row + "\n")

但我得到了一个错误：

Traceback (most recent call last):
    fo.write(this_row + "\n")
AttributeError: 'str' object has no attribute 'write'

文本文件中生成的表格数据看起来与原始链接中的一样：https://coinmarketcap.com/currencies/bitcoin/historical-data/

任何帮助，请！

共有1个答案

仇经武

2023-03-14

如果要写入文本文件，则需要文件对象。在源代码中，fo对象是一个字符串。

在python中，你可以打开一个文件，这样写：

with open(fo,'w') as text_file:
    for row in rows:
        this_row = row
        text_file.write(this_row + "\n")

类似资料：

8.3. 从 HTML 文档中提取数据

8.3. 从 HTML 文档中提取数据为了从 HTML 文档中提取数据，将 SGMLParser 类进行子类化，然后对想要捕捉的标记或实体定义方法。从 HTML 文档中提取数据的第一步是得到某个 HTML 文件。如果在您的硬盘里存放着 HTML 文件，您可以使用 file 函数将它读出来，但是真正有意思的是从实际的网页得到 HTML。例 8.5. urllib 介绍 >>> import
从HTML表中提取数据

问题内容：我正在寻找一种在Linux Shell环境中从HTML获取某些信息的方法。这是我感兴趣的一点：我想将它们存储在shell变量中或在从html上面提取的键值对中回显这些变量。范例：目前，我可以做的是创建一个Java程序，该程序将使用sax解析器或html解析器（例如jsoup）来提取此信息。但是在这里使用Java似乎很麻烦，因为要在您要执行的“包装器”脚本中包含可运行的jar。
从HTML Java提取文本

问题内容：我正在开发一个程序，该程序可以下载HTML页面，然后选择一些信息并将其写入另一个文件。我想提取段落标签之间的信息，但是我只能获得段落的一行。我的代码如下：我试图添加另一个while循环，这样可以告诉程序继续写入文件，直到该行包含该标记为止；问题答案： so 我真正喜欢使用的另一个html解析器是jsoup。您可以在2行代码中获得所有元素。然后再将其写到文件中或者，如果您希望
使用Python从HTML文件中提取文本

问题内容：我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中，我希望得到的输出基本上相同。我想要比使用正则表达式更强大的功能，而正则表达式可能在格式不正确的HTML上失败。我见过很多人推荐美丽汤，但是使用它时遇到了一些问题。例如，它拾取了不需要的文本，例如JavaScript源。此外，它没有解释HTML实体。例如，我希望＆＃39; 在HTML源代码中转换为
从文本文件中提取数据javascript[重复]

我在造一个机器人来运行一个不和谐的游戏。玩家登录,他们的数据被推入一个数组,如下所示：
正则表达式从HTML提取文本

问题内容：我想从一般的HTML页面中提取所有文本（是否显示）。我想删除任何HTML标记任何JavaScript 任何CSS样式是否有一个正则表达式（一个或多个）可以实现？问题答案：您不能真正用正则表达式解析HTML。太复杂了。RE根本无法正确处理部分。此外，某些常见的HTML之类的东西将在浏览器中作为适当的文本工作，但可能会使天真的RE感到困惑。有了合适的HTML解析器，您会更快

从html中提取表格数据并另存为文本文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档