问题：

用漂亮的汤处理xml编码错误

董子航

2023-03-14

我的xml文件编码如下：

<?xml version="1.0" encoding="utf-8"?>

我正在尝试使用漂亮的汤解析此文件。

from bs4 import BeautifulSoup

fd = open("xmlsample.xml")  
soup = BeautifulSoup(fd,'lxml-xml',from_encoding='utf-8')

但这导致

Traceback (most recent call last):
  File "C:\Users\gregg_000\Desktop\Python 
Experiments\NRE_XMLtoCSV\NRE_XMLtoCSV\bs1.py", line 4, in <module>
    soup = BeautifulSoup(fd,'lxml-xml', from_encoding='utf-8')
  File 
"C:\Users\gregg_000\AppData\Local\Programs\Python\Python36\lib\site-

包\bs4__init__.py“，第 245 行，初始化标记 = 标记.read（）文件

“C:\ Users \ Gregg _ 000 \ AppData \ Local \ Programs \ Python \ Python 36 \ lib \ encodings \ CP 125 2 . py”，第23行，在decode return codecs . charmap _ decode(input，self.errors，decoding _ table)[0]unicode decode错误:“charmap”编解码器无法解码位置5343910处的字节0x9d:字符映射到未定义的

我的感觉是Python希望使用默认的cp1252字符集。如何在不使用命令行的情况下强制使用utf-8？（我所处的环境中，无法轻松强制对python设置进行全局更改）。

共有1个答案

金高飞

2023-03-14

您还应该将编码添加到 open（） 调用中（如文档所示，这是一个可接受的参数）。默认情况下，在Windows中（至少在我的安装中），正如您所猜测的那样，默认值为cp1252。

from bs4 import BeautifulSoup

fd = open("xmlsample.xml", encoding='utf-8')
soup = BeautifulSoup(fd,'lxml-xml',from_encoding='utf-8')

类似资料：

漂亮的刮汤台

我有一小段代码来从web站点中提取表数据，然后以csv格式显示。问题是for循环多次打印记录。我不确定是不是因为标签。顺便说一句，我是Python新手。谢谢你的帮助！
用漂亮的汤刮多页

我已经获得了刮取第一页的代码，但是url从： https://www.expansion.com/empresas-de/ganaderia/granjas-en-general/index.html -- 如何创建从第2页到第65页的循环？非常感谢！
用漂亮的汤刮Flipkart网页

我试图刮此页上Flipkart： http://www.flipkart.com/moto-x-play/p/itmeajtqp9sfxgsk?pid=MOBEAJTQRH4CCRYM 我试图找到的div类"fk-ui-ccarousel超级容器相同的vreco部分reco-carousel-边界-顶部sameHorizontalReco"，但它返回空结果。 divs是空的。我使用inspect元
使用pip安装漂亮的汤

问题内容：我正在尝试在Python 2.7中安装BeautifulSoup 。我不断收到错误消息，无法理解原因。我按照说明安装了pip，该pip已安装到以下目录：，然后尝试将其添加到路径中并运行命令。尝试了两种不同的方法：都给我这个错误信息：该外壳突出显示“安装”一词，并说这是无效的语法。我不知道发生了什么，所以任何帮助将不胜感激。问题答案：是命令行工具，而不是Python语法
漂亮的汤模块错误（html解析器）

我使用beautifulsoup查找网页上的页数，但在编写代码时：它给出了以下错误：回溯（最近一次调用）：文件“C:/Users/HangaarLab/Desktop/sonartik/sonartik.py”，第13行，在soup=BeautifulSoup（response.text）TypeError中：“模块”对象不可调用在另一台计算机中，代码运行，但它给出了以下警告： UserWa
用漂亮的汤从div tag刮href

我有一个带有div标签的页面源，如下面的示例页面源。我想像下面的例子一样刮掉所有的网址，并将它们保存在列表中。示例url：来自：我尝试使用下面的代码从href中刮取网址。我试图使用span类来过滤只包含作业卡search__easy飞机的div标签。代码不返回任何网址，只是一个空列表。我对美丽的汤和硒不熟悉。如果有人能指出我的问题是什么，并提出一个解决方案，我会很高兴。特别是如果你也能给出一

用漂亮的汤处理xml编码错误

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档