当前位置：首页 > 面试题库 >

从字符串中删除每个非utf-8符号

薛弘济

2023-03-14

问题内容：

我有大量的文件和解析器。我要做的是剥离所有非utf-8符号并将数据放入mongodb中。目前，我有这样的代码。

with open(fname, "r") as fp:
    for line in fp:
        line = line.strip()
        line = line.decode('utf-8', 'ignore')
        line = line.encode('utf-8', 'ignore')

不知何故我仍然出现错误

bson.errors.InvalidStringData: strings in documents must be valid UTF-8: 
1/b62010montecassianomcir\xe2\x86\x90ta0\xe2\x86\x90008923304320733/290066010401040101506055soccorin

我不明白有一些简单的方法吗？

UPD ：似乎Python和Mongo对Utf-8有效字符串的定义不同意。

问题答案：

请尝试在下面的代码行而不是最后两行。希望能帮助到你：

line=line.decode('utf-8','ignore').encode("utf-8")

类似资料：

从字符串中删除无效的UTF-8字符

问题内容：我在字符串列表的json.Marshal上得到这个：原因很明显，但是如何在Go中删除/替换这样的字符串？我一直在阅读docst 和包，似乎没有明显/快速的方法。例如，在Python中，您可以使用一些方法删除无效字符，将其替换为指定字符或严格设置，这会导致无效字符的异常。如何在Go中做等效的事情？更新：我的意思是得到异常的原因（紧急？）-json.Marshal期望有效的UTF-8
json_encode（）非utf-8字符串？

问题内容：因此，我有一个字符串数组，所有字符串都使用系统默认的 ANSI 编码，并从SQL数据库中提取。因此，存在256个不同的可能字符字节值（单字节编码）。有没有一种方法可以使我工作并显示这些字符，而不必在我的所有字符串上使用并最终得到类似的东西？还是这是JSON的标准？问题答案：有没有一种方法可以使json_encode（）工作并显示这些字符，而不必在所有字符串上都使用utf8_en
从字符串中删除非UTF8字符

问题内容：我在从字符串中删除非utf8字符时出现问题，这些字符无法正确显示。像这样的字符0x97 0x61 0x6C 0x6F（十六进制表示）删除它们的最佳方法是什么？正则表达式还是其他？问题答案：使用正则表达式方法：它搜索UTF-8序列，并将其捕获到组1中。它还与无法标识为UTF-8序列的一部分的单个字节匹配，但不捕获这些字节。替换是捕获到组1中的任何内容。这将有效删除所有无效字节。
从字符串中删除非ASCII字符

问题内容：从网站提取数据时出现奇怪的字符：如何删除不是非扩展ASCII字符的内容？问题答案：正则表达式替换将是最佳选择。使用作为一个例子的字符串，并使用匹配它，这是一个POSIX字符类：什么是寻找所有可打印字符。相反，查找所有不可打印的字符。不属于当前字符集的所有字符都将被删除。注意：使用此方法之前，必须确保当前字符集为ASCII。POSIX字符类同时支持ASCII和Unicode，
使用声明的encoding = utf-8从xml中删除非UTF-8字符-Java

问题内容：我必须用Java处理这种情况：我从声明了encoding = utf-8的客户端收到XML格式的请求。不幸的是，它可能不包含utf-8字符，并且有必要从我这一边的xml中删除这些字符（旧式）。让我们考虑一个示例，其中该无效XML包含£（磅）。 1）我将xml作为带有£的java字符串（我现在无法访问接口，但我很可能将xml作为java的字符串）。我可以使用replaceAll（£，
从字符串中删除非数字字符

问题内容：我得到的任务是从文本文件或字符串中删除所有非数字字符，包括空格，然后在旧字符旁边打印新结果，例如：之前：后：由于我是初学者，所以我不知道从哪里开始。请帮忙问题答案：最简单的方法是使用正则表达式

从字符串中删除每个非utf-8符号

相关阅读

相关文章

相关问答

相关工具

相关文档