如果只有ASCII字符,并且要删除不可打印的字符,最简单的方法是使用string.printable过滤掉那些字符。例如,
>>> import string >>> filter(lambda x: x in string.printable, '\x01string') string
未打印0x01,因为它不是可打印字符。如果还需要支持Unicode,则需要使用Unicode数据模块和正则表达式删除这些字符。
import sys, unicodedata, re # Get all unicode characters all_chars = (unichr(i) for i in xrange(sys.maxunicode)) # Get all non printable characters control_chars = ''.join(c for c in all_chars if unicodedata.category(c) == 'Cc') # Create regex of above characters control_char_re = re.compile('[%s]' % re.escape(control_chars)) # Substitute these characters by empty string in the original string. def remove_control_chars(s): return control_char_re.sub('', s) print (remove_control_chars('\x00\x01String'))
输出结果
这将给出输出:
String
我遇到了一个bug,我无法将两个看似“相同”的字符串匹配在一起。例如,以下两个字符串无法匹配:“sample”和“sample”。 要复制此问题,可以在Clojure中运行以下命令。 经过一个小时的沮丧调试,我发现第二串前面有一个零宽度的空格!通过退格键将它从这个例子中删除是微不足道的。然而,我有一个正在匹配的字符串数据库,似乎有多个字符串面临这个问题。我的问题是:Clojure中有没有修剪零宽空
问题内容: 我过去跑步 在Perl上摆脱不可打印的字符。 在Python中,没有POSIX正则表达式类,因此我无法编写[:print:]来表示我想要的含义。我不知道在Python中无法检测字符是否可打印。 你会怎么做? 编辑:它也必须支持Unicode字符。string.printable方式会很乐意将它们从输出中剥离。curses.ascii.isprint将为任何unicode字符返回fals
我想我需要删除字符0-31和127。 是否有一个函数或一段代码来高效地做到这一点?
问题内容: 如何修剪JavaScript中的字符串? 问题答案: 自IE9 +起,所有浏览器都具有字符串方法。 对于不支持的浏览器,可以使用MDN中的以下polyfill : 也就是说,如果使用,也可以使用,并且可以处理undefined / null。 看到这个:
问题内容: 我曾尝试打印它,但由于它是转义字符,因此只是通过而已。例如,输出应如下。 提前致谢 问题答案: 为此以及将来的参考:
问题内容: 打印列表中元素之前的“ u”?我没有在代码中键入u。 当我运行此命令时,它将打印列表,但其格式如下: 那些“ u”来自列表中每个元素的位置? 问题答案: 我认为您实际上对此感到惊讶的是,打印单个字符串与打印字符串列表的功能不同–无论是否为Unicode,这都是事实: 即使没有,您也有多余的引号,更不用说反斜杠转义了。而且,如果您使用字节字符串而不是字符串尝试相同的操作,那么您仍然会使用