如何过滤输入中的表情符号字符，以便保存在<5.5版的MySQL中？

公冶兴文

2023-03-14

问题内容：

我有一个Django应用程序，该应用程序从Twitter的API获取推文数据并将其保存在MySQL数据库中。据我所知（我仍然在关注字符编码的重点），我到处都在使用UTF-8，包括MySQL编码和排序规则，除了在推文中包含
Emoji 字符（我理解）外，它都可以正常工作使用四字节编码。尝试保存它们会从Django产生以下警告：

/home/biggleszx/.virtualenvs/myvirtualenv/lib/python2.6/site-
packages/django/db/backends/mysql/base.py:86：警告：错误的字符串值：’\ xF0 \ x9F \ x98 \
xAD I …’在第1行的’text’列返回self.cursor.execute（query，args）

我使用的是MySQL5.1，因此除非升级到5.5，否则我不希望使用utf8mb4（我宁愿不这样做）（从我读过的文章来看，Django对Django的支持还不具备生产准备能力，尽管这可能不再准确）。我还看到人们建议在受影响的列上使用BLOB而不是TEXT，我也宁愿不这样做，因为我认为这样做会损害性能。

我的问题是，假设我不太担心100％保留推文内容，是否有办法过滤掉所有Emoji字符并将其替换为非多字节字符，例如尊贵的字符WHITE MEDIUM SMALL SQUARE (U+25FD)？我认为这是在当前设置下保存数据最简单的方法，尽管如果我错过了另一个明显的解决方案，我也很乐意听到！

仅供参考，我在Ubuntu 10.04.4 LTS上使用库存Python
2.6.5。sys.maxunicode是1114111，所以它是UCS-4版本。

谢谢阅读。

问题答案：

感谢Martijn Pieters，解决方案来自于正则表达式的世界，特别是以下代码（基于他对上面第一个链接的回答）：

import re
try:
    # UCS-4
    highpoints = re.compile(u'[\U00010000-\U0010ffff]')
except re.error:
    # UCS-2
    highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
# mytext = u'<some string containing 4-byte chars>'
mytext = highpoints.sub(u'\u25FD', mytext)

我要替换的字符是WHITE MEDIUM SMALL SQUARE (U+25FD)FYI，但可以是任何字符。

对于像我这样不熟悉UCS的用户来说，这是一个用于Unicode转换的系统，并且给定的Python构建将包括对UCS-2或UCS-4变体的支持，每种变体在字符支持上都有不同的上限。

加上此代码，字符串似乎可以在MySQL 5.1中永久保存。

希望这对其他情况相同的人有所帮助！

如何过滤输入中的表情符号字符，以便保存在<5.5版的MySQL中？

相关阅读

相关文章

相关问答

相关工具

相关文档