当前位置: 首页 > 知识库问答 >
问题:

用于格式不正确的管道分隔csv文件的正则表达式

蔡理
2023-03-14

我正在寻找一个正则表达式来识别管道分隔的csv文件中出现的未转义双引号字符。也就是说,文件是以管道分隔的,每个字段都用双引号括起来,但有些字段包含单双引号字符,应该用额外的双引号转义,以符合RFC4180的要求<例如。

"字段1"|"字段2""文本中的文本""|"正确"
"字段1"|"字段2"文本中的文本"|"不正确"

因为在第一行中,一个双引号已正确转义为另一个双引号字符。

我在找一个测试来找出错误转义的双引号

我可以找到前面没有带[^ |]\“的管道的双引号,也可以找到后面没有带\“[^ |]
的管道的双引号,但这就是我被卡住的地方

查找不带管道且不带管道且不带双引号的双引号

共有1个答案

林烨烨
2023-03-14

这个正则表达式应该完成预期的工作

<代码>(?

基本上,它会向后看并搜索任何东西,而不是^(行首)、|

它将执行相同的转发操作,但它将检查行尾,而不是行首

 类似资料:
  • 我正在处理一个案例,其中我有一个csv文件,其中包含以下数据 我在尝试骆驼路线 我正试着用骆驼路线。例如,当我使用XML时,我可以在路由中解析XML 我不能使用Camel-Bindy,因为我没有固定的分隔符 示例 它们的长度是可变的,我在bean中处理过。有什么方法可以解析或使用正则表达式吗?

  • 我根据下面亚历克斯的建议进行了改进。我需要的是下面的图片。然而,每一行/每一行应该是一个评论:带有日期、评级、评论文本和链接。 我需要让项目处理者处理每一页的每次审查 目前,TakeFirst()只对页面进行第一次审阅。所以10页,我只有10行,如下图所示。 蜘蛛代码如下:

  • 我有一个数据帧,其中一列是一系列字符串,其中截然不同的短语要么是单个单词,要么是用空格分隔的多个单词;每个单词的第一个字母都是大写字母(例如“草莓”或“草莓果酱”)。相反,如果这些词不是同一短语的一部分,则不会间隔开(例如“jamapple”)。 我如何使用regex在一个字符串中根据上面的规则将短语分开(分为“草莓果酱”、“苹果”、“香蕉”、“梨碎”、“土豆”、“杏仁蛋糕”)。然后提取他们?即获

  • 昨天,我需要向正则表达式添加一个文件路径,创建一个如下所示的模式: 一开始正则表达式不匹配,因为包含几个正则表达式特定的符号,如 或 。作为快速修复,我将它们替换为 和 . 与 . 然而,我问自己,是否没有一种更可靠或更好的方法来清除正则表达式特定符号中的字符串。 Python 标准库中是否支持此类功能? 如果没有,您是否知道一个正则表达式来识别所有正则表达式并通过替代品清理它们?

  • 问题内容: 我想在Java中构建一个正则表达式,该正则表达式将在FilenameFilter中传递以过滤目录中的文件。 问题是我无法理解正则表达式“思维模型”的问题:) 这是我用来选择要排除的文件的正则表达式 (((ABC | XYZ))+ \ w * Test.xml 我想做的是选择所有以Test.xml结尾但不以ABC或XYZ开头的文件。 您能否添加任何可以帮助我应对正则表达式的资源。 谢谢