问题：

使用新行修复CSV文件

能逸清

2023-03-14

我使用SQL Server Management Studio在MS SQL数据库上运行了一个查询，一些字段包含新行。我选择将结果保存为csv，显然MS SQL不够智能，无法给我一个格式正确的CSV文件。

其中一些带有新行的字段用引号包装，但有些不是，我不知道为什么（如果它们包含多个新行，似乎会引用字段，但如果它们只包含一个新行，则不会，感谢Microsoft，这很有用）。

当我试图在Excel中打开这个CSV时，由于新行的原因，有些行是错误的，它认为一行是两行。

我怎么才能解决这个问题？

我想我可以使用正则表达式。可能是这样的：

/,[^,]*\n[^,]*,/

问题是它匹配一行的最后一个元素和下一行的第一个元素。

下面是演示该问题的示例 csv：

field a,field b,field c,field d,field e
1,2,3,4,5
test,computer,I like
pie,4,8
123,456,"7

8

9",10,11
a,b,c,d,e

共有2个答案

淳于慎之

2023-03-14

如果您想要java编程解决方案，请使用OpenCSV库打开文件。如果是手动操作，则在Vim等文本编辑器中打开文件并运行替换命令。如果是批量操作，则可以使用perl命令清理CRLF。

季炯

2023-03-14

简单的正则表达式替换不起作用，但这里有一个基于preg_replace_callback的解决方案：

function add_quotes($matches) {
    return preg_replace('~(?<=^|,)(?>[^,"\r\n]+\r?\n[^,]*)(?=,|$)~',
                        '"$0"',
                        $matches[0]);
}

$row_regex = '~^(?:(?:(?:"[^"*]")+|[^,]*)(?:,|$)){5}$~m';

$result=preg_replace_callback($row_regex, 'add_quotes', $source);

$row_regex的秘诀是提前知道有多少列。它从一行的开头开始（多行模式下为 ^），并消耗接下来的五个看起来像字段的东西。它没有我想要的那么高效，因为它总是在最后一列上超调，在回溯到行尾之前消耗“真正的”行分隔符和下一行的第一个字段。如果您的文档非常大，这可能是一个问题。

如果您事先不知道有多少列，您可以通过只匹配第一行并计数匹配项来发现这一点。当然，这假设行不包含导致问题的任何时髦字段。如果第一行包含列标题，您不必担心这一点，也不必担心合法的引用字段。我是这样做的：

preg_match_all('~\G,?[^,\r\n]++~', $source, $cols);

$row_regex = '~^(?:(?:(?:"[^"*]")+|[^,]*)(?:,|$)){' . count($cols[0]) . '}$~m';

您的示例数据只包含换行符(< code>\n)，但我也允许DOS样式的< code>\r\n。(由于该文件是由微软产品生成的，所以我不会担心老式Mac风格的CR-only分隔符。)

观看在线演示

使用新行修复CSV文件

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档