当前位置: 首页 > 知识库问答 >
问题:

CSV(在字段值中有额外的引号)到ColdFusion中的数组

韦辰钊
2023-03-14

我正在使用这篇文章将 CSV 文件转换为数组。一切都很好。但是我得到了一个文件,其中包含字段值中的额外引号,例如:

“bash:”快捷方式“是”

< code>"bash: \ "快捷键\ "是" 。

所以我尝试像这样替换这些引号:

<cffile action="read" file="#filePath#" variable="csvContent">
<cfset csvContent = reReplace(csvContent, '(?:[^,\r\n])"(?:[^,\r\n])', '&quot;', 'ALL')>

<--- Then do the conversion --->
<cfset array = csvToArray(csv = csvContent)>

但是非捕获组不工作。我做错了什么?

还有别的办法吗?

编辑1:

我还尝试使用cfhttp并得到以下错误:

<cfhttp name="csvToQuery" method="get" url="#url#" />

详细信息:验证列属性和目标文件中指定的列数

消息:行中的列数不正确。

stack trace:cold fusion . tagext . net . http tag $ InvalidColumnsException:行中的列数不正确。在coldfusion.tagext . net . httptag . conn helper(http tag . Java:1149)在cold fusion . tagext . net . http tag . doendtag(http tag . Java:1219)在cfmfhttp2 ecfm 308364137 . run page(C:\ inetpub \ wwwroot \ mfhttp . cfm:1)在cold fusion . runtime . cfjsppage . invoke(cfjsppage . Java:244)在cold fusion . tagextcfm servlet . service(cfm servlet . Java:219)at cold fusion . bootstrap . bootstrap servlet . service(bootstrap servlet . Java:89)at org . Apache . catalina . core . applicationfilterchain . internal dofilter(applicationfilter chain . Java:303)at org . Apache . catalina . core . applicationfilter chain . do filter(applicationfilter chain . Java:208)at cold fusion . monitor . event . monitoring servlet filter . do filter(monitoring servlet filter

共有1个答案

吴弘壮
2023-03-14

哦,你不能这么容易地自己修复这种输入。正则表达式会进一步破坏你的数据。

你能在Java中创建一个小脚本来处理这个问题吗?如果你这样做了,然后使用uniVardy-parser来读取你的CSV输入,并用正确的引号转义写回它:

这是唯一一个可以处理断引号转义的CSV解析器。请尝试以下示例:

import com.univocity.parsers.csv;

import java.io.*;
import java.util.*;

public class Test {

    public static void main(String ... args){
        CsvParserSettings settings = new CsvParserSettings();
        settings.getFormat().setLineSeparator("\r\n");
        settings.setParseUnescapedQuotes(true); // THIS IS IMPORTANT FOR YOU
        CsvParser parser = new CsvParser(settings);

        String line1 = "something,\"a quoted value \"with unescaped quotes\" can be parsed\", something\r\n";
        System.out.println("Input line: " + line1);

        String line2 = "\"after the newline \r\n you will find \" more stuff\r\n";
        System.out.println("Input line: " + line2);

        List<String[]> allInputLines = parser.parseAll(new StringReader(line1 + line2));

        System.out.println("===============\nParsed input values\n===============");
        int count = 0;
        for(String[] line : allInputLines){
            System.out.println("From line " + ++count + ":");
            for(String element : line){
                System.out.println("\t" + element);

            }
            System.out.println();
        }

        //Let's write your output CSV
        StringWriter output = new StringWriter();
        CsvWriterSettings writerSettings = new CsvWriterSettings();
        writerSettings.getFormat().setLineSeparator("\r\n");
        writerSettings.getFormat().setQuoteEscape('\\'); //it seems you are using backslash as quote escape
        writerSettings.getFormat().setCharToEscapeQuoteEscaping('\\'); //when your quote escape character is not the same as the quote character, you might need to escape the escape character as well
        writerSettings.setQuoteAllFields(true); //let's force quotes on all fields so whatever is parsing your input file has more  chance of doing it properly
        CsvWriter writer = new CsvWriter(output, writerSettings);

        for(String[] row : allInputLines){
            writer.writeRow(row);
        }
        writer.close();

        System.out.println("===============\nNicely formatted output\n===============");
        System.out.println(output.toString());

    }

}

此代码将产生以下输出(可能会被您的数据导入工具读取):

Input line: something,"a quoted value "with unescaped quotes" can be parsed", something

Input line: "after the newline 
you will find " more stuff

===============
Parsed input values
===============
From line 1:
    something
    a quoted value "with unescaped quotes" can be parsed
    something

From line 2:
    after the newline 
you will find " more stuff


===============
Nicely formatted output
===============
"something","a quoted value \"with unescaped quotes\" can be parsed","something"

"after the newline 
 you will find \" more stuff"

披露:我是这个库的作者。它是开源和免费的(Apache V2.0许可证)。

ColdFusion 10示例:

>

  • 将罐子装入Application.cfc

    this.javaSettings = { loadPaths: ["C:\path\to\univocity-parsers-1.5.6.jar" ]};
    

    使用 createObject 创建解析器类的实例:

    filePath = "c:\path\to\yourFile.csv";
    settings = createObject("java", "com.univocity.parsers.csv.CsvParserSettings").init();
    settings.getFormat().setLineSeparator(chr(13)& chr(10));
    settings.getFormat().setQuoteEscape("\");
    settings.setParseUnescapedQuotes(true); // THIS IS IMPORTANT FOR YOU
    parser = createObject("java", "com.univocity.parsers.csv.CsvParser").init(settings);
    reader = createObject("java", "java.io.StringReader").init(fileRead(filePath));
    arrayOfLines = parser.parseAll(reader);
    
    // display results
    counter = 1;
    for (line in arrayOfLines) {
        writeOutput("<br>From line "& (counter++) & ":");
        for (element in line) {
           writeOutput("<br>"& element);
        }
    }
    

  •  类似资料:
    • 问题内容: 我正在读取一个基本的csv文件,其中这些列用逗号分隔,这些列名称分别为: 但是,主体列是一个字符串,可能包含逗号。显然,这会导致问题,并且熊猫抛出错误: 有没有一种方法可以告诉熊猫忽略特定列中的逗号,或者可以解决该问题? 问题答案: 想象一下,我们正在读取名为的数据框: 您可以做的一件事是使用以下命令在列中指定字符串的定界符: 在这种情况下,以逗号分隔的字符串将被视为总数,而不管它们之

    • 我需要解析一个一列的CSV文件,它不仅有额外的逗号,而且一些名称还包括额外的引号。我已经看过了,并阅读了之前的其他问题,最好的答案之一是阿钦蒂亚·杰哈的答案。然而,这种解决方案似乎在我的情况下不起作用。一个例子是这个名字 正在打印为: 它在正确的地方分裂,并且正在处理额外的逗号,但它没有击中额外的引号,并且现在也在那里分裂,所以

    • 问题内容: 我有一个CSV文件,例如 我想加上引号使它像: 最快的方法是什么?我将在cronjob中实现它。 问题答案: 使用sed:

    • 问题内容: 我需要使用ProcessBuilder构建以下命令: 我尝试使用以下代码: 但是,这会将以下内容传递给系统(已使用Sysinternals Process Monitor进行了验证) 注意前面的引号和后面的两个引号。我需要除去那些多余的引号,因为它们会使调用失败。有谁知道如何做到这一点? 问题答案: 据我了解,由于ProcessBuilder不知道如何将参数传递给命令,因此需要将参数分

    • 是否有一个注释或其他方法告诉Jackson序列化一个字符串变量的值而不加引号。序列化程序应该只序列化一个字段的值,而不带引号。 而不是 以上是外部java脚本库需要数据的方式,因此如果没有方法,我将不得不在对象映射器将字符串转换为JSON之后手动更改字符串。

    • 我正在尝试使用OpenCSV解析CSV文件。其中一列以YAML序列化格式存储数据,并被引用,因为其中可以包含逗号。它里面也有引号,所以它通过放两个引号来转义。我能够在Ruby中轻松解析这个文件,但使用OpenCSV我无法完全解析它。这是一个UTF-8编码的文件。 这是我的Java片段,它试图读取文件 这是此文件中的2行。第一行没有被正确解析,并且在处被拆分,因为我猜是转义双引号。