问题：

用fgets读取csv文件的PHP字符编码

缑泓

2023-03-14

我有一个网站，每月通过FTP接收一次CSV文件。多年来，这是一个ASCII文件。现在我一个月收到UTF-8，下一个月收到UTF-16BE，下个月收到UTF-16LE。也许下个月我会得到UTF-32。fget返回UTF文件开头的字节顺序标记。如何让PHP自动识别字符编码？我尝试过mb_detect_encoding它返回ASCII不管文件类型。我更改了代码以读取BOM，并显式地将字符编码mb_convert_encoding。这一直工作到最新的文件，即UTF-16LE。在此文件中，它正确读取第一行，所有后续行显示为问号 ("?").我做错了什么？

$fhandle = fopen( $file_in, "r" );
if ( fhandle === false )
    {
    echo "<p class=redbold>Error opening file $file_in.</p>";
    die();
    }

$i = 0;
while( ( $line = fgets( $fhandle ) ) !== false )
{
$i++;

// Detect encoding on first line. Actual text always begins with string "Document"
if ( $i == 1 )
    {
    $line_start = substr( $line, 0, 4 );
    $line_start_hex = bin2hex( $line_start );
    $utf16_start = 'fffe4400';
    $utf8_start = 'efbbbf44';
    if ( strcmp( $line_start, 'Docu' ) == 0 )
        { $char_encoding = 'ASCII'; }
    elseif ( strcmp( $line_start_hex, 'efbbbf44' ) == 0 )
        {
        $char_encoding = 'UTF-8';
        $line = substr( $line, 3 );
        }
    elseif ( strcmp( $line_start_hex, 'fffe4400' ) == 0 )
        {
        $char_encoding = 'UTF-16LE';
        $line = substr( $line, 2 );
        }
    elseif ( strcmp( $line_start_hex, 'feff4400' ) == 0 )
        {
        $char_encoding = 'UTF-16BE';
        $line = substr( $line, 2 );
        }
    else
        {
        echo "<p class=redbold>Error, unknown character encoding. Line =<br>", $line_start_hex, '</p>';
        require( '../footer.php' );
        die();
        }
    echo "<p>char_encoding = $char_encoding</p>";
    }

// Convert UTF
if ( $char_encoding != 'ASCII' )
    {
    $line = mb_convert_encoding( $line, 'ASCII', $char_encoding);
    }

echo '<p>'; var_dump( $line ); echo '</p>';
}

输出：

    char_encoding = UTF-16LE

string(101) "DocumentNumber,RecordedTS,Title,PageCount,City,TransTaxAccountCode,TotalTransferTax,Description,Name
"

string(83) "???????????????????????????????????????????????????????????????????????????????????"

string(88) "????????????????????????????????????????????????????????????????????????????????????????"

string(84) "????????????????????????????????????????????????????????????????????????????????????"

string(80) "????????????????????????????????????????????????????????????????????????????????"

共有2个答案

能可人

2023-03-14

我的建议是将所有内容转换为UTF-8或ASCII（如果您试图将所有内容转换为UTF-8或ASCII，则从您发布的代码中不太确定）

$utf8Line = iconv( mb_detect_encoding( $line ), 'UTF-8', $line );

或

$asciiLine = iconv( mb_detect_encoding( $line ), 'ASCII', $line );

您可以利用mb_detect_encoding为您做繁重的工作

夏晋

2023-03-14

显式传递要检测的顺序和可能的编码，并使用strict参数。另外，请使用文件获取内容，如果文件是UTF-16LE格式，fgets将为您带来麻烦。

<?php
header( "Content-Type: text/html; charset=utf-8");
$input = file_get_contents( $file_in );

$encoding = mb_detect_encoding( $input, array(
    "UTF-8",
    "UTF-32",
    "UTF-32BE",
    "UTF-32LE",
    "UTF-16",
    "UTF-16BE",
    "UTF-16LE"
), TRUE );

if( $encoding !== "UTF-8" ) {
    $input = mb_convert_encoding( $input, "UTF-8", $encoding );
}
echo "<p>$encoding</p>";

foreach( explode( PHP_EOL, $input ) as $line ) {
    var_dump( $line );
}

订单很重要，因为UTF-8和UTF-32更具限制性，而UTF-16则极为宽松；几乎任何随机的偶数字节长度都是有效的UTF-16。

保留所有信息的唯一方法是将其转换为unicode编码，而不是ASCII编码。

类似资料：

读取包含Python中转义字符的csv文件

大家好，提前致谢！我正在处理一个处理utf-8字符串并替换特定字符的Python脚本。因此，我使用，同时通过一个定义unicode字符及其所需替换的列表进行循环，如下所示。到目前为止，一切都很好。但现在考虑一个包含要替换的字符的csv文件，如下所示。由于转义字符的原因，我很不幸地未能将csv数据读入列表。我使用< code>csv模块读取数据，如下所示: 这将导致像< code>('\\U0
使用numpy.genfromtxt读取包含逗号的字符串的csv文件

问题内容：我正在尝试使用csv文件读取文件，但某些字段是包含逗号的字符串。字符串用引号引起来，但是numpy不能将引号识别为定义了单个字符串。例如，使用“ t.csv”中的数据：编码产生错误： ValueError：检测到一些错误！第2行（获得4列而不是3列）我正在寻找的数据结构是：查看文档，我看不到任何解决方案。有没有办法用numpy做到这一点，或者我只需要使用模块读入数据，然后将其转
从php中的csv文件读取大数据

问题内容：我正在读取csv并与mysql检查记录是否存在于我的表中或不在php中。 csv大约有25000条记录，当我运行我的代码时，它在2m 10s后显示“服务不可用”错误（加载：2m 10s）在这里我添加了代码注意：我只想列出表中不存在的记录。请为我建议解决方案… 问题答案：首先，您应该了解，在使用file_get_contents时，您会将整个数据字符串提取到一个变量中，该变量存储
php读取csv文件并输出的方法

本文向大家介绍php读取csv文件并输出的方法，包括了php读取csv文件并输出的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了php读取csv文件并输出的方法。分享给大家供大家参考。具体实现方法如下：希望本文所述对大家的php程序设计有所帮助。
从xml文件读取特定字符到php文件

当我将XML文件中的特定字符读取到PHP文件时，我遇到了一个问题。我使用像“ä”、“ü”和“ö”这样的字符。我得到以下错误： simplexml_load_string（）[function.simplexml-load-String]：实体：第96行：解析器错误：输入不正确的UTF-8，指示编码！字节：0xFC 0x73 0x65 0x0C
读取巨大的.csv文件

问题内容：我目前正在尝试从Python 2.7中的.csv文件中读取数据，该文件最多包含100万行和200列（文件范围从100mb到1.6gb）。对于少于300,000行的文件，我可以（非常缓慢地）执行此操作，但是一旦超过该行，就会出现内存错误。我的代码如下所示：在getstuff函数中使用else子句的原因是，所有符合条件的元素都将一起列在csv文件中，因此当我经过它们时，为了节省时间，我离

用fgets读取csv文件的PHP字符编码

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档