当前位置：首页 > 面试题库 >

file_get_contents（）分解UTF-8字符

羊舌富

2023-03-14

问题内容：

我正在从外部服务器加载HTML。HTML标记具有UTF-8编码，并包含ľ，š，č，ť，ž等字符。当我使用file_get_contents（）加载HTML时，如下所示：

$html = file_get_contents('http://example.com/foreign.html');

它弄乱了UTF-8字符并加载了Å，¾，¤和类似的废话，而不是正确的UTF-8字符。

我该如何解决？

更新：

我尝试将HTML保存到文件中并以UTF-8编码输出。两者都不起作用，所以这意味着file_get_contents（）已经返回损坏的HTML。

UPDATE2：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="sk" lang="sk">
<head>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="Content-Style-Type" content="text/css" />
<meta http-equiv="Content-Language" content="sk" />
<title>Test</title>

</head>
<body>


<?php

$html = file_get_contents('http://example.com');
echo htmlentities($html);

?>

</body>
</html>

问题答案：

好的。我发现file_get_contents（）不会导致此问题。我在另一个问题中谈到的是另一个原因。傻我

类似资料：

字符串解码utf-8

问题内容：如何使用Android解码utf-8字符串？我尝试使用此命令，但输出与输入相同：问题答案：字符串不需要编码。它只是一个Unicode字符序列。要将字符串转换为字节序列时需要进行编码。您选择的字符集（UTF-8，cp1255等）确定了Character-> Byte映射。请注意，字符不必转换为单个字节。在大多数字符集中，大多数Unicode字符都转换为至少两个字节。字符串的编
Java 8更改UTF-8解码

问题内容：最近，我们将应用程序从JDK 7迁移到了JDK8。更改之后，我们遇到了以下代码段的问题。字节数组可能包含无效的UTF-8字节序列。UTF-8解码时，相同的字节数组在Java 7和Java 8上产生两个不同的字符串。根据此SO帖子的答案，Java 8“修复”了Java7中的错误，并用替换字符串替换了无效的UTF-8字节序列，该字符串符合UTF-8规范。但是我们想坚持使用Java 7
json_encode（）非utf-8字符串？

问题内容：因此，我有一个字符串数组，所有字符串都使用系统默认的 ANSI 编码，并从SQL数据库中提取。因此，存在256个不同的可能字符字节值（单字节编码）。有没有一种方法可以使我工作并显示这些字符，而不必在我的所有字符串上使用并最终得到类似的东西？还是这是JSON的标准？问题答案：有没有一种方法可以使json_encode（）工作并显示这些字符，而不必在所有字符串上都使用utf8_en
dropwizard多部分formdata utf-8

我使用dropwizard实现我的服务器，为了上传我的文件，我使用多部分formdata使用这个答案。但是当我使用带有utf-8字符集的文件时，我从表单数据内容对象中的文件名崩溃了。代码：
Java PreparedStatement UTF-8字符问题

问题内容：我有一个准备好的声明：在我的代码中，我尝试使用st.setString方法。 userName的值为şakça。setString方法将’şakça’更改为’？akça’。它不能识别UTF-8字符。我怎么解决这个问题？谢谢。问题答案：实际上，解决这些问题的方法数量非常可观。如果您使用的是MySQL，请尝试在JDBC连接URL的末尾添加一个参数：您还应该检查表/列字符集是否为U
Java字符串编码（UTF-8）

问题内容：我遇到了这行遗留代码，我试图找出这些遗留代码：据我了解，它是使用相同的charSet进行编码和解码。这与以下内容有何不同？在任何情况下，两条生产线的输出将不同？ ps：只是要澄清一下，是的，我知道Joel Spolsky撰写的关于编码的出色文章！问题答案：这可能是很复杂的方式这缩短了String，而所使用的基础char []则更长。但是，更具体地说，将检查每个字符是否都

相关阅读

Java字符串编码（UTF-8）UTF-8字符串未在AngularJS中正确解码 Java不显示UTF-8 CJK字符使用声明的encoding = utf-8从xml中删除非UTF-8字符-Java 如何使用python解码代表utf-8的字符串？

相关文章

什么是Lyndon分解？面经分享 -8/13 - 猿辅导前端一面解析字符串哈希(Hash)字节数分面经字节数分一面

相关问答

Python中UTF-8的Url解码 outlook消息分析器库能否处理UTF-8字符从双UTF-8到UTF-8（或从UTF-8到ANSI）的“原始”转换具有非UTF-8字符的请求正文引发JSON解析错误：无效的UTF-8起始字节0xae，0xfc 接受UTF-8的HTML字符编码

相关工具

UTF-8 CPP 8 Kingdoms Alibaba Dragonwell 8 awesome-PICO-8 Bisheng JDK 8

相关文档

Java 8 简明教程 Java 8 介绍性教程 iOS 8 人机交互指南分布式 Java Stack Overflow 关于 Python 的部分高分问题