PM接了个邮件预览的需求,其他项目组买了Aspose.Email for Java的服务,包装一下做了个邮件转换服务,将eml、msg格式转换为html文本,将html以流的形式返回。基于这个邮件转换服务,我们开发出邮件预览功能。思路就是文件传到他们那边,拿到返回的流,之后有两种方式:1.流写入文件,让用户下载。2.将返回的流转为字符串,让前端开一个tab进行渲染。
其实在我们接入之前,已经有两个项目接入了这个邮件转换服务,拿到的返回流都是以第一种方式处理的(很奇怪这怎么算是预览,明明是下载。。。),PM要的效果是第二种,这也是最后用到icu4j的原因。
我的代码最初是这样的,项目中httpmine包有点老,大家上传文件可以参考一下别人写的哈
File file = new File(fileName);
FileBody fileBody = new FileBody(file);
MultipartEntity multipartEntity = new MultipartEntity(HttpMultipartMode.BROWSER_COMPATIBLE, null,Charset.forName("utf8"));
multipartEntity.addPart("file", fileBody);
HttpClient client = new DefaultHttpClient();
// 超时时间
client.getParams().setParameter("http.socket.timeout", 15000);
client.getParams().setParameter("http.connection.timeout", 6000);
HttpPost request = new HttpPost(mailConvertUrl);
request.setEntity(multipartEntity);
// 发送请求
HttpResponse response = client.execute(request);
if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {
BufferedHttpEntity bufferedHttpEntity = new BufferedHttpEntity(response.getEntity());
ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
bufferedHttpEntity.writeTo(byteArrayOutputStream);
return byteArrayOutputStream.toString();
} else {
// logger
}
因为开发机是mac的,所以只测试了eml版本的邮件没有问题就转交QA测试了(还是流这边的基础太弱,没有意识到转字符串时没有指定编码会以系统默认编码来输出),当测到msg文件时当然就都乱码了。可是在转字符串时,指定的编码又不知道从哪里来,网上浏览了很多博客,有些大神自己手写了根据文件流获取前3个字节的值来判断文件内容是何种编码,尝试之后发现并不能百分之百的算出所有文件的编码,比如我们QA造的msg文件就有GBK和UTF-8的,后来发现了icu4j这个工具包,真是解决了大问题。
ICU官网
ICU (International Components for Unicode)是为软件应用提供Unicode和全球化支持的一套成熟、广泛使用的C/C++和Java类库集,可在所有平台的C/C++和Java软件上获得一致的结果。
改造后的代码
<!--Charset获取文件原来编码方式的-->
<dependency>
<groupId>com.ibm.icu</groupId>
<artifactId>icu4j</artifactId>
<version>65.1</version>
</dependency>
/**
* 获取字节数组的编码,默认UTF-8
* @param data
* @return
*/
public static String getCharsetByICU4J(byte[] data) throws Exception {
String encoding = "UTF-8";
try {
CharsetDetector detector = new CharsetDetector();
detector.setText(data);
CharsetMatch match = detector.detect();
if (match == null) {
return encoding;
}
encoding = match.getName();
} catch (Exception e) {
logger.error("ICU4J error:" + e.getMessage());
throw e;
}
return encoding;
}
// 获取返回实体
HttpEntity entity = response.getEntity();
byte[] b = EntityUtils.toByteArray(entity);
String code = EncodeUtils.getCharsetByICU4J(b);
return new String(b, code);