当前位置: 首页 > 知识库问答 >
问题:

java - Java POI 打开大文件慢的优化方法?

孙俊彦
2023-11-29

Java POI 打开大文件时太慢了有没有优化的办法

打开一个大文件要很久,有没有优化的办法

共有2个答案

田骁
2023-11-29

一般这种可以通过并发来解决读取缓慢的问题
或者换个其他组件(推荐)
解决方案一:xlsx-streamer
采用分段缓存的方式加载数据到内存中,此种方式在创建Workbook对象时借助xlsx-streamer(StreamingReader) 来创建一个缓冲区域批量地读取文件 ,因此不会将整个文件实例化到对象当中
引入依赖:

<!-- excel工具 --><dependency>    <groupId>org.apache.poi</groupId>    <artifactId>poi-ooxml</artifactId>    <version>${poi.version}</version></dependency><!-- 读取大量excel数据时使用 --><dependency>    <groupId>com.monitorjbl</groupId>    <artifactId>xlsx-streamer</artifactId>    <version>2.1.0</version></dependency>

示例代码:

    /**     * 大批量数据读取 十万级以上     * 思路:采用分段缓存加载数据,防止出现OOM的情况     *     * @param file     * @throws Exception     */    public static void readLagerExcel(File file) throws Exception {      InputStream inputStream = new FileInputStream(file);        long start = System.currentTimeMillis();        try (Workbook workbook = StreamingReader.builder()                .rowCacheSize(10 * 10)  //缓存到内存中的行数,默认是10                .bufferSize(1024 * 4)  //读取资源时,缓存到内存的字节大小,默认是1024                .open(inputStream)) { //打开资源,可以是InputStream或者是File,注意:只能打开.xlsx格式的文件            Sheet sheet = workbook.getSheetAt(0);            log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);            //遍历所有的行            for (Row row : sheet) {                System.out.println("开始遍历第" + row.getRowNum() + "行数据:");                //遍历所有的列                for (Cell cell : row) {                    System.out.print(cell.getStringCellValue() + " ");                }                System.out.println(" ");            }            //总数            System.out.println("读取结束行数:" + sheet.getLastRowNum());        }    }

加载数据效果
40万级别数据近花费5.4秒

解决方案二:EasyExcel
使用EasyExcel解决大文件Excel内存溢出的问题,基于POI进行封装优化,可以在不考虑性能、内存的等因素的情况下,快速完成Excel的读、写等功能。

官网: https://easyexcel.opensource.alibaba.com/github:https://github.com/alibaba/easyexcel

引入依赖

<!-- EasyExcel 大数据量excel读写 --><dependency>    <groupId>com.alibaba</groupId>    <artifactId>easyexcel</artifactId>    <version>3.1.0</version></dependency>

示例代码
仅做简单读取示例,详细文档api可参考:读Excel|EasyExcel

 /**  * EasyExcel方式读取excel   * <p>   * 读取并封装为对象   *   * @param file   */  public static void readExcelByEasyExcel(File file) {      long start = System.currentTimeMillis();      List<ExcelData> excelDataList = EasyExcel.read(file).head(ExcelData.class).sheet(0).doReadSync();      excelDataList.stream().forEach(x -> System.out.println(x.toString()));      log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);  }  /**    * EasyExcel方式读取excel    * <p>    * 不指定head类    *    * @param file    */   public static void readExcelByEasyExcel1(File file) {       long start = System.currentTimeMillis();       List<Map<Integer, String>> listMap = EasyExcel.read(file).sheet(0).doReadSync();       listMap.stream().forEach(x -> System.out.println(JSON.toJSONString(x)));       log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);   }
唐俊爽
2023-11-29

试试hutool+poi的写法,本质是流读取的方式,非常简单而且效率很高:
maven依赖:

<dependency>    <groupId>cn.hutool</groupId>    <artifactId>hutool-all</artifactId>    <version>5.8.22</version></dependency><dependency>    <groupId>org.apache.poi</groupId>    <artifactId>poi</artifactId>    <version>5.2.4</version></dependency><dependency>    <groupId>org.apache.poi</groupId>    <artifactId>poi-ooxml</artifactId>    <version>5.2.4</version></dependency>

poi是针对xls的,poi-ooxml是针对xlsx的
示例的写法,就是遍历每一行你要做什么:

private RowHandler createRowHandler() {    return new RowHandler() {        @Override        public void handle(int sheetIndex, int rowIndex, List<Object> rowlist) {            Console.log("[{}] [{}] {}", sheetIndex, rowIndex, rowlist);        }    };}ExcelUtil.readBySax("aaa.xlsx", 0, createRowHandler());//这里的0可以是sheet的索引下标,也可以是sheet的名字
 类似资料:
  • 目前一个项目,有展示图表功能,一条计算(有很多计算,结果跟初始设置参数相关)大概几千个case,每个case结果文件类似csv,大概300-500MB。 因为文件较多且较大,直接存OSS对象存储。 现在处理逻辑,根据前端参数,下载相应case文件,然后解析成json,返回前端进行展示。 但整个过程相当慢! 有啥好的优化方案?

  • 本文向大家介绍Mysql慢查询优化方法及优化原则,包括了Mysql慢查询优化方法及优化原则的使用技巧和注意事项,需要的朋友参考一下 1、日期大小的比较,传到xml中的日期格式要符合'yyyy-MM-dd',这样才能走索引,如:'yyyy'改为'yyyy-MM-dd','yyyy-MM'改为'yyyy-MM-dd'【这样MYSQL会转换为日期类型】 2、条件语句中无论是等于、还是大于小于,WHERE

  • 问题内容: 我正在尝试远程读取netcdf文件。 我使用 paramiko 包读取我的文件,如下所示: 但是的运行速度非常慢。 所以我的问题是:有没有其他替代方法可以远程读取netcdf文件,或者它有什么方法可以加快速度? 问题答案: 调用应提高读取速度: 另一种选择是使用参数启用读取缓冲: (是的值) 对于写入/上传也类似: 使用pysftp“ open”方法打开的SFTP服务器上的文件写入速度

  • 本文向大家介绍Laravel网站打开速度优化的方法汇总,包括了Laravel网站打开速度优化的方法汇总的使用技巧和注意事项,需要的朋友参考一下 前言 Laravel是一个功能强大的框架,组件很多,代码也很庞大,它的易用方便是牺牲了性能的,即便如此它仍然是一个优秀的框架,但在正式环境下要做好优化提升网站的打开速度。下面这篇文章主要给大家介绍了关于Laravel网站打开速度优化的一些方法技巧,下面话不

  • 本文向大家介绍c#打开py文件的方法,包括了c#打开py文件的方法的使用技巧和注意事项,需要的朋友参考一下 每个编程语言都有它的优势,那么我们如何在一个语言中使用其他编程语言的代码,并完成工作呢?今天我就用C#打开py文件,不调用py的方法。程序执行的效果如下图 1、在百度上搜索“ironpython官网”,选择ironpython。 2、进入官网后选择Download下载,下载资源。 3、选择要

  • 本文向大家介绍linux的最大打开文件数限制修改方法,包括了linux的最大打开文件数限制修改方法的使用技巧和注意事项,需要的朋友参考一下 前言 本文主要给大家介绍了关于linux最大打开文件数限制修改的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍: linux会为每个用户登录系统打开最大文件数都有限制, 这个限制通过 ulimit -n 可以看到, 一般是 1024 .