使用线程池/线程读取大型txt文件？

越雨泽

2023-03-14

问题内容：

关于我的上一个问题，我发布了：

我必须阅读几个非常大的txt文件，并且必须使用多个线程或一个线程来执行此操作，具体取决于用户输入。
假设我有一个主要方法来获取用户输入，并且用户请求一个线程，并希望为该线程处理20个txt文件。我将如何完成？请注意，以下内容不是我的代码或其设置，而是“想法”的含义。

例：

int numFiles = 20;
int threads = 1;

 String[] list = new String[20];
 for(int i = 1; i < 21; i++){
   list[i] = "hello" + i + ".txt";//so the list is a hello1.txt, hello2.txt, ...,  hello20.txt
 }

 public void run(){
 //processes txt file
 }

因此，总而言之，我将如何用一个线程完成此任务？有20个线程？

用户建议使用threadPools：

当用户指定要使用的线程数时，您将适当地配置池，提交文件读取作业集，并让池对执行进行排序。
在Java世界中，您将使用Executors.newFixedThreadPool工厂方法，并将每个作业作为Callable提交。这是IBM关于Java线程池的文章。

所以现在我有了一个名为sortAndMap（String x）的方法，该方法接受一个txt文件名并进行处理，对于上面的示例，

Executors.newFixedThreadPool（numThreads）;

如何将其与threadPools配合使用，以使上面的示例可行？

问题答案：

好吧，请允许我，因为我需要解释一些事情。

首先，除非您有多个磁盘或一个SSD磁盘，否则建议不要使用多个线程来读取磁盘。关于此主题的许多问题已经发布，结论是相同的：使用多个线程从单个机械磁盘读取将损害性能而不是提高性能。

发生上述情况是因为磁盘的机械头需要继续寻找下一个读取位置。使用多个线程意味着当每个线程都有机会运行时，它将把磁头定向到磁盘的不同部分，从而使磁头在磁盘区域之间的反射效率很低。

处理多个文件的公认解决方案是具有一个生产者（阅读器线程）-多个使用者（处理线程）系统。在这种情况下，理想的机制是线程池，其中线程充当生产者并将任务放入池队列中，以供工人处理。

像这样：

int numFiles = 20;
int threads = 4;

ExecutorService exec = Executors.newFixedThreadPool(threads);

for(int i = 0; i < numFiles; i++){
    String[] fileContents = // read current file;
    exec.submit(new ThreadTask(fileContents));
}

exec.shutdown();
exec.awaitTermination(Long.MAX_VALUE, TimeUnit.SECONDS);
...

class ThreadTask implements Runnable {

   private String[] fileContents;

   public ThreadTask(String[] fileContents) {
        this.fileContents = fileContents;
   }

   public void run(){
      //processes txt file
   }
}

使用线程池/线程读取大型txt文件？

相关阅读

相关文章

相关问答

相关工具

相关文档