如何在多线程模式下读取文件？

郑功

2023-03-14

问题内容：

我目前有一个程序可以在单线程模式下读取文件（非常大）并创建搜索索引，但是在单线程环境下建立索引的时间太长。

现在，我正在尝试使其在多线程模式下工作，但不确定实现该目标的最佳方法。

我的主程序创建一个缓冲的读取器，并将实例传递给线程，并且线程使用缓冲的读取器实例读取文件。

我认为这并不符合预期，而是每个线程一次又一次地读取同一行。

有没有一种方法可以使线程仅读取其他线程未读取的行？我需要分割文件吗？有没有一种无需拆分文件即可实现的方法？

示例主程序：

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.util.ArrayList;

public class TestMTFile {
    public static void main(String args[]) {
        BufferedReader reader = null;
        ArrayList<Thread> threads = new ArrayList<Thread>();
        try {
            reader = new BufferedReader(new FileReader(
                    "test.tsv"));
        } catch (FileNotFoundException e1) {
            e1.printStackTrace();
        }
        for (int i = 0; i <= 10; i++) {
            Runnable task = new ReadFileMT(reader);
            Thread worker = new Thread(task);
            // We can set the name of the thread
            worker.setName(String.valueOf(i));
            // Start the thread, never call method run() direct
            worker.start();
            // Remember the thread for later usage
            threads.add(worker);
        }

        int running = 0;
        int runner1 = 0;
        int runner2 = 0;
        do {
            running = 0;
            for (Thread thread : threads) {
                if (thread.isAlive()) {
                    runner1 = running++;
                }
            }
            if (runner2 != runner1) {
                runner2 = runner1;
                System.out.println("We have " + runner2 + " running threads. ");

            }
        } while (running > 0);

        if (running == 0) {
            System.out.println("Ended");
        }
    }
}

线：

import java.io.BufferedReader;
import java.io.IOException;

public class ReadFileMT implements Runnable {
    BufferedReader bReader = null;

    ReadFileMT(BufferedReader reader) {
        this.bReader = reader;
    }

    public synchronized void run() {
        String line;
        try {
            while ((line = bReader.readLine()) != null) {

                try {
                    System.out.println(line);
                } catch (Exception e) {

                }
            }
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

问题答案：

您的瓶颈很可能是索引， 而不是
文件读取。假设索引系统支持多个线程，则可能需要一个生产者/消费者设置，其中一个线程读取文件并将每一行推入BlockingQueue（生产者），并且多个线程从BlockingQueue中提取行并将其推入索引（消费者）。

如何在多线程模式下读取文件？

相关阅读

相关文章

相关问答

相关工具

相关文档