我目前有一个程序可以在单线程模式下读取文件(非常大)并创建搜索索引,但是在单线程环境下建立索引的时间太长。
现在,我正在尝试使其在多线程模式下工作,但不确定实现该目标的最佳方法。
我的主程序创建一个缓冲的读取器,并将实例传递给线程,并且线程使用缓冲的读取器实例读取文件。
我认为这并不符合预期,而是每个线程一次又一次地读取同一行。
有没有一种方法可以使线程仅读取其他线程未读取的行?我需要分割文件吗?有没有一种无需拆分文件即可实现的方法?
示例主程序:
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.util.ArrayList;
public class TestMTFile {
public static void main(String args[]) {
BufferedReader reader = null;
ArrayList<Thread> threads = new ArrayList<Thread>();
try {
reader = new BufferedReader(new FileReader(
"test.tsv"));
} catch (FileNotFoundException e1) {
e1.printStackTrace();
}
for (int i = 0; i <= 10; i++) {
Runnable task = new ReadFileMT(reader);
Thread worker = new Thread(task);
// We can set the name of the thread
worker.setName(String.valueOf(i));
// Start the thread, never call method run() direct
worker.start();
// Remember the thread for later usage
threads.add(worker);
}
int running = 0;
int runner1 = 0;
int runner2 = 0;
do {
running = 0;
for (Thread thread : threads) {
if (thread.isAlive()) {
runner1 = running++;
}
}
if (runner2 != runner1) {
runner2 = runner1;
System.out.println("We have " + runner2 + " running threads. ");
}
} while (running > 0);
if (running == 0) {
System.out.println("Ended");
}
}
}
线:
import java.io.BufferedReader;
import java.io.IOException;
public class ReadFileMT implements Runnable {
BufferedReader bReader = null;
ReadFileMT(BufferedReader reader) {
this.bReader = reader;
}
public synchronized void run() {
String line;
try {
while ((line = bReader.readLine()) != null) {
try {
System.out.println(line);
} catch (Exception e) {
}
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
您的瓶颈很可能是索引, 而不是
文件读取。假设索引系统支持多个线程,则可能需要一个生产者/消费者设置,其中一个线程读取文件并将每一行推入BlockingQueue(生产者),并且多个线程从BlockingQueue中提取行并将其推入索引(消费者)。
问题内容: 我仍在全神贯注地了解Java中并发的工作方式。我知道(如果您订购的是OO Java 5并发模型)则分别实现a 或with 或or 方法,并且它应该使您尽可能多地并行实现该方法。 但是我仍然不了解Java并发编程的内在知识: 一个是怎样的方法分配给执行工作的同时适量的? 作为一个具体的例子,如果我有一个I / O绑定的方法,该方法将从本地系统上的文件中读取Herman Melville的
问题内容: 我有用Flask编写的Web应用程序。正如每个人的建议,我不能在生产中使用Flask。所以我想到了带有Flask的Gunicorn。 在Flask应用程序中,我正在加载一些机器学习模型。这些总大小为8GB。我的Web应用程序的并发性可以达到1000个请求。并且机器的RAM是15GB。 那么,运行此应用程序的最佳方法是什么? 问题答案: 你可以使用Gunicorn的多个工作人员或异步工作
本文向大家介绍python多线程分块读取文件,包括了python多线程分块读取文件的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了python多线程分块读取文件的具体代码,供大家参考,具体内容如下 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持呐喊教程。
问题内容: 假设有一个大的文本文件,我只想打印与某些模式不匹配的行。显然,我可以使用。现在,如果所有这些模式都在文本文件中怎么办?从文件中读取模式的最佳方法是什么? 问题答案:
问题内容: 在服务器模式下使用OpenOffice有什么经验?我知道OpenOffice不是多线程的,现在我需要在服务器中使用它的服务。 我该如何解决这个问题? 我正在使用Java。 问题答案: 是的,我正在使用OpenOffice作为文档转换服务器。 不幸的是,解决您的问题的方法是生成一个OpenOffice进程池。 JODConverter 的commons- pool 分支(在移至之前)为您