问题：

Spring批处理循环读取器/处理器/写入器步骤

卫浩瀚

2023-03-14

根据已接受的答案代码，对该代码的以下调整对我起作用：

// helper method to create a split flow out of a List of steps
private static Flow createParallelFlow(List<Step> steps) {
    SimpleAsyncTaskExecutor taskExecutor = new SimpleAsyncTaskExecutor();
    taskExecutor.setConcurrencyLimit(steps.size());         

    Flow[] flows = new Flow[steps.size()];
    for (int i = 0; i < steps.size(); i++) {
        flows[i] = new FlowBuilder<SimpleFlow>(steps.get(i).getName()).start(steps.get(i)).build();
    }           

    return new FlowBuilder<SimpleFlow>("parallelStepsFlow")
        .split(taskExecutor)                
        .add(flows)
        .build();
}

我已经将这个问题更新到了一个可以正确循环的版本，但是由于应用程序将扩展，能够处理并行是很重要的，我仍然不知道如何在运行时用javaconfig动态地做到这一点...

public class LoopDecider implements JobExecutionDecider {

    private static final Logger LOG = LoggerFactory.getLogger(LoopDecider.class);
    private static final String COMPLETED = "COMPLETED";
    private static final String CONTINUE = "CONTINUE";
    private static final String ALL = "queries";
    private static final String COUNT = "count";

    private int currentQuery;
    private int limit;

    @SuppressWarnings("unchecked")
    @Override
    public FlowExecutionStatus decide(JobExecution jobExecution, StepExecution stepExecution) {
        List<String> allQueries = (List<String>) jobExecution.getExecutionContext().get(ALL);
        this.limit = allQueries.size();
        jobExecution.getExecutionContext().put(COUNT, currentQuery);
        if (++currentQuery >= limit) {
            return new FlowExecutionStatus(COMPLETED);
        } else {
            LOG.info("Looping for query: " + allQueries.get(currentQuery - 1));
            return new FlowExecutionStatus(CONTINUE);
        }       
    }

}

基于查询列表（HQL查询），我希望每个查询都有一个读取器-处理器-写入器。我当前的配置如下所示：

工单

@Bean
public Job subsetJob() throws Exception {
    LoopDecider loopDecider = new LoopDecider();        
    FlowBuilder<Flow> flowBuilder = new FlowBuilder<>(FLOW_NAME);
    Flow flow = flowBuilder
            .start(createHQL())
            .next(extractData())
            .next(loopDecider)
            .on("CONTINUE")
            .to(extractData())
            .from(loopDecider)
            .on("COMPLETED")                
            .end()
            .build();       

    return jobBuilderFactory.get("subsetJob")               
            .start(flow)                
            .end()
            .build();
}

public Step extractData(){
    return stepBuilderFactory.get("extractData")
            .chunk(100_000)
            .reader(reader())
            .processor(processor())
            .writer(writer())
            .build();
}

public HibernateCursorItemReader reader(){      
    CustomHibernateCursorItemReader reader = new CustomHibernateCursorItemReader();
    reader.setSessionFactory(HibernateUtil.getSessionFactory());        
    reader.setUseStatelessSession(false);
    return reader;
}

处理机

public DynamicRecordProcessor processor(){
    return new DynamicRecordProcessor();
}

作家

public FlatFileItemWriter writer(){
    CustomFlatFileItemWriter writer = new CustomFlatFileItemWriter();               
    writer.setLineAggregator(new DelimitedLineAggregator(){{
        setDelimiter(TARGET_DELIMITER);
        setFieldExtractor(new PassThroughFieldExtractor());
        }}
    );
    return writer;
}

目前，该过程对于单个查询来说工作得很好。然而，我实际上有一个查询列表。

另一个想法是创建一个自定义的MultiHibernateCursorItemReader，其想法与MultiItemResourceReader相同，但我实际上正在寻找一个更现成的解决方案。

@Bean
public List<Step> extractData(@Value("#{jobExecutionContext[HQL]}") List<String> queries){
    List<Step> steps = new ArrayList<Step>();
    for (String query : queries) {
        steps.add(stepBuilderFactory.get("extractData")
            .chunk(100_000)
            .reader(reader(query))
            .processor(processor())
            .writer(writer(query))
            .build());
    }
    return steps;
}

问题
如何循环该步骤并将其集成到作业中？

共有1个答案

莫英卓

2023-03-14

不要将步骤、读取器、处理程序和编写器实例化为Spring-bean。没有必要做这件事。只有作业实例必须是Spring bean。

因此，只需从step、reader、writer和processor creater方法中删除@bean和@stepscope配置，并在需要的地方实例化它们。

只有一个捕获，您必须手动调用afterPropertiesSet（）。例如：

// @Bean -> delete
// @StepScope -> delete
public FlatFileItemWriter writer(@Value("#{jobExecutionContext[fileName]}") String fileName){
    FlatFileItemWriter writer = new FlatFileItemWriter();
    writer.setResource(new FileSystemResource(new File(TARGET_LOCATION + fileName + TARGET_FILE_EXTENSION)));       
    writer.setLineAggregator(new DelimitedLineAggregator(){{
        setDelimiter(TARGET_DELIMITER);
        setFieldExtractor(new PassThroughFieldExtractor());
        }}
    );

    // ------- ADD!!
    writer.afterPropertiesSet();

    return writer;
}

这样，您的step、reader、writer实例将自动地被“step scoped”，因为您为每个步骤明确地实例化它们。

一个简单的例子：

@Configuration
public class MyJobConfiguration {

    @Autowired
    private JobBuilderFactory jobBuilderFactory;

    @Autowired
    private StepBuilderFactory stepBuilderFactory;


    List<String> filenames = Arrays.asList("file1.txt", "file2.txt");

    @Bean
    public Job myJob() {

       List<Step> steps = filenames.stream().map(name -> createStep(filename));

       return jobBuilderFactory.get("subsetJob")               
            .start(createParallelFlow(steps));                
            .end()
            .build();
    }


    // helper method to create a step
    private Step createStep(String filename) {
    {
        return stepBuilderFactory.get("convertStepFor" + filename); // !!! Stepname has to be unique
            .chunk(100_000)
            .reader(createFileReader(new FileSystemResource(new File(filename)), new YourInputLineMapper()));
            .processor(new YourConversionProcessor());
            .writer(createFileWriter(new FileSystemResource(new File("converted_"+filename)), new YourOutputLineAggregator()));
            .build();
    }


    // helper method to create a split flow out of a List of steps
    private static Flow createParallelFlow(List<Step> steps) {
        SimpleAsyncTaskExecutor taskExecutor = new SimpleAsyncTaskExecutor();
        taskExecutor.setConcurrencyLimit(steps.size());

        List<Flow> flows = steps.stream() // we have to convert the steps to a flows
            .map(step -> //
                    new FlowBuilder<Flow>("flow_" + step.getName()) //
                    .start(step) //
                    .build()) //
            .collect(Collectors.toList());

        return new FlowBuilder<SimpleFlow>("parallelStepsFlow").split(taskExecutor) //
            .add(flows.toArray(new Flow[flows.size()])) //
            .build();
    }


    // helper methods to create filereader and filewriters
    public static <T> ItemReader<T> createFileReader(Resource source, LineMapper<T> lineMapper) throws Exception {
        FlatFileItemReader<T> reader = new FlatFileItemReader<>();

        reader.setEncoding("UTF-8");
        reader.setResource(source);
        reader.setLineMapper(lineMapper);
        reader.afterPropertiesSet();

        return reader;
    }

    public static <T> ItemWriter<T> createFileWriter(Resource target, LineAggregator<T> aggregator) throws Exception {
        FlatFileItemWriter<T> writer = new FlatFileItemWriter<>();

        writer.setEncoding("UTF-8");
        writer.setResource(target);
        writer.setLineAggregator(aggregator);

        writer.afterPropertiesSet();
        return writer;
    }
}

类似资料：

Spring批处理-循环读取器、处理器和写入器N次

我有“N”没有的。客户/客户。对于每个客户/客户，我需要从数据库（读取器）中获取记录，然后我必须处理（处理器）客户/客户的所有记录，然后我必须将记录写入文件（写入器）。如何将spring批处理作业循环N次？
Spring Batch-循环读取器/处理器/写入器步骤

问题内容：回答根据接受的答案代码，对该代码进行以下调整对我有用：编辑我已将问题更新为可以正确循环的版本，但是随着应用程序的扩展，能够并行处理非常重要，而且我仍然不知道如何在运行时使用javaconfig动态地执行此操作… 改进的问题：如何在运行时针对5种不同情况动态创建读取器-处理器-写入器（5个查询意味着按现在配置的5个循环）？我的LoopDecider看起来像这样：基于查询
Spring批处理读取器、处理器和写入器流

我有一个批处理步骤读取器和处理器流程如何工作？读取器是读取块并等待处理器处理它，还是一次读取所有块。
spring批处理中的多个读取器/处理器/写入器

我刚开始使用Spring批处理，我有一个特殊问题。我希望使用从3个不同的jpa查询中获取结果，并分别处理它们，然后使用将它们写入一个统一的XML文件。对于eg,生成的XML看起来像是,
Spring Batch读取器，写入器和处理器

项目读取器将数据从特定源代码读入Spring批处理应用程序，而项目写入器将数据从Spring Batch应用程序写入特定目标。 Item处理器是一个包含处理代码的类，该代码处理读入spring批处理的数据。如果应用程序读取条记录，则处理器中的代码将在每条记录上执行。块(chunk)是该tasklet的子元素。它用于执行读取，写入和处理操作。可以在如下所示的步骤中配置使用此元素的读取器，写入
Spring批处理一个读取器多个写入器

CompositeItemWriter：当我需要将项目平均地分给Writer时，似乎会将所有读取的项目传递给所有的Writer。 BacktoBackPatternClassifier：我并不真正需要分类器，因为我是均匀地拆分项目。有没有另一种方式，让一个读者和多个作者？或者我可以在Writer中手动创建线程？

Spring批处理循环读取器/处理器/写入器步骤

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档