Skip to content

pipeline流式处理功能 #504

@Berdyanskov

Description

@Berdyanskov

Feature Description / 功能描述

DataFlow目前好像不支持让一个文件的某个部分或batch在上游A阶段处理完后,立刻像流水线一样流入下游B阶段,而同时其余部分还在A阶段处理,请问你们是否有加入这一流式处理的规划呢?

System Info (dataflow env) / 系统信息(dataflow env

(DF) [root:DataFlow]$ dataflow -v
open-dataflow 1.0.10

open-dataflow version: 1.0.10
Local version : 1.0.10
PyPI version : 1.0.10
You are using the latest version.

Additional Information / 其他补充

我开发了一个大模型数据合成与增强pipeline库,https://github.com/Berdyanskov/CargoDash_preview,主要的特点是将pipeline抽象为DAG图,从而支持webui界面拖动节点建模处理流程,而节点间采用我描述的并发机制(Gemini指出这类似于Apache Flink 或 Spark Streaming)。请问你们是否有加入这一流式处理的规划呢?如有性能上的考虑,能否加入一个开关让用户指定是否启用流式处理?

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions