• 请不要在回答技术问题时复制粘贴 AI 生成的内容
BrightLiao
V2EX  ›  程序员

数据任务流水线如何设计?供做数据开发的同学们参考。

  •  
  •   BrightLiao ·
    gmlove · Dec 30, 2022 · 2093 views
    This topic created in 1265 days ago, the information mentioned may be changed or developed.

    分析数据任务的各个步骤,可以发现需要设计三条数据流水线:

    一、定期(如每天)自动触发的数据任务流水线,它将完成定期的数据接入,清洗,指标计算,宽表构建,宽表输出这一系列任务。这一流水线通常是端到端可输出指标结果的流水线。

    二、首次全量数据接入任务流水线,用于第一次将全量数据接入到数据平台。它应该是手动触发的。

    三、与定期自动运行的流水线相同的,但只能手动触发运行的一条流水线。这一流水线的引入是必要的,因为它可以很好的应对日常数据开发运维工作。

    数据流水线

    如何实现?详情请移步: https://brightliao.com/#/NDE2MWE1

    1 replies    2022-12-31 22:33:27 +08:00
    jones2000
        1
    jones2000  
       Dec 31, 2022
    太简单了。
    1. 不同数据库( DB2, oracle ,mysql 等数据库)之间的数据同步,转档。
    2. 原始数据格式化(原始数据包含 PDF, word ,excel 等等, 如果上市公司财报)
    3. 双路实时数据采集,一天最少 2T 的交易数据,实时入库,对接各种分析指标, 实时预警,自动触发交易策略下单。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2744 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 15:26 · PVG 23:26 · LAX 08:26 · JFK 11:26
    ♥ Do have faith in what you're doing.