V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
sbt
V2EX  ›  问与答

有关 apache strom 的几个基本概念

  •  
  •   sbt · Jun 7, 2020 · 1247 views
    This topic created in 2149 days ago, the information mentioned may be changed or developed.
    小弟不才,最近在学习 apache storm 框架,里面有 2 个基本概念理解起来比较吃力,查阅了相关资料,还是看不出个所以然来,想问问各位大佬:
    1.storm 拓扑结构由三部分组成( worker,executor,task ),worker,executor 是进程和线程比较好理解,这个 task 代表的是什么含义呢?网上的资料说是 spout/bolt 的实例,而且在定义拓扑时,定义 spout/bolt 时,设置 numTask 的数量有什么作用呢?

    2.结合官方的入门案例 wordCount 程序,统计单词个数,里面有个分组策略的概念(表示我的 bolt 从哪个源接收数据,接收什么样的数据),案例的第二个 bolt 是统计每个单词出现的次数(从 splitBolt 分词后发送过来的每一个单词,用的是 FieldGrouping 策略,按单词发送),我的想法是:为什么要用这个 FieldGrouping 策略,将同一个单词发送到同一个 task 中去计数?如果我用随机的 shuffleGrouping 策略来计数会有什么问题吗?我感觉只是当前单词处理的 task 不同而已呀
    2 replies    2020-06-08 01:26:22 +08:00
    F281M6Dh8DXpD1g2
        1
    F281M6Dh8DXpD1g2  
       Jun 7, 2020
    2 不就是 sql 里面的 group by
    billlee
        2
    billlee  
       Jun 8, 2020
    同一个单词不发到一个 task 里面,那不就每个 task 都记了一部分,这样得不出结果啊
    另外 2020 年了,还是学 flink 吧
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3200 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 13:39 · PVG 21:39 · LAX 06:39 · JFK 09:39
    ♥ Do have faith in what you're doing.