V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
lovepim
V2EX  ›  问与答

几亿条的 csv 格式数据怎么快速导入 elasticsearch?

  •  
  •   lovepim · Mar 24, 2017 · 6634 views
    This topic created in 3322 days ago, the information mentioned may be changed or developed.
    之前在 V2EX 上问了一个关于 elasticsearch 的问题,得到了大家的热情帮助,真是很感动!

    最近又遇到一个问题,就是有几亿条的 csv 格式数据(分成了几十个 csv 文件,每个文件有几个字段,用逗号隔开的),想快速的把这些数据导入到 elasticsearch 。之前用的是 logstash ,但是感觉太慢了,每秒也就几百个,估计跟机器性能有关。

    针对这种的问题,请问大家有没有更快的导入办法?具体怎么操作呢?
    klxq15
        1
    klxq15  
       Mar 24, 2017 via Android
    用 python 写个 bulk insert
    findex
        2
    findex  
       Mar 24, 2017 via iPhone
    给你看看一个好工具 github.com xros jsonpyes 你可能需要把 csv 手动转换成 json 格式,方可分块多线程导入。
    lovepim
        3
    lovepim  
    OP
       Mar 24, 2017
    @findex 我试了一下,这种转换没有找到好的工具。。。不知道你有推荐的吗?
    findex
        4
    findex  
       Mar 24, 2017
    @lovepim 这就需要你自己写了。你可以写个动态的脚本转换器,然后导入进去。根据自己的需求
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3800 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 00:44 · PVG 08:44 · LAX 17:44 · JFK 20:44
    ♥ Do have faith in what you're doing.