使用 JavaScript 解决导入 Excel 数据重复字段的问题。大约 40W 行数据

This topic created in 2288 days ago, the information mentioned may be changed or developed.

导入的数据大概有 40W 行。每行有八个字段 [ A,B,C,D,E,F,G,H ] 。根据字段 A，B 去重。如果 A 字段或者 B 字段在之前的行已经存在了。则当前行被标记为失败。并且记录与第几行重复了。怎么提升计算速度。。。求大佬解决。

11 replies • 2020-04-26 08:52:15 +08:00

cydian

Apr 25, 2020

40W 行在前端怎么处理都很慢吧。
量太大了给后端处理。

opengps

Apr 25, 2020

作为平面文件，直接导入数据库，然后从数据库再执行算法去重

cgh

Apr 25, 2020

@cydian 目前的情况是前端已经对数据进行了格式验证。40W 数据大概 18 秒，如果加上对字段的重复判断的话一分钟以内其实都是可以接受的。但是我感觉不只是时间翻倍的问题了，，，

cgh

Apr 25, 2020

@opengps 我们需要在页面进行编辑修改。然后在传给后端。。。。导入数据库再显示。时间太久了。

hronro

Apr 25, 2020 via iPhone

上 web worker 开多线程，上 WASM

cydian

Apr 25, 2020

@cgh 你一旦遇到用户浏览器的性能问题，就凉凉了。

noe132

Apr 25, 2020

最快的方式就是针对 A，B 建两个 map
然后一遍遍历过去即可

mooyo

Apr 25, 2020

这一个 On 能搞定吧，如果内存够的话不应该很慢阿。

mooyo

Apr 25, 2020

只需要读一遍应该就能搞定吧

cocolate

Apr 26, 2020 via Android

大量数据少量计算就不用上 wasm 了，开个 webworker 防止浏览器卡死应该就行，基础算法就是维护 map，硬核一点就上异或判断，内存占用 O1，但是不知道行数信息。

cgh

Apr 26, 2020

@cocolate 你说的这个我有考虑过。