存储大量网页内容用什么数据库

This topic created in 2680 days ago, the information mentioned may be changed or developed.

发觉之前的解决思路有问题，决定先爬取页面数据存入数据库，然后另外一个任务再一个页面一个页面分析内容提取数据。
存储字段包括地址来源网站，页面文字内容。目前用 mysql 加 redis 用来 url 去重

Supplement 1 · Feb 3, 2019

先按 1-3 楼的试试

9 replies • 2019-02-04 19:43:18 +08:00

GeekCourse

Feb 3, 2019 via Android

当然是直接存到硬盘里

jimages

Feb 3, 2019

存文件吧，mysql 做 index

yuikns

Feb 3, 2019 via iPad

大量文件存在一个目录下有时有效率问题。试试 leveldb ？

lynskylate

Feb 3, 2019 via Android

...落硬盘怎么横向扩展，数据落 mongo, redis 去重。

CSM

Feb 3, 2019 via Android

如果 URL 非常多并且能容忍重复的话，可以考虑布隆过滤器。

nicoljiang

PRO

Feb 4, 2019

Mysql 不就可以吗，百万千万都能存。。。

lengyihan

Feb 4, 2019 via Android

oracle 肯定够。

lynskylate

Feb 4, 2019 via Android

@CSM 布隆不会出现重复，而是有部分未爬过的 url 会认为爬过。

CSM

Feb 4, 2019 via Android

@lynskylate 噢噢你说的对，感谢感谢