数据量不大 貌似用数据库就可以了,比如博客啥的~
但数据量大 且需要有分词概念的时候 大家如何实现的?
如果在考虑一下商业化 比如权重,排名之类的又如何呢?
目前我在看solr 大家有什么好的方案么?
但数据量大 且需要有分词概念的时候 大家如何实现的?
如果在考虑一下商业化 比如权重,排名之类的又如何呢?
目前我在看solr 大家有什么好的方案么?
1
daqing Dec 27, 2011
最近也在考虑这方面的东西,目前可以选择的: Solr, Coreseek, 用Lucene自己定制开发,Redis-search。
基本上大型网站,用Lucene定制开发的居多。专业搜索引擎如百度,有道等,应该是自己的技术了。 |
2
Julyyq Dec 27, 2011
直接用DW实现的菜鸟飘过~
|
3
delectate Dec 27, 2011
用google custom
|
4
richiefans OP @daqing 看了一下Coreseek是基于Sphinx 貌似也还行 Solr配置起来比较简单 先把它整整看 不知道用哪个中文分词比较好 imdict貌似不支持自定义词库
|
5
daqing Dec 27, 2011
@richiefans 有一个ruby的中文分词工具,看这个:http://www.iteye.com/news/1380-recommended-chinese-ruby-word---rmmseg
|
6
meecle Dec 27, 2011
刚才到GNU.org去搜索软件,发现Hyper Estraier : a full-text search system for communities, 这个可以,更多的去http://fallabs.com/ 看看!
|
7
meecle Dec 27, 2011
www.gnu.org 也再用这个,参考这里: http://www.gnu.org/cgi-bin/estseek.cgi
|
8
Blask Dec 28, 2011
google custom 不错啊.
|
9
Tianpu Dec 28, 2011 @richiefans 记得给我小红花 www.xunsearch.com
|
10
xiangjian Jan 9, 2012
有没有对 pdf,word,PPT ,支持比较好的 全文搜索。中文分词最好可以自定义
|
11
dreampuf Jan 9, 2012
document database 自己随意控制.
小的业务需求也很容易实现. |
13
INT21H Jun 27, 2012
啊 分词用mmseg就蛮好
|
14
yandy Aug 25, 2014
可以用一些 第三方的搜索服务,有 RESTful 的 API。例如国内有一家做的不错的 http://tinysou.com。既可以用API,又可以基于爬虫。看到 teahour.fm 就在用他们的服务。看到对中文的支持挺好的,还可以拼音搜索,拼音补全。
|
15
kwklover Jan 27, 2016
一般大型的,会选用 JAVA 平台的 ES 或 SOLR ,其实底层都是基于 LUCENE ,特定是定制型强大,开发量和维护量也不小;
用 MYSQL 数据库可能会喜欢搭配 Sphinx 或基于它的衍生品,整合的比较密集,配置好了,查询用的类 SQL 语句,还是比较方便的,就是中文分词不太好,或者可定制性差些,性能还是挺高的; WINDOWS 平台下中小草根站长可能比较喜欢选用搜易站内搜索引擎,基本不用开发了。点点鼠标就可以创建一个站内搜索。 |