sphinx搭建亿级搜索

sphinx搭建亿级搜索
2016年04月15日 16:48:11 bingcool空间阅读数：1995
sphinx搭建亿级搜索
最近在做一些模糊搜索，大家知道MySQL单表如果超过100万条记录，查询就会变慢，如果用like语句做模糊搜索，那么索引就完全用不上，这样一来一次搜索就要遍历全表，没个1秒是出不来结果的，多的时候十几秒也是正常的。如果是MyISAM引擎，写表的时候是表级锁，立刻就跪了。一台小型机做100个并发，每个并发建立一个数据库长连接，机器负载很快就上去了。之前还做过一些挣扎，在MySQL前端顶个Memcached，灰度1小时建立缓存再全上，但很快就跪了，穿透Memcached的请求会拖死MySQL。MySQL的like还无法支持乱序、分词搜索（搜“城市中国”的时候，“中国城市”无法被匹配出来），当然MyISAM引擎支持全文检索，MySQL也有REGEXP这样的正则匹配支持，不过效果都很不理想。
Sphinx是个开源的搜索引擎，功能的强大和设计的合理性真是让人赞不绝口。现在我把它应用在一个每天亿级的搜索页上，4核8G内存的小型机，单表百万级记录，99%以上的搜索都在5ms内出结果。

为什么选择Sphinx？
（1）高速建立索引：建索引速度达到单核10-15mb/s;
（2）高速查询：100万记录（约1.2GB数据）下，单核每秒支持约200次搜索;
（3）高扩展性：已知最大索引簇支持对30亿条记录建立索引，每天单个连接5千万次搜索;
（4）强大附属功能：支持分布式搜索，中文分词引擎，c/java/python/php等多语言支持，支持MySQL，也可以自建索引（xml pipe mechanism）支持KV等其他存储。

Sphinx如何工作？
sphinx有两个重要的工具，indexer和searchd。
indexer是通过指定数据源（数据库信息、索引字段等）来创建索引文件
searchd是个后台进程，使用indexer生成的索引文件做查询，prefork模型，支持多点长连接
（1）与存储分离

这里建议至少有3台机器，MySQL主机只做insert，数据同步流水到MySQL备机，然后把Sphinx部署在第三台机上，indexer连接MySQL备机，生成索引文件给本机的searchd做查询。本文将就这种工作模式做详细分析，因为它独立于存储模型，具有很高的灵活性。
（2）MySQL特化
这种工作模式需要在编译MySQL的时候把Sphinx作为一个插件编译进去，为要索引的MySQL表建立对应的Sphinx索引表（采用Sphinx数据引擎），详见http://blog.s135.com/post/360/ 。

怎样开始使用Sphinx？
（1）到http://sphinxsearch.com/downloads/release/ 官方网站上下载最新的安装包，./Configure && make && make install 安装好，mmseg可以更好的支持中文分词，不过也有些毛病，一般Sphinx自带的中文分词足够用了
（2）填写配置文件sphinx.conf
这里举个简单的例子，假如你有个MySQL表，用来存用户信息，建表如下：
CREATE TABLE account (ID INT AUTO_INCREMENT, type INT, name VARCHAR(128), nickname VARCHAR(128), PRIMARY KEY(ID));
假如搜索的实时性要求不高，对新增的数据，可以容忍5分钟内的延迟，而且表新增记录的速度比较慢，表又比较大，那么增量索引会非常有用。一个可行的方法是，每天深夜全表扫描重新构建主索引，构建完主索引，之后插入的记录就放倒增量索引里面去，增量索引每5分钟构建一次，以主索引构建时表中最大ID为基准。这样一来就需要有一个表记录主索引构建时扫描到的最大ID。
CREATE TABLE sph_counter (counter_id INT, max_doc_id INT);

注意，Sphinx要求每个表都有个ID标识，其实建表的时候建个自增ID字段是个良好的习惯，有时候一开始你觉得不需要这个字段，最后要用到的时候才后悔没建。
接下来，我们要做个功能，用户昵称搜索，也就是搜索nickname字段，那么可以这么配置数据源：

source nickname_src
{
type = mysql
sql_host = 111.111.111.111
sql_user = berryxie
sql_pass = hello
sql_db = project
sql_port = 3306
sql_sock = /tmp/mysql.sock #your mysql socket file location
sql_query_pre = set names utf8 #this section will be executed before sql_query
sql_query_pre = REPLACE INTO sph_counter SELECT 1, MAX(id) FROM account
sql_query = SELECT ID, type, nickname FROM account where ID = $id
sql_query_info = SELECT * FROM account WHERE ID=$id
sql_attr_bigint = type
}
在配置里，MySQL表有两种类型的字段，一种是sphinx要索引的字段（这里是nickname），一种是属性字段（这里是type，属性字段可以用来order by、group by、条件筛选等，暂时不能是字符串，我在c++里面没办法用int属性，只好用bigint）。ID、索引字段和属性字段都必须出现在sql_query的select fields里面。

source delta_nickname_src : nickname_src
{
sql_query_pre = set names utf8
sql_query = SELECT ID, type, nickname FROM account where ID = $id \
WHERE ID > ( SELECT max_doc_id FROM sph_counter WHERE counter_id = 1 )
}

这个是增量索引的数据源配置，注意delta_nickname_src继承于nickname_src，这就意味着子类拥有父类的所有属性，所以这里子类需要配置sql_query_pre来覆盖父类的属性，不然父类的两个sql_query_pre在子类构建增量索引时都会执行，这样第二次构建增量索引时，第一次构架的增量索引就会丢数据了。
接下来是index的索引配置

index nickname
{
source = nickname_src
path = /home/berryxie/data/sphinx/main_nickname

docinfo = extern
mlock = 0
morphology = none

charset_type = utf-8

charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\
U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,\
U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,\
U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,\
U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, \
U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D,\
U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, \
U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, \
U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, \
U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, \
U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, \
U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159,\
U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, \
U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, \
U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, \
U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175,\
U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, \
U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, \
U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, \
U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, \
U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, \
U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, \
U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, \
U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, \
U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, \
U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, \
U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, \
U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, \
U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, \
U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, \
U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, \
U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, \
U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, \
U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, \
U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, \
U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, \
U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF

min_prefix_len = 0
min_infix_len = 1
ngram_len = 1
preopen = 1

}

这里有几个字段需要说明一下:
docinfo: sql_attr的放置方式。有none, extern和inline三种值。none是没有sql_attr时候设置的，sphinx会搞定。inline表示index把sql_attr和表ID一起放在.spd文件里面，而extern方式是把sql_attr放到.spa文件里面，和ID分离。默认用extern，这样这些sql_attr和id文件都会被加载到内存，性能比较好。
mlock: searchd为了提高性能，会提前把.spa和.spi索引文件加载进内存，如果有一段时间没搜索请求，那么这两个文件在内存中就不会被访问到，操作系统会把它置换回硬盘。mlock=1时就不会被置换啦，不过需要root级启动权限。
morphology：可以将多种语言的各种词态变成原型再搜索，比如”dogs”会被转成”dog”，默认为空。
charset_type：编码，写错了很多东西搜不出来的哦~
charset_table：合法字符表，不可识别字符会被当成分隔符来处理。
min_prefix_len：最短索引前缀，默认为0，若设置会生成大量冗余索引记录。例如：设置为3，”apple”会被切成app、appl、apple三个词，这样搜索app的时候也会命中，有需要再用吧。
ngram_len：0或1.中日韩文不像英语一样，每个次都有空格分隔，对于“我是中国人”，分词器不知道怎么分隔。当值为1时，前面的句子会被分隔成“我是中国人”。
preopen：默认为0，为1时searchd会在启动时就把索引加载到内存，而不是等到有请求时才加载。
index还可以配置处理html、停用此表等，这里用不到，具体看官方文档。

接下来是indexer，配置很简单，IO限制非必要不配，只配内存。索引器配置：

indexer
{
mem_limit = 256M
}

mem_limit：内存大小，最大2047M,看你的数据量有多大，机器有多好。
最后是searchd的配置：

searchd
{
listen = 127.0.0.1:12325
log = /home/berryxie/log/error/searchd.log
query_log = /home/berryxie/log/error/query.log
read_timeout = 5
client_timeout = 300
max_children = 200
pid_file = /tmp/searchd.pid
max_matches = 2000
seamless_rotate = 1
preopen_indexes = 1
unlink_old = 1
mva_updates_pool = 10M
max_packet_size = 8M
#crash_log_path = /tmp/crash
max_filters = 256
max_filter_values = 4096
workers = prefork
prefork_rotation_throttle = 50
}

这里只介绍最重要的几个配置：
client_timeout：使用长连接时，默认300秒没收到请求，将断开连接
max_children：默认为0，无限制，配置最大fork出的并发搜索量。
max_matches：API默认会设置为1000，这个时候如果数据库里面有1w条命中的记录，只会返回最先搜索到的1000条，看业务需要，也可以设置得很大。
seamless_rotate：更新索引策略。默认为1时，会先生成好新的index文件，Load进内存，重命名新旧索引文件名，searchd切到新索引文件搜索，这样实现了无缝切换索引。
read_buffer：每个查询都有两个buffer，一个是存储记录的，一个是命中的记录的，默认为256k。
read_unhinted：必须比read_buffer小，默认32k。
workers：有none/prefork/fork/threads四种值，默认为fork。Windows可以用None来串行处理请求。fork则会创建子进程来处理请求，请求量大时系统消耗会比较明显，threads则会创建个线程来处理请求。推荐prefork，先创建一定量的进程来处理请求，性能最优。
prefork_rotation_throttle：prefork模型下切换索引时会重启所有进程，如果有200个子进程，瞬间的重启需要消耗大量的CPU和网络连接。让这200个进程以50ms的间隔重启是个比较明智的选择。
最后，配置好sphinx.conf，就是crontab程序来更新主索引和增量索引啦：
更新增量索引update.sh
#!/bin/sh
/home/berryxie/sbin/indexer –config /home/berryxie/etc/sphinx.conf –rotate delta_nickname >> /home/berryxie/log/error/indexer.log
更新主索引indexer.sh
#!/bin/sh
/home/berryxie/sbin/indexer –config /home/berryxie/etc/sphinx.conf –all –rotate >> /home/berryxie/log/error/indexer.log

大功告成，可以用search工具试试，search工具只读indexer生成的文件和连接mysql。需要测试searchd，则要用php/c++ client连上去啦~

转载请注明：SuperIT » sphinx搭建亿级搜索