刚接触sphinx ,有些问题搞不清楚。

我看到它可以有主索引和增量索引2种,主索引示索引 0-max(id)的数据,增量索引是索引当前最新数据中的最大id 到先前主索引最大Id,从而达到增量索引的效果。


我的问题是:

1、这个增量索引概念不包含 主索引中 这段时间内被修改和删除的数据吗?仅仅是索引增加的ID?

补充:即使使用last_update_time 来获得最新更新的数据后。他要是每几分钟执行一次。也就是会吧 一天内所有的更新数据,一直重复的读取出来。这样会造成数据库资源浪费,假如一天更新了1000条,也就是每几分钟就得读出一千条。我又尝试了使用merge合并索引的方式,每个几分钟读取增量索引,并且合并到主索引,但是这个操作不能使数据库记录最新last_update_time的字段得到更新。


2、索引数据库字段时,能指定哪些字段可以用来被搜索,默认的是好像他能搜索所有文本列,例如我只要搜索title列,咋弄?并且可以设置该列 要不要被分词。

3、我搜索的时候可以指定列进行搜索吗?比如 typeid=2的列,并且title like ‘文章’


 

1、需要哪些数据就在 sql_query里写出哪些字段,我若是只需要titile 用来显示,不用作索引用,我怎么定义法?

2、我要对字符常量进行过滤,比如type='A'的,如何进行sql_attr_(??)设置呢?


3、之前int型数据库里有负数,这里好像只支持uint型,导致数据不对,怎么弄呢?

 

对于既要作索引,又要作属性用来显示,是不是得复制相同的一列数据?

2010-12-26 14:32:29

2 Answers

过滤只适合数字型的,字符型的不支持.SPHINX是支持中文分词的. 

2010-12-26 18:24:34

1.是的,增量索引中不包含主索引最大ID以内的数据,仅为主索引最大id以后新创建的数据。
merge操作不会更新主索引数据,建议每隔一段时间做一次全量。全量和增量的合并操作不用过于频繁,对于数据update操作不多,只做insert操作的一般1周做一次merge就行。因为merge操作在面对数据量过多时,合并速度还不如做一次全量快。关于数据库资源浪费这个不用担心,sphinx有自己数据源读取方式,对1000的数据做索引速度非常快,都是毫秒级的。
目前从1.01beta版以后增加的实时索引的支持,对于索引的更新也是毫秒级的,但在处理较大数据量的批量索时效率并不高。

2.关于索引指定字段,在创建source配置时指定,不需要被索引的字段不用查询。如只对title索引,数据源的sql可以写成:

sql_query = SELECT id, title FROM table;

sphinx是不支持中文分词的。对指定字段做分词设置可以选择国内的一些中文分词开源程序。

3.搜索时可以指定条件查询,如php api的SetFilter()函数
条件查询,需要在配置source时指定,sql_attr_uint = typeid


1.sql_query中指定的字段是要做全文搜索的字段及属性,sphinx对此数据源做索引,定义的属性是sphinx的返回结果。
2.sphinx支持的属性:

sql_attr_uint sql_attr_bool sql_attr_bigint sql_attr_timestamp sql_attr_str2ordinal sql_attr_float sql_attr_multi
3.有符号可以试下sql_attr_bigint 更详细参考Sphinx 0.9.9 参考手册
2010-12-26 16:23:34
您不能回答该问题或者回答已经关闭!

相关文章推荐

  • C#中using指令的几种用法

    using + 命名空间名字,这样可以在程序中直接用命令空间中的类型,而不必指定类型的详细命名空间,类似于Java的import,这个功能也是最常用的,几乎每个cs的程序都会用到

  • C#实例解析适配器设计模式

    将一个类的接口变成客户端所期待的另一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够一起工作

  • C#开发高性能Log Help类设计开发

    项目中要在操作数据库的异常处理中加入写Log日志,对于商业上有要求,写log时对其它操作尽可能影响小,不能因为加入log导致耗时太多

  • 使用托管C++粘合C#和C++代码(二)

    本文实现一下C++代码调用C#代码的过程。我构造一个简单并且直观的例子:通过C++ UI 触发C# UI.

  • C#开发中的反射机制

    反射的定义:审查元数据并收集关于它的类型信息的能力。元数据(编译以后的最基本数据单元)就是一大堆的表,当编译程序集或者模块时,编译器会创建一个类定义表,一个字段定义表,和一个方法定义表等

  • Async和Await使异步编程更简单

    C#5.0中async和await两个关键字,这两个关键字简化了异步编程,之所以简化了,还是因为编译器给我们做了更多的工作

  • C#运行时相互关系

    C#运行时相互关系,包括运行时类型、对象、线程栈和托管堆之间的相互关系,静态方法、实例方法和虚方法的区别等等

  • C#协变和逆变

    “协变”是指能够使用与原始指定的派生类型相比,派生程度更大的类型,“逆变”则是指能够使用派生程度更小的类型

  • C#基础概念之延迟加载

    延迟加载(lazy load)是Hibernate3关联关系对象默认的加载方式,延迟加载机制是为了避免一些无谓的性能开销而提出来的,所谓延迟加载就是当在真正需要数据的时候,才真正执行数据加载操作

  • 使用托管C++粘合C#和C++代码(一)

    C#在xml读写,数据库操纵,界面构造等很多方面性能卓越;C++的效率高,是底层开发的必备武器

  • C#中的索引器的简单理解和用法

    C#中的类成员可以是任意类型,包括数组和集合。当一个类包含了数组和集合成员时,索引器将大大简化对数组或集合成员的存取操作

  • 深入C# 序列化(Serialize)、反序列化(Deserialize)

    C#中的序列化和反序列化,序列化是.NET运行时环境用来支持用户定义类型的流化的机制