本问题是由我的上一个问题引出的。

在上一个问题中,基本上大部分答案都认为,为了让英文的搜索更加准确,需要建立词库或者歧义表,比如:iphone4s => iphone 4smacbook pro => macbookpro

但由此又会引发新的问题,这样的词库/歧义表如何比较好的建立。

目前绝大多数回答都是靠人工方法,统计用户搜索,我认为这样无法很好的解决问题:

首先,一个搜索结果好,还是不好,这是需要人为去判断的,比如在我的项目中

iphone 4s的搜索结果为:34匹配 (http://shishijia.com/search/iphone%204s)

iphone4s的搜索结果为:17匹配 (http://shishijia.com/search/iphone4s)

对于这两个结果,如果不用人工检查一个一个看,不是很容易能确定34匹配的就一定优于17匹配的结果。假如每天有大量的搜索,那么如何能从大量的搜索数据中甄选出好的搜索结果和不好的搜索结果呢?

比如上例中,网站有1W次搜索,我们怎么样能发现iphone4s这个搜索关键词的匹配结果是不够好的,需要建立歧义表呢?

其次,统计用户搜索结果来建立歧义表,对于流量大的电商网站比较容易,但对于初创项目来说很难实现,因为本来初期用户就不多,而用户很可能因为一次不准确的搜索就此离开。如果等统计到足够的用户数据再去慢慢修正搜索结果,对于初创项目来说可能用户已经流失的差不多了。

个人考虑也许可以从现有搜索引擎/电商网站等获取一定的相关词库数据,至少是一些热门商品的数据,希望得到一些建议。

2011-03-23 17:23:56

2 Answers

一般搜索引擎中都提供 wordforms(词形字典)功能,就可以根据词性表得到统一结果,
字典的建立可以使用 myspell, ispell, pspell, aspell等的字典。

2011-03-23 19:25:52

你应该使用一个by word的analyzer:
iphone4s(iphone 4s) to terms: iphone/4s
macbookpro(macbook pro) to terms: mac/book/pro

这样将搜索词粒度降低
在建立索引和parse query的时候同样应用这个analyzer,这样本身搜索出的最优结果会在最上面,同时也解决了未来iphone5,iphone6的问题

如果是一个针对产品库的索引,可以将macbook加入词库,分出更为理想的macbook/pro

当然,这样做是保证通用性,针对性的优化方式还有很多,例如调整analyzer使之可以将iphone4s,iphone-4s,iphone4s纳入同一个term,针对性的优化产品词库,或者你说的"歧义表",这样可以避免搜索iphone4s在后面几页出现iphone3gs的新闻,这样则需要维护一个产品名称库,通常这不是一个网站起步阶段需要做的

2011-03-23 20:57:06
您不能回答该问题或者回答已经关闭!

相关文章推荐

  • C#中using指令的几种用法

    using + 命名空间名字,这样可以在程序中直接用命令空间中的类型,而不必指定类型的详细命名空间,类似于Java的import,这个功能也是最常用的,几乎每个cs的程序都会用到

  • C#实例解析适配器设计模式

    将一个类的接口变成客户端所期待的另一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够一起工作

  • C#开发高性能Log Help类设计开发

    项目中要在操作数据库的异常处理中加入写Log日志,对于商业上有要求,写log时对其它操作尽可能影响小,不能因为加入log导致耗时太多

  • 使用托管C++粘合C#和C++代码(二)

    本文实现一下C++代码调用C#代码的过程。我构造一个简单并且直观的例子:通过C++ UI 触发C# UI.

  • C#开发中的反射机制

    反射的定义:审查元数据并收集关于它的类型信息的能力。元数据(编译以后的最基本数据单元)就是一大堆的表,当编译程序集或者模块时,编译器会创建一个类定义表,一个字段定义表,和一个方法定义表等

  • Async和Await使异步编程更简单

    C#5.0中async和await两个关键字,这两个关键字简化了异步编程,之所以简化了,还是因为编译器给我们做了更多的工作

  • C#运行时相互关系

    C#运行时相互关系,包括运行时类型、对象、线程栈和托管堆之间的相互关系,静态方法、实例方法和虚方法的区别等等

  • C#协变和逆变

    “协变”是指能够使用与原始指定的派生类型相比,派生程度更大的类型,“逆变”则是指能够使用派生程度更小的类型

  • C#基础概念之延迟加载

    延迟加载(lazy load)是Hibernate3关联关系对象默认的加载方式,延迟加载机制是为了避免一些无谓的性能开销而提出来的,所谓延迟加载就是当在真正需要数据的时候,才真正执行数据加载操作

  • 使用托管C++粘合C#和C++代码(一)

    C#在xml读写,数据库操纵,界面构造等很多方面性能卓越;C++的效率高,是底层开发的必备武器

  • C#中的索引器的简单理解和用法

    C#中的类成员可以是任意类型,包括数组和集合。当一个类包含了数组和集合成员时,索引器将大大简化对数组或集合成员的存取操作

  • 深入C# 序列化(Serialize)、反序列化(Deserialize)

    C#中的序列化和反序列化,序列化是.NET运行时环境用来支持用户定义类型的流化的机制