Sphinx全文检索引-豆柴文库

Sphinx全文检索引.ppt

2024-09-16

16金币

1.3MB

36页

sy****28

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共36页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

Sphinx全文检索Sphinx全文检索什么是全文检索二、按数据的分类，搜索也分为两种：对结构化数据的搜索：如对数据库的搜索：SQL语句。再如windows的搜索：文件名，类型，修改时间。对非结构化数据的搜索：如windows对文件内容的搜索。 Linux下得grep命令。再如Google和百度可以搜素大量内容数据。对于非结构化的数据搜索也叫做对全文数据的搜索。三、对全文数据的搜索还可以分为两种 1、顺序扫描：如要找内容包含某个字符串的文件，会一个文档一个文档的从头到尾的找，如Like查找。 2、索引扫描：把非结构化的数据中的内容提取出来一部分重新组织，让它变的有结构化，这部分我们提取出来的数据就叫做索引.模拟词典全文检索大体分两个过程：索引创建(Indexer)和搜索索引(Search)。索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。三个重要问题索引所保存的信息一般如下: 假设我现在有100篇文档，从1到100表示。词典:保存的是一系列的字符串。倒排表:指向包含字符串的文档链表。比如说，我们要寻找既包含字符串“Sphinx”又包含字符串“PHP”的文档，我们只需要以下几步： 1.取出包含字符串“Sphinx”的文档链表. 2.取出包含字符串“PHP”的文档链表. 3.通过合并链表，找出既包含“Sphinx”又包含“PHP”的文件.二、如何创建索引？全文检索的索引创建过程一般有以下几步：一些需要创建索引的文档(Documents)。将原文档传给分词组件(Tokenizer)。将得到的词元(Token)传给语言处理组件(LinguisticProcessor)。将得到的词(Term)传给索引组件(Indexer)。第一步：一些创建索引的文档。文档1：Studentsshouldbeallowedtogooutwiththeirfriends,butnotallowedtodrinkbeer. 文档2：MyfriendJerrywenttoschooltoseehisstudentsbutfoundthemdrunkwhichisnotallowed.第二步：将原文档传给分词组件(Tokenizer)。分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize)： 1.将文档分成一个一个单独的单词。 2.去除标点符号。 3.去除停词(Stopword)。所谓停词(Stopword)就是一种语言中最普通的一些单词：英语中的停词(Stopword)如：“the”，“a”，“this”等。中文中的停词如：‘是’‘的’‘这个’等。对于每一种语言的分词组件(Tokenizer)，都有一个停词(stopword)集合。经过分词(Tokenizer)后得到的结果称为词元(Token)。在我们的例子中，便得到以下词元(Token)： Students、allowed、go、their、friends、allowed、drink、beer、My、friend、Jerry、went、school、see、his、students、found、them、drunk、allowed。第三步：将得到的词元(Token)传给语言处理组件(LinguisticProcessor)。语言处理组件主要是对得到的词元做一些同语言相关的处理：对于英语，语言处理组件一般做以下几点：变为小写(Lowercase)。 2.将单词缩减为词根形式，如“cars”到“car”等。这种操作称为：stemming。 3.将单词转变为词根形式，如“drove”到“drive”等。这种操作称为：lemmatization。语言处理组件的结果称为词(Term)。在我们的例子中，经过语言处理，得到的词(Term)如下： Student、allow、go、their、friend、allow、drink、beer、my、friend、jerry、go、school、see、his、student、find、them、drink、allow。也正是因为有语言处理的步骤，才能使搜索drove，而drive也能被搜索出来。第四步:将得到的词(Term)传给索引组件(Indexer) 索引组件(Indexer)主要做以下几件事情：利用得到的词(Term)创建一个字典。对字典按字母顺序进行排序。步骤1：步骤2：DocumentFrequenc即文档频次表示总共有多少文件包含此词(Term) Frequency即词频率表示此文件中包含了几个此词(Term)三、如何对索引进行搜索搜索

相关资料

Sphinx全文检索引.ppt

2024-09-16

1.3MB

[feiq]sphinx增量索引.doc

3.11.实时索引更新有这么一种常见的情况：整个数据集非常大，以至于难于经常性的重建索引，但是每次新增的记录却相当地少。一个典型的例子是：一个论坛有1000000个已经归档的帖子，但每天只有1000个新帖子。在这种情况下可以用所谓的“主索引＋增量索引”（main+delta）模式来实现“近实时”的索引更新。这种方法的基本思路是设置两个数据源和两个索引，对很少更新或根本不更新的数据建立主索引，而对新增文档建立增量索引。在上述例子中，那1000000个已经归档的帖子放在主索引中，而每天新增的1000个帖子则放

2024-09-04

19KB

sphinx社区全文搜索平台配置手册.docx

/NUMPAGES20千万级Discuz!数据全文检索方案（Sphinx）前言：康盛创想的Discuz!从创立之初即以提高产品效率为突破口，随着编译模板，语法生成内核，数据缓存和自动更新机制等独创或独有技术的应用，和坚固的数据结构及最少化数据库查询设计，使得Discuz!可以在极为繁忙的服务器环境下快速高效稳定运行。由于Discuz!产品依赖MySQL数据库性能，在全文检索方面如果仅仅依靠MySQL的LIKE%关键词%语句无法取得理想的成绩。本文阐述经过Discuz!生产环境考验的构建在Sphinx

2024-08-13

211KB

基于Sphinx的社交网络搜索引擎的设计与分析.docx

基于Sphinx的社交网络搜索引擎的设计与分析概述随着社交网络的发展，数据量和信息量呈爆炸式增长，社交网络搜索引擎越来越受到人们的重视和需求。本文提出基于Sphinx的社交网络搜索引擎的设计与分析，分析了社交网络搜索引擎的特点和需求，阐述了Sphinx的架构和特点，设计了基于Sphinx的搜索引擎系统，并对其进行了测试和分析。社交网络搜索引擎的需求社交网络搜索引擎的需求主要包括以下几个方面：1、支持多种复杂查询方式。社交网络中有各种各样的关系、标签、发布时间等重要信息，需要根据这些信息进行查询，如按朋友、

2024-11-02

11KB

索引全文索引与优化.pptx

会计学8.1索引的概念8.2索引的类型8.3索引的创建与管理8.4索引的维护8.5索引优化8.6全文索引8.7本章实训第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第8章索引、全文索引与优化第

2024-09-26

505KB