信息检索技术.ppt
《信息检索技术.ppt》由会员分享,可在线阅读,更多相关《信息检索技术.ppt(59页珍藏版)》请在第壹文秘上搜索。
1、信息检索技术信息检索技术n一、信息检索技术综述n二、信息检索的统计模型n三、信息检索中的自然语言处理方法一、信息检索技术综述n1、信息检索系统的定义与术语n2、信息检索系统n3、信息检索系统的评价n4、信息检索简史一、信息检索技术综述n1、信息检索系统的定义与术语 信息检索,最早是1952年由Calvin N.Mooers提出的,其原义包括海量信息的存储和查找两个方面的内容。 信息检索按照信息源的不同分为3类(互联网、光盘数据库、网络数据库) 信息检索定义 是指从非结构化的数据记录,特别是包含自由格式的自然语言文本的数据记录中获取与用户的信息需求相关的数据记录的系统、方法与过程。 “非结构化”
2、主要是与数据库检索相区分。一、信息检索技术综述n2、信息检索系统 n 一个信息检索系统是一个能够对数据全集的数据记录进行存储、组织与维护,并根据用户查询获取相关信息的系统。如下图所示:用户接口数据库管理索引构建文档文本操作用户查询文本操作用户查询处理搜索相关度排序用户需求检索到的文档索引文档用户反馈查询相关度排序后文档文档数据库语义词典倒排文件一、信息检索技术综述n2、信息检索系统 n 信息检索系统由8个就基本处理模块和两大系统资源组成。基本处理模块是:用户接口模块、用户查询文本操作模块、文档文本操作模块、用户查询处理模块、索引构建模块、数据库管理模块、搜索模块、相关度排序模块等。n两大系统资
3、源是:语义词典和以数据库形式存放的数据全集一、信息检索技术综述n2、信息检索系统 n用户接口模块:是与用户交互信息,主要包括接受用户查询请求,根据用户对信息检索结果的反馈调整信息检索系统的有关参数,显示用户查询的结果等。一、信息检索技术综述n2、信息检索系统 n用户查询文本操作模块:对用户的查询字串进行过滤停用词、词干抽取等处理,并转换为机器内部的用户查询表示形式。一、信息检索技术综述n2、信息检索系统 n文档文本操作模块:对文档数据库中的文档进行停用词过滤、词干抽取等处理,并将文档转换为机器内部的表示形式,供建立索引模块处理。一、信息检索技术综述n2、信息检索系统 n用户查询处理模块:是对用
4、户查询的词汇进行同义词扩充,或者根据用户对信息检索的倾向性对查询的词汇进行转换处理。n索引构建模块:是建立从词汇到该词汇出现的文档的倒排索引表,从而对用户查询中的词汇进行快速定位。插入内容:倒排索引n什么是倒排索引什么是倒排索引呢?请看下面的例子:假设文章1的内容是:aaa bbb ccc ddd文章2的内容是:bbb ddd yyyn上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成:插入内容:倒排索引 aaa 1bbb 1,2ccc 1ddd 1,2yyy 2n当建好了上面所示的倒排索引后,
5、一旦我们要查找哪些文章中含有某个关键字时,只需取出该关键词所对应的文章号就行了。比如我们查找aaa,返回1.查找ddd,返回1,2一、信息检索技术综述n2、信息检索系统 n数据库管理模块:将文档以数据库的格式存储、管理和访问,n搜索模块:根据用户查询,借助倒排序索引表和数据库管理模块从数据库中抽取出包含用户查询关键字的文档,n相关度排序模块:逐一计算用户查询与搜索模块返回文档的相关度,最后将这些文档按照相关度由大到小排序。一、信息检索技术综述n3、信息检索系统的评价n 一个系统在实际应用中的时间和空间消耗是衡量一个系统优劣的重要指标。n评价信息检索系统的一个核心因素即:相关性n两个最常用的相关
6、性指标是:精确度和召回率一、信息检索技术综述n3、信息检索系统的评价n精确度:是检索获取的相关数据记录个数与检索获得的所有数据记录个数的比值。它反映了系统能够返回与用户查询相关数据记录的能力。n召回率:是检索获取的与用户查询相关的数据记录个数与数据全集中所有与用户查询相关的数据记录个数的比值。反映了系统能够找到全部相关数据记录的能力。一、信息检索技术综述n3、信息检索系统的评价n精确度: Precision=n召回率: Recall=A为信息检索系统获取的数据记录的集合,R为数据全集中所有与用户查询相关的数据记录的集合|ARA|RRA一、信息检索技术综述n3、信息检索系统的评价nVan Rij
7、sbergen于1979年提出了E度量,将精确度和召回率结合起来,并赋予不同的权值:其中P为精确度,R为召回率,在0-1之间。RPE1)1 ()1(11一、信息检索技术综述n4、信息检索简史n1950年美Calvin N.Mooers首创“信息检索”n1958年美Luhn提出统计检索基本理论方法n1960年Marson和Kuhns提出信息检索概率模型n1965年美康奈尔大学Gerard Salton及其学生提出信息检索向量空间模型向量空间模型,并设计实现了SMART系统n1966年在Cranfield项目中提出系统评价方法。一、信息检索技术综述n4、信息检索简史n1968年美Rocchio和S
8、alton提出查询扩展方法n1972年Lockheed公司推出DIALOG系统n1980年代:模糊集、模糊推理、线性回归技术、通用向量空间模型n1990年代:潜在语义索引技术、贝叶斯网络、神经网络技术n基于互联网的大型搜索引擎n信息检索技术向深度和广度发展二、信息检索的统计模型n信息检索领域的技术和方法可以划分为两大类:基于统计的方法和基于语义的方法。n基于统计的方法主要是根据用户查询与数据全集中数据的统计量度计算相关性n基于语义的方法对用户查询内容和数据全集中的内容进行语法语义分析。即对用户查询和数据全集内容理解的基础上进行两者的相关性计算。二、信息检索的统计模型n概念:对实际信息检索过程加
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 技术