预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共50页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

7文献信息检索及原文获取7.1信息检索基础(1)什么是信息检索案例:李开复从30万图片邮件中找出20封邮件(离开微软到GOOGLE)。 方法:把图片转换为文字,再检索。 信息检索(InformationRetrieval):依据一定方法,从已经组织好的有关大量信息集合中,查出特定的相关信息的过程。 按照检索对象的不同,可分为文献检索、数值检索和事实检索。 信息检索利用检索词、检索条件实现过滤。信息检索包括存储和检索两个方面。 A.信息存储的过程 ①信息采集:根据一定的规则收集信息。 ②信息标引、著录。 对信息的内容特征和形式特征进行揭示和描述。 ③编制检索工具或建立检索系统。B.信息检索的过程 信息存储的逆过程。用户根据信息需求,选取合适的检索词(标题、著者姓名、主题词、分类号等),利用检索工具或检索系统查找出相关信息。 查找的过程实际上是一个匹配的过程,即确定检索词并将检索词与标引词做相符性比较,二者一致,就算找到了符合要求的信息。(2)信息检索原理现举例说明信息存储和信息检索的过程。有3篇文献: 文献1: AModelofmultimediainformationretrieval 文献2: TheInformationretrievalinchemistryWWWserver 文献3: ERICresources对3篇文献的内容进行分析,并使用检索语言对其进行标引,标引结果为: 文献1—篇名(title):AModelofmultimediainformationretrieval 主题(subject):informationretrieval,multimediacomputerapplicatons 文献2—篇名(title):TheInformationretrievalinchemistryWWWserver 主题(subject):chemistry,educationalmaterials 文献3—篇名(title):ERICresources 主题(subject):educationalmaterials 标引后,这3篇文献分别被存储到数据库。如果用户输入“informationretrieval”一词,并将检索范围限定在篇名中,则文献1、文献2符合用户要求,成为检索结果。 如果用户输入“informationretrieval”一词,并将检索范围限定在主题中,则只有文献1符合用户要求,成为检索结果。 如果用户输入“educationalmaterials”一词,并将检索范围限定在主题中,则文献2、文献3符合用户要求,成为检索结果。 如果用户输入任意其他词汇如“mathematics”,则没有任何检索结果。 这里,“informationretrieval”、“educationalmaterials”等就是检索语言,即具体的检索词,篇名和主题就是检索语言的标识。检索系统就是通过他们将用户需求与信息内容进行匹配运算,最终找到检索结果的。广义地,信息检索系统是包含了从信息采集到信息检索全过程的服务体系。 狭义地,信息检索系统就是指用户查找信息所使用的检索工具或系统。(4)信息检索语言信息检索的实质,就是人们的信息提问与信息的检索标识相比较后决定取舍的过程。一致,就“命中”了信息。不一致,就继续查找。 信息的标识用词和检索用词使用共同的语言来表达。 这种在信息的存储和检索过程中共同使用的语言,就是信息检索语言。又称为情报检索语言、索引语言、标引语言。自然语言具有多义性 信息检索语言是人工语言,具有唯一性。 信息检索语言对要对一词多义或多词一义的语词进行规范化处理,例如:自行车、单车、脚踏车;鲁迅、周树人。 各种文献分类法,如《中国图书馆分类法》、《国际十进分类法》,以及各种主题词表,如《中国分类主题词表》、《工程索引(Ei)叙词表》等,都是检索语言。信息检索语言按照其构成原理,可分为 分类检索语言 主题检索语言 代码检索语言D-1.分类检索语言 ①《中国图书馆图书分类法》(简称《中图法》) ②《中国科学院图书馆图书分类法》(简称《科图法》) ③杜威十进分类法(DDC)与国际十进分类法(UDC) ④《美国国会图书馆分类法》(LC)依据:毛泽东同志在《整党的作风》中的一段话—— 什么是知识?自从有阶级的社会存在以来,世界上知识只有两门,一门叫做生产斗争知识,一门叫做阶级斗争知识。自然科学、社会科学就是这两门知识的结晶,哲学则是关于自然知识和社会知识的概括和总结。此外还有什么呢?没有了。 设置5大部类22大类,见下表。《中国图书馆图书分类法》设置5大部类,25大类。 《科图法》五大部类 马克思列宁主义、毛泽东思想 哲学 社会科学 自科科学 综合性图书00马克思列宁主义、毛泽东思想 哲学 社会科