有网友碰到这样的问题“目录式搜索引擎的工作原理是什么?”。小编为您整理了以下解决方案,希望对您有帮助:
解决方案1:
搜索引擎系统依据信息搜集方法和服务提供方式的不同,可分为三类:目录式搜索引擎、机器人搜索引擎和元搜索引擎。
目录式搜索引擎以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。这类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,但需要人工介入、维护量大、信息量少、信息更新不及时。Yahoo、LookSmart、Open Directory、Go Guide等是这类搜索引擎的代表。
机器人搜索引擎由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。这类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google等是这类搜索引擎的代表。
元搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。WebCrawler、InfoMarket等是这类搜索引擎的代表。
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引,否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。