搜索引擎的基本工作原理包括:互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
1、爬行,搜索引擎就是通过特定规则的软件来跟踪网页链接,从一个链接爬到另一个。
2、抓取存储,搜索引擎就是爬虫搜索网页,找到网页中的其他链接地址,然后根据这些链接地址搜索下一页,直到抓取完该网站的所有网页。若将整个因特网看作一个网站,则网络蜘蛛可以利用这一原理抓取因特网上所有的网页,被抓取的网页称为网页快照。
3、数据库处理,将抓取到的网页放到数据库中。
4、排名,用户在搜索框中输入关键字后,排名程序调用索引库数据,计算排名显示给用户,排名过程直接与用户交互。