热门关键词:

搜索引擎都是如何运作的

添加时间:2019-05-14 16:47:29

来源:

浏览:

抓取和索引:在我们输入搜索之前,查询的过程开始,抓取并索引数万亿个文档的网络。


一哥使用称为Web Crawlers的软件来发现可公开访问的网页。最着名的爬虫称为Googlebot。抓取者查看网页并关注这些网页上的链接,然后从链接转到链接,并将有关这些网页的数据带回Google的服务器。


网络就像一个不断增长的公共图书馆,拥有数十亿本书。一哥基本上会在抓取过程中收集页面,然后创建一个索引,就像书后面的索引一样。一哥索引包含有关字词及其位置的信息。当我们搜索时,在最基本的层面上,他们的算法在索引中查找我们的搜索词以找到适当的页面。


算法:算法是计算机进程和公式,它们通过我们的查询并从数千个网页中获取有用的信息。谷歌使用由其创始人谢尔盖布林和拉里佩奇开发的 PageRank算法。今天,一哥的算法依赖于200多种独特信号,其中包括网站上的术语,内容的新鲜度以及我们可以猜测我们真正想要的东西的区域。


打击垃圾邮件:垃圾邮件网站试图通过一遍又一遍地重复关键字,购买通过PageRank的链接或在屏幕上放置不可见文本等技术,成为搜索结果的首选。这对搜索不利,因为相关网站被埋没了,这对合法的网站所有者来说很糟糕,因为他们的网站变得更难找到。好消息是一哥的算法可以检测绝大多数垃圾邮件并自动降级。


用户名 Name
评论 Comment

关注

深信服

  • 地 址:成都市人民南路四段成科西路三号 863国家孵化园
  • 电 话:18215 660330
  • 手机:18215 660330
  • 传 真:18215 660330
  • 邮 箱:179001057@qq.com
  • 邮政编码:610000