0
整个可公开访问的互联网?确定。没那么大
一百个PB左右是一个合理的开始,你需要的存储量。也许是允许中间处理的百亿亿字节 。这只是一千到一万个硬盘之间的,在实践中,这将是比这很多,因为一千个驱动器将太慢,以处理它。
处理它很难,你需要大量的计算机集群和聪明的代码。
然后,它被提炼成一个索引,可以加载到几千台计算机上并放在内存中,以便可以非常快速地回答查询。这需要大量的RAM,但成千上万的大型服务器可以做到这一点。谷歌在世界各地运行了很多很多的这些集,所以有一个相当接近每个用户。
搜索引擎的实际前端获取查询,查看其中每个单词,并询问索引中每个单词的相关结果,然后与索引相交,以获得与实际查询相关的结果。或类似的东西,因为每个实现被修改相当定期,我敢肯定,必应的工作方式不同于谷歌(请注意,我从来没有真正知道谷歌搜索是如何工作的细节,只是一些整体概念)。
不管怎样...你可以看到为什么搜索引擎住在这样的地方:
收藏