搜索引擎的基础知识
1、提取关键词
在互联网上的网页都是由于html文档构成的,而许多的html文档的内容都比较随意参杂这很多与内容无关的信息如样板文字、广告、导航等等信息,由于这些和内容无关的信息会影响用户等搜索展现,搜索引擎就需要提取其具有代表性特征—关键词。搜索引擎提取关键词的过程当中会用一个切词软件,对网页中的内容的进行分词,通常在一篇的文章当中会有多个的这个关键词重复的出现如在、的、了之类的关键词,为了能够提高其工作的效率,搜索引擎就会将这些“停用词”给去掉,这样一般对于一般文章当中有效词语大于为200多个左右。
2、连接分析
在分析网页的过程当中,如果单纯是文字,搜索引擎会根据关键词和关键词在这篇文章当中出现的频率以及和其他的相关的内容来进行提取,而有了html标签之后,搜索引擎需要的提取的内容就更加的多了,如超链接,搜索引擎的会按照网页当中的超链接来对这个链接指向的文档和该文档的进行分他们之间的关系。
3、消除重复网页
对于互联网的内容的泛滥,相信做过医疗网站的SEO朋友一定深有体会,而这些互联网上变泛滥内容是非常影响搜索引擎服务器的资源和用户体验的。所以搜索引擎会收集来的内容和其他内容进行对比,如果发现同样内容有多个URL地址,如果其他URL地址价值较小搜索引擎就会降他删除。
4、计算重要程度
关于网页的的重要程度的计算,也是搜索引擎在网页处理当中的一个比较重要的部分,试想如果用户在百度上找不到它想要的内容,而在Google上能够找到他想要内容,那么用户还会使用百度吗?所以说网页的重要程度计算决定这个用户是否使用这个搜索引擎一点不为过。在计算网页重要程度的时候搜索引擎会按照该内容的外部链接投票,改内容的点击率,回复数,页面停留时间等等来进行计算其该内容的重要程度,从而进行排序展现给用户。
联系我们 Contact US
- 地址:上海市奉贤区川南奉公路9249号信投大厦5楼
- 电话:400-8699-864
- 手机:18321047223
- 邮件:404011662@qq.com
- ICP: 沪ICP备18007921号-1
- 地址:上海市奉贤区川南奉公路9249号信投大厦5楼
- 电话:400-8699-864
- 手机:18321047223
- 邮件:404011662@qq.com
- ICP: 沪ICP备18007921号-1 公安备案号:33010302001608