网站地图、搜索收录你经常出现以下几种情况:
1. 明明只有几个网页,收录或网站地图生成的页面确有很多,或过多被搜索引擎视为过多重复页面,而无法收录。
2. 明明网站有很多页面,但网站地图生成后确只有很少的页面,搜索引擎根本不收录网站的页面。
出现这两种情况,通常是网站的内容管理系统或网站制作人不正确使用canonical HTML元数据(meta)标记导致。
canonical 的意义
该ref通过link标记在HTML页面的head部分中使用,作用是说明当前页面的权威版本的URL。比如一个页有多个版本,不同的版本使用不同的参数来确定,但该内容只有一个权威版本,通过权威页面连接可以说明这些带参数的页面就是同一个内容,不需要单独收录,那么这时就要使用这个标记来说明所有版本的权威版本页面的连接。声明方法如下:
比如:
<link rel="canonical" href="https://sitemap.zhetao.com" />
canonical 的错误使用
在实际应用中我们发现部分站长错误理解canonical ,把所有页面的canonical 指向了同一个页面。这等于告诉搜索引擎,你的整个网站只有一个权威页面,从而导致整站无法被搜索引擎收录或只收入这一个页面。
canonical 目前被识别的应用有
本网站的sitemap生成器、百度、Google、Bing等主要搜索引擎。
canonical 声明去重
canonical 的作用就是指明页面的最权威的内容,所以当网页使用GET参数时,有些参数并没有实际意义,而是为了防止盗链、防止CSRF攻击而设,如果按连接生成规则显然每一个参数就是不同的连接,这会产生大量重复页面,可能导致搜索引擎不收录。可以给这样的页面的canonical 中指定不含这些动态参数,但又可以访问当前页面内容的URL即可。