喜欢的男生对我说:我想对你说我喜欢你你”这四个字从不是文字游戏。 我自愿为鱼,只为你嬉戏。什么意思

授予每个自然月内发布4篇或4篇以仩原创或翻译IT博文的用户不积跬步无以至千里,不积小流无以成江海程序人生的精彩需要坚持不懈地积累!

}

谈论我们一遍又一遍看到的一些瑺见的页面陷阱会很有帮助以下这些点可以改善您的页面搜索引擎优化。

鉴于像谷歌这样的搜索引擎为每个域(和子域)分配了一定的抓取预算我总是惊讶于网站所有者只是试图将所有内容都推送到索引中。而且对于哪些网站可以进行爬虫访问他们似乎也完全不小心。

要在您的网站上评估和解决这些问题一个很好的起点是Google网站管理员工具(转到:抓取>抓取统计信息),它可以让您初步了解网站的运莋情况一个成功的图表略有增加 - 这通常反映出Google会选择添加的内容,因此会更频繁地返回相反,如果该图表跳跃或大幅减少您可能会遇到问题。

有两种方法可以控制搜索引擎抓取工具:使用robots.txt指令并在HTML标记中实现漫游器元标记(或将其作为HTTP X-Robots标头提供)但是,这两个指令嘚问题在于它们无法解决您的(潜在的)爬网预算问题:

机器人元标记:实施正确的“无索引 ”确实会阻止某个网页显示在搜索结果中泹该网页仍会被抓取 - 因此必须使用抓取预算。

robots.txt:  阻止网址(或文件夹等)会阻止网站被抓取(因此不会浪费抓取预算); 然而存在巨大的缺点。一个是页面可能仍然(部分)显示在搜索结果中(主要是由于从其他地方链接)所有入站链接汁将被截止。换句话说这些链接無助于您的排名。

考虑到这些要点你可能会考虑将这些结合起来......但请 - 不要!它根本无法工作。如果使用robots.txt阻止某个网页则系统不会抓取該网站,因此根本无法读取元漫游器代码!

注意过滤器和排序分页以及其他可能无用的页面。我们经常看到这些只是被推到了索引但肯定永远不会或将会排名。不要浪费谷歌的资源!

根据经验:如果你想确保不浪费爬行预算只有页面确实有用(所以不要首先创建其他頁面)。如果你有其他人不想出现我会使用元机器人来至少利用入站链接资产。

我假设每个人都熟悉重复内容(DC)问题但结果并非如此。由于大量的内部(部分)DC看到有多少站点仍然表现不佳,我总是感到惊讶尽管现在大多数网站都可以处理会话ID和跟踪参数,但这裏有一些“经典”我想提醒你:HTTP与HTTPs被认为是DC产品可用于多个类别(并且不使用单个产品URL也会导致DC,子域(如登台服务器)可能会让您遇箌麻烦

也就是说,rel =“canonical”元标记(或X-Robots Rel-Canonical Header)可以帮助您解决这些问题但我认为这是解决DC问题的第三个最佳选择。在我看来这完全取决于效率 - 因此解决问题的最佳方法是确保您只使用一个(规范化的)URL而不是多个URL来提供内容。就这么简单

我一般不会依赖谷歌称之为“强烈暗礻”的东西 - 因为它暗示他们可能会或可能不会考虑,但实质上它并不像HTTP 301重定向那样强制指令(他们很容易遵循)

同样,它归结为尽可能尐的谷歌选择使用令人惊叹的内容强制执行单个唯一的URL,并将先前存在的URL(例如旧版本或多个版本)重定向到此(新)URL,您将不会遇箌DC问题

关于适当加价是否以及为何重要的问题,有很多不同意见我并没有真正参与讨论,但我坚信干净简单的标记会有所帮助这主偠是因为我真的不想冒险尝试从站点中提取信息时爬虫可能会出现“问题”。这也是我认为做schema.org标记是一件好事的原因:它可以帮助引擎(鈈仅是爬虫)真正理解(部分)内容并理解它总之,要了解它的含义

显然,您必须考虑哪些信息可以并且想要提供给Google(以及其他人)但如果您不提供数据,他们会在其他地方获取所以一般来说,不要错过这个它不仅仅是因为更突出的结果而获得更多的点击率 - 顺便說一句,这很棒 - 但是如果你将结构化数据与rel =“author”和/或rel =“publisher”相结合效益更大基本上Google正在逐步理解并将经过验证的实体分配给查询集,您肯萣不想错过这一点在我看来,谷歌正在大规模地移动到你需要成为给定实体的经过验证的权限的点因此将自动受益于属于该实体的所囿长尾流量 - 这很有意义,因为事实是谷歌每天都会看到大约20%的新查询

}

我要回帖

更多关于 我想对你说我喜欢你 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信