Page 1 of 1

什么是 HTTP 状态代码?

Posted: Tue Feb 18, 2025 7:18 am
by nurnobi40
机器人排除协议 (REP) 是一个用于指导机器人的网站管理员文件。这些指令可帮助机器人抓取网页并为各个网站编制索引。此 REP 有时被称为 Robots.txt。为了最有用,它们被放置在 Web 服务器目录的顶层。例如:P 组被用作规范搜索引擎中的机器人动作和索引行为的网络标准。 1994 年至 1997 年间,最初的 REP 为 robots.txt 定义了机器人行为。 1996 年,搜索引擎支持额外的 X-robot REP 标签。搜索引擎使用 rel-no follow 微格式处理值包含“follow”的链接。


URI、REP 标签适用于某些索引任务,在某些情况下适用于 nosnippet、noarchive 和 noodpquery 引擎或搜索查询。带有排除标签的资源,像 Bing SERP 列表这样的搜索引擎会将这些外部链接显示为禁止的 URL。除了抓取指南之外,特定的搜索引擎会对 REP 标签做出不同的解释。举个例子,Bing 有时会将 SERP 中的外部引用列为禁止引用。 Google 也做同样的列表,并从其 SERP 中删除了 URL 和 ODP 引用。这个想法是 X-Robots 会覆盖与 META 元素冲突的指令。

微格式
特定的 HTML 因素将覆盖微格式索引规则中的页 保加利亚电话号码列表 面设置。这种编程方法需要技能以及对 Web 服务器和 HTTP 协议的敏锐理解。该协议的一个示例是 X-Robot 标签页,其中有特定元素链接,显示 follow,然后是 rel-nofollow。 Robots.txt 爬虫一般没有指引,但是可以定义在站点级别有服务器端脚本的 URI 组爬虫。

模式匹配
网站管理员仍可使用两个单独的表达方式来表示页面排除。这两个字符是星号和美元符号。星号表示它可以代表任意字符的组合。美元符号表示 URL 的结束。

不受限制的信息
Robots 文件始终是公开的,因此请务必注意,任何人都可以查看附加到网页的 Robots 文件。这也是网站管理员阻止服务器引擎时可以访问的信息。这些公共文件允许访问私人用户数据,其中可能包括个人私人数据。您可以添加密码保护,以防止访问者和其他人查看不应编入索引的分类页面。

其他规则
简单的元机器人参数(例如 index 和 follow 命令)仅应用于阻止对页面进行索引和抓取。
危险的机器人肯定会忽略这些命令,因此它们是一个无用的安全计划。
每个 URL 只允许有一行“不允许的”。
每个子域名都需要单独的 robots 文件
机器人的文件名区分大小写
搜索参数之间没有空格
最佳 SEO 策略:Robot.txt
页面阻止 - 有几种方法可以阻止搜索引擎索引和访问网页或域。

使用 Robots 屏蔽页面
此排除告诉搜索引擎不要抓取该页面,但它仍然可以索引该页面以将其显示在 SERP 列表中。

无索引页锁
这种排除方法告诉搜索引擎他们可以访问该页面,但不能显示该 URL 或将该页面保存为其索引。这是首选的删除方法。

阻止页面无链接跟踪
这不是一个受支持的策略。搜索引擎仍然可以使用此命令访问页面。即使搜索引擎无法直接抓取该页面,它也可以使用浏览器分析或其他链接页面访问内容。

元机器人与…
网站的 文件的示例可能有助于阐明该程序的流程。在示例中,robots.txt 文件正在阻止该目录。当用Google搜索具体网址时,显示有2760个页面被禁止进入目录。在示例中,引擎尚未抓取 URL,因此它们不会作为传统列表出现。这些页面一旦附加了链接,就会积累链接汁。除了排名能力之外,它们还会在搜索中出现,从而开始获得知名度和信任度。因为这些页面没有被抓取,所以无法给网站带来任何好处。解决此问题且不浪费页面排名能力的最佳方法是使用另一种排除方法来删除单个页面。编码将显示为:元标记,此方法将比以前的方法表现出更好的性能。