Thẻ meta robots directives là thẻ hướng dẫn các bot cách thu thập nội dung và lập chỉ mục trên trang web. Trong khi file robots.txt cung cấp toàn bộ thông tin đề xuất cho các bot về cách thu thập nội dung website ở cấp độ website thì meta robots sẽ cung cấp hướng dẫn giành cho các bot ở cấp độ page.
Có hai loại thẻ meta robots: Một là thẻ nằm trong HTMl của trang và một thẻ được gửi dưới dạng tiêu đều HTTP là x-robots-tag. Cả 2 loại meta robots và x-robots-tag đều sử dụng các tham số giống nhau để gửi yêu cầu đến bot. Điều khác biệt chính giữa 2 loại thẻ robots này là cách thông số được truyền đi.
Các chỉ dẫn trong thẻ meta sẽ giúp cho các trình thu thập thông tin hiểu thêm về cách thu thập dữ liệu, lập chỉ mục nội dung trên một url cụ thể. Khi thu thập nội dung nếu bot phát hiện các thông số này chúng sẽ đóng vai trò là hướng dẫn cuối cùng đối với bot. Cũng giống như file robots.txt một số bot có thẻ bỏ qua hướng dẫn mà tiến hành thu thập toàn bộ nội dung.
Dưới đây là các thông số thường được sử dụng trong thẻ meta. Các thông số không phân biệt chữ hoa, chữ thường.
Noindex: yêu cầu không lập chỉ mục.
Index: yêu cầu công cụ tìm kiếm lập chỉ mục nội dung ( thẻ mặc định).
Follow: trong trường hợp trang được yêu cầu không lập chỉ mục, khi gặp thẻ này các bot vẫn truy cập các liên kết và chuyển độ trust cho các trang được liên kết.
Nofollow: không theo các liên kết trên trang này" hoặc "Không theo liên kết cụ thể này”.
Noimageindex: thông báo không index toàn bộ image trên page.
None: tác dụng giống với việc sử dụng đồng thời 2 lệnh noindex và nofollow.
Noarchive: Chặn không cho bot google lưu lại cached website.
Nocache: tương tự thẻ noarchive nhưng chỉ sử dụng cho IE và Firefox.
Nosnippet: ngăn không cho hiển thị một đoạn trích hoặc xem trước video bên trong kết quả tìm kiếm. Có một số trường hợp hình ảnh đại diện sẽ được hiển thị thay thế cho video.
Unavailable_after: công cụ tìm kiếm không lập chỉ mục của trang sau thời điểm được chỉ định.
Có 2 loại meta robot chính: Robots meta tag và X-Robots-Tag. Cả 2 loại thẻ robots đều sử dụng chung các thông số ở trên.
Là một phần của mã HTMl nằm trong thẻ <head> của website. Dưới đây là mẫu thẻ meta robots cơ bản
<meta name = “robots” content = “[Thông số]”>
Đây là cấu trúc tiêu chuẩn cho thẻ robots meta tuy nhiên bạn cũng có thể cấu hình thẻ để nhắm mục tiêu chi tiết vào một loại bot cụ thể như sau.
<meta name = “googlebot” content = “[Thông số]”>
Thẻ trên là một ví dụ dùng thẻ meta robots dành riêng cho googlebot.
Trong trường hợp bạn muốn thêm nhiều thông số trong thẻ thì phải phân tách các thông số bằng dấu “,”.
<meta name = “robots” content = “noimageindex”, “nofollow”, “nosnippet”>
hoặc
<meta name = “robots” content = “noimageindex, nofollow, nosnippet”>
Cả 2 cách viết trên đều có chung ý nghĩa yêu cầu bot không index image, không theo bất kỳ liên kết nào và ngăn không cho hiển thị đoạn trích trên SERP.
Thay vì sử dụng thẻ meta robots bạn cũng có thể xử dụng thẻ X-robots-tag để thay thế. Bất kỳ thông số nào dung cho meta robots đều có thể sử dụng trong X-robots-tag.
Ưu điểm nổi bật nhất đối với thẻ X-robots-tag là có thẻ áp dụng các biểu thức chính quy regex để cấu hình.
Ví dụ:
Thẻ thông thường
X-robots-tag: noindex, mofollow, nosnippet
Sử dụng biểu thức chính quy
<Files ~ "\.(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>
Để cấu hình thẻ x-robots-tag bạn cần có quyền truy cập vào file .htaccess, máy chủ hoặc file header của website.
Một số trường hợp nên sử dụng thẻ x-robot