Hiệu về các đường link, danh mục không được phép hoặc được phép thu thập dữ liệu thông qua hai lệnh “disallow” và “allow”.
Ví dụ
User-agent: [tên bot]
Disallow: [URL muốn chặn index]
Trên đây là 2 yếu tố cấu thành một tệp robots.txt hoàn chỉnh. Ngoài ra file robots.txt có thể chứa rất nhiều dùng cùng những yêu cầu (disallows, allows, crawl-delays, etc.)
Thông thường, file robots.txt có rất nhiều lệnh và mỗi lệnh thường được viết riêng biệt và cách nhau bởi 1 dòng.
Ví dụ:
User-agent: Googlebot
Disallow: /
User-agent: metajobbot
Disallow: /admin/
User-agent: AhrefsBot
Disallow: /
Với tệp robots.txt bạn có thể chỉ định nhiều lệnh cho các bot bằng cách viết liên tục các lệnh không cách dòng. Trong trường hợp một file robots.txt có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.
Ví dụ:
User-agent: Googlebot News
Disallow: /admin/
Disallow: /tin-tuc/
Disallow: /*id=
User-agent: Googlebot
Disallow: /admin/
Disallow: /bai-viet/
Disallow: /*?p=
User-agent: *
Disallow: /*.gif
Trong ví dụ tên Googlebot News, Googlebot có những lệnh riêng do đó khi truy cập webite 2 bot này phải thực hiên theo đúng lệnh. Còn đối với các bot khác trên mạng sẽ thực hiện theo lệnh của nhóm có User-agent: *
Một vài ví dụ về file robots
Chặn tất cả bot truy cập website
User-agent: *
Disallow: /
Lệnh trên yêu cầu các bot không được phép thu thập dữ liệu website kể cả nội dung trang chủ.
Cho phép tất cả bot thu thập nội dung
User-agent: *
Disallow:
Lệnh trên cho phép toàn bộ các bot thu thập thông tin toàn bộ website kể cả trang chủ.
Chặn 1 loại bot cụ thể truy cập nội dung
User-agent: Googlebot
Disallow: /admin/
Cú pháp này có nghĩa với bot Googlebot không được phép truy cập vào bất kỳ một trang nào có chứa /admin/ để thu thập dữ liệu.
Chặn bot truy cập một trang cụ thể
User-agent: AhrefsBot
Disallow: /tin-tuc/cong-cu-seo-moi.html
Cú pháp này chặn AhrefsBot thu thập dữ liệu của trang cụ thẻ với url = http://congdongspin.com/tin-tuc/cong-cu-seo-moi.html
Các bot thu thập thông tin có 2 chức năng chính:
Để thu thập thông tin website, công cụ tìm kiếm di chuyển qua các liên kết trên website để lấy nội dung và xếp loại. Tuy nhiên với hàng tỷ website và liên kết khác nhau quá trình này đôi khi tốn quá nhiều thời gian.
Bởi vậy, khi đến một wbeist bất kỳ các trình thu thập dữ liệu sẽ tìm đến file robots.txt đầu tiên. Nếu tìm thấy bot sẽ đọc các lệnh trong file trước khi bắt đầu thu thập nội dung trên trang web. Như ở các ví dụ trên, nếu một bot được thông báo một lệnh riêng biệt bot đó sẽ thực hiện theo yêu cầu của nhà quản trị tuy nhiên trong một vài trường hợp bot không tìm thấy bất kỳ lệnh nào bot sẽ tiến hành thu thập nội dung.
User-agent: tên bot mà bạn đang muốn cung cấp hướng dẫn để bot thu thập thông tin
Disallow: lệnh chặn không cho thu thập thông tin một nhóm hoặc một url cụ thể
Allow (chỉ áp dụng với googlebot): Lệnh này cho phép Googlebot có thể thu thập nội dung một trang mặc dù thư mục cha của trang đó bị cấm
Crawl-delay: Thời gian bot nên quay lại để thu thập thông tin. Lệnh này không có tác dụng đối với Googlebot, nếu muốn bạn nên cài đặt thời gian thu thập dữ liệu trong google search console
Sitemap: Đường link dẫn đến vị trí của file sitemap.xml. Chỉ có hiệu lực với google, ask, bing và yahoo.
Hướng dẫn so khớp link trong robots.txt
Thông thường file robots.txt rất đơn giản chỉ cần nhập đường link theo cấp nhưng để giảm thời gian nhập dữ liệu nhà quản trị web có thể sử dụng hai ký tự $ và * trong đó:
Bạn có thể xem bản đầy đủ của google tại đây: https://support.google.com/webmasters/answer/6062596?hl=vi
Cách kiểm tra website có có file robots.txt hay không
Bạn chỉ cần thêm /robots.txt vào cuối tên miền. Nếu có một page hiện ra thì webiste đã có file robots còn trong trường hợp lỗi 404 hoặc các thông báo khác thì website chưa có.