Bui Vietđăng trongTài liệu>Seo

14/09/2018

14 lượt đánh giá

robots.txt

robots.txt là gì?

Hiệu về các đường link, danh mục không được phép hoặc được phép thu thập dữ liệu thông qua hai lệnh “disallow” và “allow”.

Ví dụ

User-agent: [tên bot]

Disallow: [URL muốn chặn index]

Trên đây là 2 yếu tố cấu thành một tệp robots.txt hoàn chỉnh. Ngoài ra file robots.txt có thể chứa rất nhiều dùng cùng những yêu cầu (disallows, allows, crawl-delays, etc.)

Thông thường, file robots.txt có rất nhiều lệnh và mỗi lệnh thường được viết riêng biệt và cách nhau bởi 1 dòng.

Ví dụ:

User-agent: Googlebot

Disallow: /

User-agent: metajobbot

Disallow: /admin/

User-agent: AhrefsBot

Disallow: /

Với tệp robots.txt bạn có thể chỉ định nhiều lệnh cho các bot bằng cách viết liên tục các lệnh không cách dòng. Trong trường hợp một file robots.txt có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.

Ví dụ:

User-agent: Googlebot News

Disallow: /admin/

Disallow: /tin-tuc/

Disallow: /*id=

User-agent: Googlebot

Disallow: /admin/

Disallow: /bai-viet/

Disallow: /*?p=

User-agent: *

Disallow: /*.gif

Trong ví dụ tên Googlebot News, Googlebot có những lệnh riêng do đó khi truy cập webite 2 bot này phải thực hiên theo đúng lệnh. Còn đối với các bot khác trên mạng sẽ thực hiện theo lệnh của nhóm có User-agent: *

Một vài ví dụ về file robots

Chặn tất cả bot truy cập website

User-agent: *

Disallow: /

Lệnh trên yêu cầu các bot không được phép thu thập dữ liệu website kể cả nội dung trang chủ.

Cho phép tất cả bot thu thập nội dung

User-agent: *

Disallow:

Lệnh trên cho phép toàn bộ các bot thu thập thông tin toàn bộ website kể cả trang chủ.

Chặn 1 loại bot cụ thể truy cập nội dung

User-agent: Googlebot

Disallow: /admin/

Cú pháp này có nghĩa với bot Googlebot không được phép truy cập vào bất kỳ một trang nào có chứa /admin/ để thu thập dữ liệu.

Chặn bot truy cập một trang cụ thể

User-agent: AhrefsBot

Disallow: /tin-tuc/cong-cu-seo-moi.html

Cú pháp này chặn AhrefsBot thu thập dữ liệu của trang cụ thẻ với url = http://congdongspin.com/tin-tuc/cong-cu-seo-moi.html

Cách hoạt động của file robots.txt

Các bot thu thập thông tin có 2 chức năng chính:

Thu thập dữ liệu website để khám phá nội dung
Lập chỉ mục nội dung, xếp hạng website để trả lời các truy vấn.

Để thu thập thông tin website, công cụ tìm kiếm di chuyển qua các liên kết trên website để lấy nội dung và xếp loại. Tuy nhiên với hàng tỷ website và liên kết khác nhau quá trình này đôi khi tốn quá nhiều thời gian.

Bởi vậy, khi đến một wbeist bất kỳ các trình thu thập dữ liệu sẽ tìm đến file robots.txt đầu tiên. Nếu tìm thấy bot sẽ đọc các lệnh trong file trước khi bắt đầu thu thập nội dung trên trang web. Như ở các ví dụ trên, nếu một bot được thông báo một lệnh riêng biệt bot đó sẽ thực hiện theo yêu cầu của nhà quản trị tuy nhiên trong một vài trường hợp bot không tìm thấy bất kỳ lệnh nào bot sẽ tiến hành thu thập nội dung.

Những điều cần biết về file robots.txt

Tệp phải được đặt ở cấp cao nhất của website.
Robots.txt phân biệt giữa chữa hoa và chữ thường bởi vậy file phải đặt lên là “robots.txt” ( không được đặt Robots.txt hay robots.TXT hoặc các cách khác).
Một vài bot có thể bỏ qua file robots khi thu thập thông tin. Thường xảy ra với các bot thu thập dữ liệu ngầm không được công nhận (Đa phần là các bot của phần mềm độc hại).
File robots.txt phải có sẵn và đặt ở chế độ công khai: Người dùng chỉ cần thêm /robots.txt vào cuối bất kỳ tên miền nào để xem những lệnh mà nhà quản trị web đối với bot.
Mỗi subdomain nên có một file robots.txt riêng. Có nghĩa là với 2 dạng domain blog.congdongspin.com và congdongspin.com sẽ có 2 file robot riêng là blog.congdongspin.com/robots.txt và congdongspin.com/robots.txt.
Để khai báo sitemap của website bạn có thể thêm link sitemap trong file robots.txt với cú pháp “sitemap: link sitemap”.

Các thuật ngữ thường gặp trong robots.txt

User-agent: tên bot mà bạn đang muốn cung cấp hướng dẫn để bot thu thập thông tin

Disallow: lệnh chặn không cho thu thập thông tin một nhóm hoặc một url cụ thể

Allow (chỉ áp dụng với googlebot): Lệnh này cho phép Googlebot có thể thu thập nội dung một trang mặc dù thư mục cha của trang đó bị cấm

Crawl-delay: Thời gian bot nên quay lại để thu thập thông tin. Lệnh này không có tác dụng đối với Googlebot, nếu muốn bạn nên cài đặt thời gian thu thập dữ liệu trong google search console

Sitemap: Đường link dẫn đến vị trí của file sitemap.xml. Chỉ có hiệu lực với google, ask, bing và yahoo.

Hướng dẫn so khớp link trong robots.txt

Thông thường file robots.txt rất đơn giản chỉ cần nhập đường link theo cấp nhưng để giảm thời gian nhập dữ liệu nhà quản trị web có thể sử dụng hai ký tự $ và * trong đó:

* Phù hợp với bất kỳ ký tự hoặc số nào nằm trước
$ khớp với phần cuối URL

Bạn có thể xem bản đầy đủ của google tại đây: https://support.google.com/webmasters/answer/6062596?hl=vi

Tại sao website cần có file robots.txt

Robots.txt giúp bạn có nhiều quyền quản trị đối với các bot của trình thu thập thông tin bao gồm ngăn, cho phép, thời gian cho phép truy cập lại.Ngoài ra trong một số trường hợp file robots.txt rất có ích như:
Ngăn nội dung trùng lập xuất hiện trên SERPs.
Ngăn các trang tìm kiếm nội bộ xuất hiện trên SERPs.
Thông báo đường dẫn url của sitemaps.
Giữ website không index các phần riêng tư như: trang thử nghiệm, nội dung chưa hoàn chỉnh...
Ngăn không cho bot index các file word, excel, pdf.
Ngăn tình trạng quá tải băng thông bởi các bot tải nhiều phần nội dung webiste cùng lúc.

Cách kiểm tra website có có file robots.txt hay không

Bạn chỉ cần thêm /robots.txt vào cuối tên miền. Nếu có một page hiện ra thì webiste đã có file robots còn trong trường hợp lỗi 404 hoặc các thông báo khác thì website chưa có.

Bình luận

Bài viết ngẫu nhiên

Ghim bài
Bỏ ghim bài
Liên kết
Chỉnh sửa
Xóa bài viết
Báo cáo bài viết

Bí Ngôđăng trongTài liệu>Marketing

03/11/2018

Hành Trình Khách Hàng Trong Digital Marketing

Bạn đang nắm giữ một số lượng lớn những khách hàng tiềm năng từ các phương tiện truyền thông. Làm thế nào để chuyển đổi họ thành những người mua (sử dụng) dịch vụ/sản phẩm của doanh nghiệp. Hành trình khách hàng sẽ là c...

0 20216

1 lượt đánh giá

Ghim bài
Bỏ ghim bài
Liên kết
Chỉnh sửa
Xóa bài viết
Báo cáo bài viết

Bí Ngôđăng trongTài liệu>Marketing

16/10/2018

Tổng quan về Digital Marketing cho người mới bắt đầu

Digital Marketing còn là một lĩnh vực mới đối với bạn? Hãy xem các Marketer hiện nay ở Việt Nam chia sẻ thông tin về lĩnh vực này nhé. Bài viết sẽ giúp bạn hệ thống thông tin cơ bản nhất, từ đó có cái nhìn khái quát và ...

0 23019

7 lượt đánh giá

Ghim bài
Bỏ ghim bài
Liên kết
Chỉnh sửa
Xóa bài viết
Báo cáo bài viết

Bui Vietđăng trongTài liệu>Seo

10/09/2018

Cách sử dụng và tối ưu hóa thẻ ALT

Hướng dẫn chi tiết các bước thực hiện tối ưu hóa thẻ Alt hình ảnh . Những điều nên tránh và cách hoạt động của thẻ alt.

0 10054

19 lượt đánh giá

Ghim bài
Bỏ ghim bài
Liên kết
Chỉnh sửa
Xóa bài viết
Báo cáo bài viết

PT_AIđăng trongTài liệu>AI

11/07/2025

Dự đoán xu hướng AI 2025: Những ngành nghề nào sẽ bị ảnh hưởng mạnh nhất?

Năm 2023–2024 đánh dấu sự bùng nổ của trí tuệ nhân tạo trong đời sống và công việc. Nhưng đến 2025, làn sóng AI không chỉ dừng ở việc hỗ trợ, mà sẽ tái định hình cả thị trường lao động và mô hình vận hành doanh nghiệp....

0 7556

1 lượt đánh giá

Ghim bài
Bỏ ghim bài
Liên kết
Chỉnh sửa
Xóa bài viết
Báo cáo bài viết

Mai Huỳnhđăng trongTài liệu>Seo

08/10/2018

Google bàn về việc xử lý bài viết/trang có lượt truy cập thấp

Trên Hangout trò chuyện với các quản trị web, John Mueller (người phát ngôn của Google và là chuyên viên phân tích xu hướng quản trị web) đã đưa ra lời khuyên hữu ích để xử lý những nội dung có ít lưu lượng truy cập. ...

0 24330

20 lượt đánh giá