File Robots có định dạng là Robots.txt nằm trong top các File quan trọng và không thể thiếu đối với 1 website. Tùy vào nội dung của trang web mà người quản trị cần cấu hình File Robots sao cho phù hợp và tránh được các sai phạm nghiêm trọng liên quan đến việc thu thập dữ liệu từ các công cụ tìm kiếm.
Bài viết này Webbanhang24h sẽ giúp bạn tìm hiểu File robot là gì, chúng có tác dụng gì và hoạt động ra sao.
Khái niệm File Robots là gì?
Nói 1 cách ngắn gọn, File robots là 1 tập tin nằm trong thư mục gốc của website, được lưu trữ tại Hosting, dùng để khai báo cho các công cụ tìm kiếm (các Bots) những phần nào được phép và không được phép thu thập dữ liệu.
Xem thêm: Giá hosting
Ở trạng thái file robots không có lệnh chặn nào, khi công cụ tìm kiếm đi vào website, nó mặc định tất cả nội dung của web đều ở chế độ công khai và tiến hành thu thập tất cả. Điều này thật sự không hề tốt cho SEO.

Điều gì xảy ra nếu File robots cấu hình sai?
- Tất cả nội dung trên web đều được xem xét ở chế độ Public kể cả nội dung mà bạn không muốn hiển thị trên kết quả tìm kiếm (Search Engine).
- Các file chứa thông tin nhạy cảm liên quan đến Admin, mật khẩu,… dễ dàng bị các hacker đánh cắp khi truy cập vào website
- Không thể chặn Bots truy cập vào những nội dung kém chất lượng, copy, nội dung ngắn (mỏng).
- Nếu File robot bị cấu hình sai có thể ảnh hưởng đến toàn bộ chất lượng trang web. Các trường hợp thường thấy là: Web không được lập chỉ mục (tức là chưa được hiển thị trên internet), Bot vào sai thư mục và đánh giá sai nội dung trang web, bị các đối thủ nhòm ngó hệ thống site vệ tinh (PBN – Private Blog Network).
Để kiểm tra website của bạn đã có File robots hay chưa, bạn có thể nhập đường dẫn: domain/robots.txt để xem file robots trực tiếp. nếu hiển thị 1 dãy lệnh tương tự như thế này nghĩa là website của bạn đã có file robots, không cần tạo mà chỉ cần chỉnh sửa thôi:

Các cú pháp cơ bản nằm trong File robot:
1 File robot thông thường sẽ chứa các lệnh (cú pháp) sau:
- User-agent: tên loại Bot (Các Bot thường được đề cập nhất là Googlebot, Bingbot, coccocbot,…)
- Allow: Cho phép các bot đã đề cập bên trên truy cập vào những dữ liệu gì (dữ liệu ở đây bao gồm URl, File,…)
- Disallow: Không cho phép bot đã đề cập ở trên truy cập vào những dữ liệu nào
- Crawl-delay: quy định thời gian Mà bot phải chờ để thu thập dữ liệu tiếp theo. Đây là lệnh dùng để trì hoãn các thao tác truy cập và thu thập dữ liệu quá nhiều trong 1 khoảng thời gian ngắn, tránh quá tải hệ thống. Thời gian thu thập được tính bằng đơn vị Mili giây. Tuy nhiên, rất ít khi người ta phải dùng đến lệnh này
- Sitemap: Khai báo đường dẫn Sitemap mà Bot sẽ truy cập. Đây chỉ là cú pháp hỗ trợ vì nếu không khai báo, bot vẫn có thể tự tìm đến file Sitemap để thu thập.
Cách sử dụng File Robot.txt sao cho hiệu quả:
Tùy vào đường dẫn cụ thể khi cấu hình website mà cú pháp thực hiện có thể bị thay đổi đi chút ít. Ở đây, các ví dụ mà mình lấy sẽ dựa trên web của mình là https://webbanhang24h.org/ . Tuy nhiên, cú pháp thường sẽ rất giống nhau giữa các website nên bạn cứ yên tâm nhé.

Dùng File robots.txt để chặn và cho phép Bot truy cập:
Trường hợp bạn chặn Bot truy cập và thu thập thông tin web chủ yếu là dùng trong quá trình xây dựng web. Lúc này, website chưa có nội dung, các đường dẫn URL vẫn chưa chính thức và có thể cần được thay đổi bất kỳ lúc nào. Chặn Robot lại để xây dựng web hoàn thiện rồi mới mở ra nhé.
Cú pháp chặn tất cả các loại Bot:
User-agent: *
Disallow: /
Cú pháp chặn 1 loại bot được chỉ định:
User-agent: coccocbot
Disallow: /
Dùng File Robots để chặn bot truy cập 1 hoặc nhiều phần tử trên web:
Các phần tử trên web cần chặn là những phần liên quan đến bảo mật, các nội dung kém chất lượng hoặc muốn ẩn khỏi công cụ tìm kiếm, các File nặng được upload phục vụ cho việc tải ứng dụng, tải tiện ích hay các tài nguyên có kích thước lớn (nếu Bot vào và crawl các dữ liệu có dung lượng nặng sẽ làm tốn nhiều tài nguyên, băng thông của web, dễ bị hacker tấn công đánh sập)
Xem thêm: Băng thông là gì?
Cú pháp chặn bot truy cập các phần trong web:
User-agent: *
Allow: /
Allow: /image/
Disallow: /image/hinh-can-chan.jpg
Disallow: /wp-admin/
Disallow: /URL-can-chan.html
User-agent: AhrefBot
Disallow: /
Ý nghĩa của tập lệnh phía trên lấn lượt là:
- Cho phép tất cả các công cụ tìm kiếm truy cập tất cả tài nguyên trên web
- Cho phép tất cả các loại Bot truy cập thư mục hình ảnh (image) ngoại trừ ảnh có đường dẫn: hinh-can-chan-jpg
- Không cho phép truy cập thư mục wp-admin và nội dung có đường dẫn là URL-can-chan.html
- Không cho phép Bot của Ahref truy cập vào bất kỳ nội dung nào của trang web.
Viêc chặn Ahref Bot – Bots của công cụ Site audit, check backlink lớn nhất hiện nay như trên sẽ giúp các site vệ tinh của bạn tránh bị đối thủ nhòm ngó. Lưu ý là phải cài lệnh này trên site vệ tinh cần ẩn khỏi ahref chứ không phải cài trên site chính nhé. Tương tự ahref, bạn có thể dùng file robots để chặn các công cụ Site audit khác như: Majestic, SEM Rush, Moz,…
Lưu ý: File Robots.txt có phân biệt chữ hoa và chữ thường. nếu bạn nhập cú pháp: Disallow: /image/ thì lệnh Disallow này chỉ được áp dụng cho thư mục image mà không áp dụng cho thư mục Image
Dựa vào chức năng cho phép hoặc không cho phép Bot truy cập vào đường dẫn trên web mà File robot còn được sử dụng cho trường hợp xóa các URL không tồn tại trên web (tức là những link được báo là có lỗi 404).
Xem thêm: Cách xóa link 404
Sau khi chỉnh sửa, bạn cần cài đặt File Robots lên lại Host và khai báo (submit) lên Google Webmaster Tool để việc Index được diễn ra đúng như dự kiến nhé.
Xem thêm: Hướng dẫn cài Google Webmaster Tool
Bạn cũng có thể tìm hiểu File robots.txt nằm ở đâu và cách chỉnh sửa nó đối với cả website đặt tại host và web dựa trên nền tảng Blogger (Blogspot) tại Video: https://www.youtube.com/watch?v=k8NyGna1O8I hoặc xem trực tiếp bằng màn hình thu nhỏ dưới đây:
Hi vọng những chia sẻ trên đây về file Robots và các sử dụng File robots.txt hiệu quả nhất sẽ giúp bạn quản trị và Seo website một cách tốt nhất. Chúc các bạn thành công.