Bài viết này IMTA chi sẻ đến bạn một số kiến thức, kinh nghiệm liên quan đến sử dụng file Robots.txt trên website WordPress. Cụ thể là chúng ta sẽ cùng tìm hiểu xem Robots.txt là gì?, tiếp đến mình sẽ hướng dẫn bạn cấu hình file robots.txt chuẩn SEO cho website WordPress.

Robots.txt là gì?

Robots.txt là một tập tin văn bản thuần túy, có định dạng .txt và nằm trong thư mục gốc của website. File robots.txt này quy định về việc truy cập, thu thập dữ liệu và index nội dung trên website của bạn đối với các công cụ tìm kiếm như Google, Bing, Cốc Cốc,…

Ví dụ về file robots.txt
Ví dụ về file robots.txt

Hiểu một cách đơn giản, nội dung trong file robots.txt sẽ quyết định việc ngăn chặn (disallow) hoặc cho phép (allow) công cụ tìm kiếm thu thập, index theo nội dung đã định sẵn trong file robots.txt. Ví dụ: ngăn chặn hoặc cho phép truy cập một trang cụ thể, một file hoặc một thư mục nào đó trên website của bạn.

Lưu ý: File robots.txt hướng dẫn và quy định cho các trình thu thập dữ liệu của công cụ tìm kiếm biết rằng những URL nào được phép truy cập, URL nào thì không. Đây không phải là cách để ẩn một trang/ bài viết nào đó trên website của bạn khỏi công cụ tìm kiếm. Để ẩn một trang/ bài viết bất kỳ khỏi công cụ tìm kiếm một cách hoàn toàn, bạn hãy chặn việc lập chỉ mục  cho trang/ bài viết đó bằng tùy chọn noindex.

Tầm quan trọng của file robots.txt đối với website

File robots.txt quyết định về việc thu thập hoặc không thu thập dữ liệu của các thành phần có trên trên website của bạn. Nhờ đó, kiểm soát và tối ưu việc thu thập dữ liệu, giúp website của bạn không bị đánh giá xấu trước các công cụ tìm kiếm. Đồng thời, giữ nội dung/ thành phần trên website của bạn riêng tư ở một mức độ nào đó.

  • Trước khi thu thập dữ liệu website, trình thu thập dữ liệu sẽ tải xuống và phân tích nội dung bên trong file robots.txt của website đó. Từ đấy, lấy cơ sở để xác định những thành phần nào trên website được phép thu thập dữ liệu, thành phần nào không được.
  • Việc cấu hình robots.txt giúp bạn ngăn chặn việc truy xuất dữ liệu ở những thành phần không quan trọng trên website. Điều này giúp giảm tải đáng kể việc gửi quá nhiều yêu cầu vào website của bạn từ các trình thu thập dữ liệu như Googlebot chẳng hạn. Nhờ đó giảm được một phần gánh nặng cho máy chủ.
  • Kiểm soát những nội dung/ thành phần mà bạn không muốn các công cụ tìm kiếm thu thập dữ liệu và index chúng. Hiểu một cách nôn na là “đẹp khoe, xấu che” – tức là những gì trên website mà bạn thấy không tự tin, không đủ tốt, thì không cho cho công cụ tìm kiếm thu thập dữ liệu ở đó.
  • Đối thủ cạnh tranh hoặc kẻ xấu có thể lợi dụng các truy vấn tìm kiếm nội bộ trên website của bạn để thực hiện phá hoại. Trong trường hợp bạn không chặn thu thập dữ liệu ở trang kết quả tìm kiếm nội bộ sẽ là cơ hội tốt để kẻ xấu thực hiện hàng nghìn các truy vấn tìm kiếm “BẨN” khiến website của bạn bị đánh giá thấp. Thông thường kẻ xấu sẽ sử dụng các công cụ tự động để thực hiện các truy vấn BẨN như: từ khóa 18+, lừa đảo,…

Có thể file robots.txt làm được nhiều hơn so với những gì mình đã liệt kê ở trên. Tuy nhiên, trong khuôn khổ bài viết này mình nhấn mạnh vào những lợi ích quan trọng khi sử dụng file robots.txt (tùy chỉnh) cho website, để sát với nhu cầu phổ biến của đại bộ phận người dùng không chuyên.

Cấu trúc cơ bản của file robots.txt

Một trong những công tác quan trọng của webmaster là thực hiện cấu hình file robots.txt tùy chỉnh. Tuy nhiên, khi thực hiện việc này nhiều bạn sẽ chọn phương án dùng file robots.txt giống của website khác.

Điều này cũng không không hẳn là sai, nhưng nếu có thể, hãy tìm hiểu thêm về việc cấu hình file robots.txt tùy chỉnh. Như vậy sẽ tối ưu tốt hơn cho website của bạn. Dưới đây, mình sẽ tổng hợp một số kiến thức liên quan đến việc cấu hình file robots.txt tùy chỉnh để bạn tham khảo.

File robots.txt của một số website có nội dung bên trong khá dài và hơi rối để bạn tham khảo. Do đó, để dễ hình dung thì bạn xem qua cấu trúc cơ bản của file robots.txt như sau:

User-agent: 
Disallow: 
Allow: 
Sitemap:

Để hiểu và vận dụng tốt khi cấu hình file robots.txt tùy chỉnh, dưới đây mình sẽ chú thích từng mục có trong cấu trúc cơ bản ở trên để bạn nắm.

Dòng user-agent

Xác định trình thu thập dữ liệu áp dụng những quy tắc bên dưới. Giá trị của user-agent không phân biệt chữ hoa, chữ thường. Bạn muốn cho phép trình thu thập dữ liệu nào thì để tên tương ứng vào, ví dụ: User-agent: Googlebot. Tuy nhiên, hầu hết chúng ta sẽ để khả dụng cho tất cả các trình thu thập dữ liệu hiện có bằng cú pháp User-agent: *

Lệnh disallow

Chỉ định các đường dẫn/ tài nguyên trên website không được phép thu thập dữ liệu và lập chỉ mục (index). Để ngăn chặn thu thập dữ liệu và index với các thư mục/ đường dẫn/ tài nguyên cụ thể, bạn nhập giá trị tương ứng là được. Ví dụ dưới đây là mình ngăn thu thập dữ liệu và index với thư mục wp-adminwp-includes trên website WordPress.

Disallow: /wp-admin/
Disallow: /wp-includes/

Lưu ý: Giá trị của lệnh disallow có phân biệt chữ hoa chữ thường. Ngoài ra, Google không lập chỉ mục (index) trên các trang không cho phép thu thập dữ liệu (disallow), nhưng vẫn có thể index và hiển thị URL đó trong các kết quả tìm kiếm. URL đó sẽ hiển thị trên kết quả tìm kiếm và không hiển thị đoạn trích. Nếu muốn chặn index cho một trang/ bài viết/ chuyên mục,. . . .thì bạn phải chọn chế độ noindex riêng cho chúng.

Lệnh allow

Lệnh allow chỉ định các đường dẫn/ tài nguyên/ thư mục được phép thu thập dữ liệu và lập chỉ mục. Thoạt nhìn thì có vẻ hơi dư thừa, vì nếu cho phép thu thập dữ liệu thì không cần khai báo allow chi cho rắc rối. Nhưng lệnh allow này có thể áp dụng trong trường hợp đặc biệt như sau:

Ví dụ: Trong thư mục mẹ có 2 thư mục con, nếu chặn thu thập dữ liệu ở thư mục mẹ thì tất cả thư mục/ tập tin bên trong sẽ không được thu thập dữ liệu. Trong khi bạn muốn thu thập dữ liệu của một thư mục con hoặc một tập tin nào đó bên trong thư mục mẹ thì sẽ cần áp dụng lệnh allow.

Disallow: /thu-muc-me/
Allow: /thu-muc-me/ten-tap-tin.php/

Lưu ý: Tương tự như lệnh disallow, giá trị của lệnh allow cũng phân biệt chữ hoa chữ thường, bạn chú ý để đặt giá trị cho chuẩn nhé !

Trường sitemap

Sơ đồ trang web (sitemaps) là danh sách các bài viết, trang hoặc những tập tin có trên Website. Chúng được sắp xếp theo thứ tự theo sơ đồ phân tầng theo từng danh mục, theo thời gian đăng bài hoặc thời gian chỉnh sửa bài viết. Nếu bạn chưa tìm hiểu qua về sitemap thì tham khảo bài viết Sitemap là gì nhé !

Trường sitemap, hãy đặt vào đó URL đầy đủ cho sơ đồ trang web của bạn. Giá trị của trường sitemap là có phân biệt chữ hoa – chữ thường. Bạn có thể chỉ định nhiều trường sitemap và các sitemap không bắt buộc phải cùng nằm chung trên máy chủ của website chính. Ví dụ:

sitemap: https://imta.edu.vn/sitemap.xml
sitemap: https://cdn.imta.edu.vn/sitemap.xml
sitemap: https://en.imta.edu.vn/sitemap.xml

Cấu hình file robots.txt chuẩn SEO cho website WordPress

Nếu như bạn đang bắt đầu học seo website thì việc đầu tiên là bạn phải hiểu được file robots.txt. Nhằm đáp ứng nhu cầu cấu hình file robots.txt chuẩn SEO cho website WordPress, dưới đây mình chia sẻ đến bạn mẫu file robots.txt tiêu chuẩn để bạn tham khảo và áp dụng cho website của bạn. Đồng thời mình cũng chú thích nội dung bên trong để bạn biết được tác dụng của chúng là gì.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /search/?q=*
Disallow: /?s=*
Disallow: /search/*
Allow: /wp-admin/admin-ajax.php
Sitemap: https://imta.edu.vn/sitemap_index.xml
  • User-agent: * là gì thì ở phần cấu trúc cơ bản của file robots.txt mình có nói ở trên rồi, bạn tham khảo lại nhé!
  • Bạn nên chặn thu thập dữ liệu, thậm chí là chặn hoặc chuyển hướng truy cập 2 file readme.htmllicense.txt vì vấn đề bảo mật của website. Hơn nữa việc thu thập dữ liệu của các file này không mang lại lợi ích gì cho bạn.
  • Thư mục wp-adminwp-includes chứa nhiều tệp nhạy cảm nên bạn hãy chặn truy xuất dữ liệu ở 2 thư mục này nhé.
  • Trong thư mục wp-admin có một tập tin là admin-ajax.php, tệp này dùng để thiết lập kết nối giữa máy chủ của bạn và máy chủ của Google Bot bằng AJAX mà không cần tải lại trang. Hơn nữa, việc cho phép thu thập dữ liệu ở file này không có hại gì. Do đó, bạn cứ để mặc định allow cho đường dẫn /wp-admin/admin-ajax.php nhé!
  • Như ở đầu bài mình cũng có nói sơ qua về việc website của bạn có thể bị kẻ xấu/ đối thủ lợi dụng các truy vấn ở trang tìm kiếm nội bộ. Thông qua đó, họ chạy các công cụ truy vấn tìm kiếm tự động với từ khóa “BẨN” để hạ thấp uy tín website của bạn trong xếp hạng tìm kiếm. Việc chặn thu thập dữ liệu ở trang tìm kiếm nội bộ sẽ tránh bị kẻ xấu “chơi bẩn” với cách trên. Các trang bạn cần chặn thu thập dữ liệu là: /search/*/?s=*/search/?q=*

Việc cấu hình robots.txt tùy chỉnh là không giới hạn, mỗi website sẽ được tùy chỉnh riêng cho phù hợp với yêu cầu cụ thể. Những trang/ thư mục/ tài nguyên bị chặn hoặc cho phép cũng không giống nhau ở các website. Ví dụ có website sẽ cho thu thập dữ liệu về file media (hình ảnh, video) nhưng có web thì chủ site sẽ ngăn chặn điều này.

Trên đây là mình chia sẽ mẫu file robots.txt được dùng cho nhu cầu cấu hình file robots.txt cơ bản. Nếu bạn muốn tùy chỉnh sâu hơn thì cần xem thêm trên website của bạn có những thành phần nào cần chặn hoặc cho phép thu thập dữ liệu thì bổ sung vào để tối ưu hơn. Còn không thì bạn cũng có thể bê nguyên file robots.txt tiêu chuẩn ở trên để dùng cho website của bạn nhé!

MẸO: Bạn cũng có thể tham khảo mẫu robots.txt của một website bất kỳ bằng cách thêm đoạn /robots.txt vào website mà bạn muốn kiếm tra, tương tự như dưới đây:

https://imta.edu.vn/robots.txt

Hiện tại hầu hết các dịch vụ thiết kế website và website làm từ WordPress đều có chứa file robots.txt, khi nhiều người quan tâm đến SEO hơn thì việc này cũng được làm chuẩn hơn nhiều.

Hướng dẫn tạo và gửi file robots.txt

Trên WordPress có khá nhiều hướng dẫn tạo file robot.txt tương ứng với các plugin hỗ trợ như Yoast SEO, Rank Math, All in One SEO,… Tuy nhiên, để đơn giản hóa mình sẽ hướng dẫn bạn triển khai tệp robots.txt theo hướng dẫn tiêu chuẩn của Google.

Lưu ý: Trước khi thực hiện tạo và gửi file robots.txt thì bạn phải kết nối website với Google Search Console. Và hướng dẫn này không chỉ giúp bạn tạo file robots.txt cho website mới mà còn có thể giúp bạn chỉnh sửa, cập nhật lại nội dung file robots.txt đã có.

Bước 01: Bạn nhấn vào công cụ kiểm tra robots.txt của Google. Lúc này công cụ kiểm tra file robots.txt sẽ hiển thị nội dung có trong file robots.txt của website bạn. Tuy nhiên, đây chỉ là nội dung file robots.txt mặc định của một website WordPress bất kỳ sau khi cài.

Nội dung file robots.txt mặc định của website WordPress
Nội dung file robots.txt mặc định của website WordPress

Bước 02: Copy nội dung file robots.txt mà bạn đã tùy chỉnh sẵn, hoặc lấy nội dung file robots.txt tiêu chuẩn cho website WordPress mà mình đã chia sẻ ở trên cũng được. Sau đó dán đè lên nội dung robots.txt mặc định. Sau đó nhấn vào nút Gửi như mình khoanh đỏ ở hình bên dưới. Tiếp đến là chọn mục Tải xuống.

Tải xuống file robots.txt tùy chỉnh
Tải xuống file robots.txt tùy chỉnh

Bước 03: Uplad file robots.txt vừa tải về ở trên lên thư mục gốc (Root) của website. Để cho dễ hình dung, bạn upload vào bên trong thư mục chứa toàn bộ mã nguồn website WordPress của bạn giống như hình bên dưới:

Upload file robots.txt lên thư mục gốc của website
Upload file robots.txt lên thư mục gốc của website

Lưu ý: Nếu bạn dùng hosting cPanel thì thường sẽ nằm trong thư mục public_html. Tuy nhiên, trong một số trường hợp dùng addon domain, ví dụ: ngoài website chính có tên miền là domain.com trên host đó còn chạy các web khác như: domain1.com, domain2.com.. thì file robots.txt cần cài cho website nào sẽ nằm trong thư mục của website đó, không nằm trong thư mục public_html của website chính. Ở trường hợp này thì bạn cứ upload lên thư mục cùng cấp với các thư mục wp-content, wp-includes như hình trên là được.

Bước 04: Lúc này bạn có thể nhấn vào nút Xem phiên bản đã tải lên để kiểm tra xem nội dung trong file robots.txt vừa upload có giống như bản bạn đã cấu hình không nhé, nếu không giống thì có thể bạn đã upload nhầm thư mục rồi. Nếu nội dung giống như file robots.txt đã cấu hình thì bạn nhấn vào nút Gửi như mình khoanh ở hình bên dưới. Chờ trong vài giây sẽ có thông báo thành công. Lúc này bạn ra bên ngoài, tải lại trang hoặc chạy lại công cụ kiểm tra file robots.txt ở bước 01 thì sẽ thấy nội dung bên trong đã thay đổi như đã chỉnh sửa.

Gửi yêu cầu cập nhật file robots.txt đã upload
Gửi yêu cầu cập nhật file robots.txt đã upload

Như vậy là quá trình tạo và gửi file robots.txt cho website đã hoàn tất. Cách làm này không chỉ áp dụng riêng cho website dùng WordPress mà các mã nguồn khác cũng áp dụng tương tự.

Những câu hỏi thường gặp

Nhằm giúp bạn giải đáp nhanh những vấn đề thường gặp khi tìm hiểu về file robots.txt cũng như vấn đề cấu hình file này, dưới đây mình liệt kê một số câu hỏi và câu trả lời tương ứng để bạn tiện tham khảo:

LỜI KẾT

Bài viết đến đây là kết thúc, hy vọng qua những gì mình đã trình bày ở trên, bạn đã biết được file robots.txt là gì? Và cách cấu hình cũng như tạo file robots.txt chuẩn SEO cho website WordPress. Trong quá trình tham khảo và thực hành theo bài viết này, nếu bạn có điều gì thắc mắc thì cứ để lại bình luận bên dưới nhé ! Cuối cùng, xin chào và hẹn gặp lại bạn trong các bài viết tiếp theo tại IMTA.EDU.VN !

WordPressRobots.txt là gì? File robots.txt chuẩn SEO cho website WordPress