Bạn có thể chặn Bot của Semrush và Ahrefs thu thập dữ liệu website của bạn bao gồm Từ khóa và Baclink nhằm ngăn chặn đối thủ biết keyword nào đang top từ đó giúp họ onpage và offpage.

Nguyên lý chặn: Sử dụng file robots.txt với User-agent: và Disallow:/

Yêu cầu: Password truy cập vào hosting. Nếu bạn đang dùng WordPress, có sẵn Yoast SEO hoặc Rank Math SEO có thể sửa file robots.txt bằng 2plugin này. Hoặc có thể cài đặt plugin robots.txt để chỉnh sửa file robots.txt trực tiếp bằng plugin, không cần phải truy cập vào hosting. Theo IMTA, nếu bạn nào có pass hosting thì bạn nên truy cập vào hosting.

Những hỏi đáp nhanh trong bài viết

Cách hoạt động của robots.txt

robots.txt là 1 file định dạng txt được upload lên hosting nhằm ngăn chặn các bot của search engine

Nếu bạn nào muốn đọc chuyên sâu về robots.txt thì xem bài này nhé: https://imta.edu.vn/robots-txt-la-gi/

Trong bài viết này mình tóm gọn kiến thức robots.txt để các bạn hiểu nhanh. Bạn đang học SEO tại IMTA thì bạn đã có kiến thúc về robots.txt bạn có thể tham khảo thêm bài viết.

Chặn Bot Semrush và Ahrefs
Chặn Bot Semrush và Ahrefs
User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /search/?q=*
Disallow: /?s=*
Disallow: /search/*
Sitemap: https://imta.edu.vn/sitemap_index.xml

User-agent: là một thuộc tính tác động đến 1 bot bất kỳ. Còn DisallowKHÔNG cho phép

Như vậy nhìn file trên có nghĩa là:

User-agent:* có dấu “*” có nghĩa là mức độ tác động lên tất cả bot của công cụ search engine (thông thường Có 2 loại bot của search engine là Search Engine Crawler => GoogleSearch Engine Optimization => những ứng dụng, phần mềm như Semrush và Ahrefs)

Disallow: chặn 6 thư mục có dạng domain/wp-admin/ cho đến domain/search/*

Ví dụ 2:

User-agent: SemrushBot
Disallow: /
User-agent: AhrefsBot
Disallow: /

Giải thích:

User-agent: SemrushBot => tác động lên bot của Semrush

Disallow: / bạn thấy / có nghĩa là chặn tất cả link có cấu trúc domain/

Tương tự như vậy sẽ chặn với bot AhrefsBot

Kết luận: Muốn tắc động lên 1 bot nào đó thì bạn phải khai User-agent riêng cho bot đó, và bạn nên biết tên của bot cần chặn.

https://www.semrush.com/bot/

https://ahrefs.com/robot

Như vậy file này bạn sẽ thấy không có sự khai báo nào cho bot của Google. Thì Điều lo lắng nhất là bot của Google có bị chặn hay không? tất nhiên là KHÔNG rồi bạn nhé. Bạn cứ yên tâm việc Google Bot vẫn vào website của bạn để index. Không ảnh hưởng gì đến SEO cả.

Còn đây là file robots.txt khi bạn cài Rank Math SEO, Rank Math SEO cho 1 file mặc định và chặn hầu hết các bot tự động như leech bài, dò email,…

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: WebReaper
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: Web Downloader
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: Offline Explorer Pro
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: HTTrack Website Copier
Disallow: /

User-agent: Offline Commander
Disallow: /

User-agent: Leech
Disallow: /

User-agent: WebSnake
Disallow: /

User-agent: BlackWidow
Disallow: /

User-agent: HTTP Weazel
Disallow: /

Cách thực hiện chặn Bot Semrush và Ahrefs

Để chặn bot Semrush và Ahrefs chúng ta có 3 cách để chỉnh sửa file robots.txt

Cách 1: Thay đổi file robots.txt trên hosting

Bạn truy cập vào hosting của bạn, tại mục root bạn tìm file robots.txt. Nếu website bạn chưa có file robots.txt thì bạn tạo file này trên máy tính, dùng notepad của Window để tạo, sau đó upload lên hosting.

Dòng code để vào robots.txt là bổ sung 2 User-agent và đưa quy tắc chặn Disallow: / vào file robots.txt là được.

User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /search/?q=*
Disallow: /?s=*
Disallow: /search/*

User-agent: SemrushBot
Disallow: /
User-agent: AhrefsBot
Disallow: /

Sitemap: https://imta.edu.vn/sitemap_index.xml

Sau đó bạn lưu lại hoặc upload lên hosting là được bạn nhé.

Giải thích:

User-agent: * => tác động toàn bộ bot bao gồm Google Bot

User-agent: SemrushBot => Chỉ tác động lên Bot của SemRush không bao gồm Google Bot

User-agent: AhrefsBot => Chỉ tác động lên Bot của Ahrefs không bao gồm Google Bot

Cách 2: Sửa file robots.txt với Yoast SEO/Rank Math SEO

Mình thấy nếu dùng WordPress và có cài sẵn Yoast SEO hoặc Rank Math SEO thì bạn nên dùng chức năng công cụ để thay đổi.

Với Yoast SEO => Công cụ => Trình chỉnh sửa tập tin

Thay đổi file Robots.txt bằng Yoast SEO
Thay đổi file Robots.txt bằng Yoast SEO

Với Rank Math SEO => General Settings => Edit Robots.txt

Thay đổi file Robots.txt với Rank Math SEO

Thông thường những bạn học digital marketing fullstack thì hay dùng WordPress để làm SEO hoặc chạy ads, hầu hết đều cài đặt 2 plugin này.

Cách 3: Dùng plugin robots.txt

Cách này dùng cho bạn nào dùng WordPress và muốn làm nhanh chóng, IMTA không khuyến nghị cách này vì làm cách này thuận tiện nhưng gặp vấn đề phụ thuộc. Ví dụ như lỗi bảo mật, plugin không cập nhật nữa. Chỉ dùng khi bạn không có pass hosting.

Cài đặt plugin robots.txt
Cài đặt plugin robots.txt

Bước tiếp thao là bạn đến mục Cài đặt => tìm đến plugin => dán cái code vào

User-agent: SemrushBot
Disallow: /

User-agent: AhrefsBot
Disallow: /
Thay đổi file Robots.txt
Thay đổi file Robots.txt

Tuy nhiên 1 số trường hợp thì những plugin cho tạo file robots.txt pluign này không thể ghi đè file có sẵn.

Do đó thay vì dùng những plugin này thì chúng ta nên dùng Yoast SEO hoặc Rank Math SEO.

Sau khi đã hoàn tất bạn hãy kiểm tra bằng url sau: domain/robots.txt (thay bằng domain của bạn)

Lời kết

Việc chặn bất kỳ 1 bot nào cũng tương đối dễ dàng. Bạn chỉ cần dùng 2 cấu trúc là User-agent: và Disallow: / để chặn những bot không mong muốn.

Hy vọng rằng bài viết này giúp bạn nhiều khi học digital marketing đa kênh nhé. Sau này nếu bạn muốn chặn bất kỳ Bot nào thì bạn có thể lên Google tìm tên của Bot đó

Cảm ơn bạn đã đọc bài viết!

Digital Marketing IMTA SEOChặn Bot SemRush & Ahrefs thu thập dữ liệu từ khóa & backlink