Cách thêm tệp robots.txt vào trang web

Cách thêm tệp robots.txt vào trang web

Tệp văn bản rô bốt hoặc tệp robots.txt (thường bị gọi nhầm là tệp rô bốt.txt) là tệp bắt buộc phải có đối với mọi trang web. Thêm tệp robots.txt vào thư mục gốc của trang web của bạn là một quá trình rất đơn giản và việc có tệp này thực sự là một “dấu hiệu của chất lượng” đối với các công cụ tìm kiếm. Hãy xem xét các tùy chọn robots.txt trong website bạn.

Tệp văn bản rô bốt là gì?

Tệp văn bản rô bốt là gì?

Tệp robots.txt chỉ đơn giản là một tệp ASCII hoặc văn bản thuần túy cho các công cụ tìm kiếm biết nơi chúng không được phép truy cập vào một trang web – còn được gọi là Tiêu chuẩn loại trừ rô bốt. Bất kỳ tệp hoặc thư mục nào được liệt kê trong tài liệu này sẽ không được thu thập thông tin và lập chỉ mục bởi trình thu thập thông tin của công cụ tìm kiếm. Việc có một tệp robots.txt, ngay cả một tệp trống, cho thấy bạn thừa nhận rằng các công cụ tìm kiếm được phép trên trang web của bạn và họ có thể có quyền truy cập miễn phí vào nó. Chúng tôi khuyên bạn nên thêm tệp văn bản rô bốt vào miền chính và tất cả các miền phụ trên trang web của mình.

Các tùy chọn Robots.txt để định dạng

Viết tệp robots.txt là một quá trình dễ dàng. Làm theo các bước đơn giản sau:

Cú pháp robots.txt được sử dụng

User agent:

Điều này đã khai báo bot hoặc trình thu thập thông tin web mà chúng tôi đang đưa ra hướng dẫn hoặc kiểm soát chúng cho các phần khác nhau bằng cách sử dụng chức năng allow và disallow.

Đọc thêm  Kiểm tra bảo mật trang web

Xem thêm Kiểm tra nội dung trùng lặp

Not allow:

Sử dụng phương pháp này, chúng tôi có thể tiết kiệm hạn ngạch thu thập dữ liệu của công cụ tìm kiếm dành riêng cho trang web của chúng tôi.

Allow:

Nó thường được sử dụng cho Googlebot để cho phép các phần thu thập thông tin của một trang web. 

Sơ đồ website:

Nó khai báo vị trí hoặc blog của sơ đồ trang XML — các công cụ tìm kiếm như Google, Bing, Yandex hỗ trợ lệnh này.

Ví dụ về tệp robots.txt:

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: /*/junk/*

Disallow: /search

Allow: /

Sitemap: https://example.com/sitemap.xml

Sơ đồ website: https://example.com/sitemap.xml

Mở Notepad, Microsoft Word hoặc bất kỳ trình soạn thảo văn bản nào và lưu tệp dưới dạng ‘rô-bốt’, tất cả đều là chữ thường, đảm bảo chọn .txt làm phần mở rộng loại tệp (trong Word, chọn ‘Văn bản thuần túy’).

Tiếp theo, thêm hai dòng văn bản sau vào tệp của bạn:

User-agent: *

Disallow :

“Tác nhân người dùng” là một từ khác để chỉ rô bốt hoặc trình thu thập thông tin công cụ tìm kiếm. Dấu hoa thị (*) biểu thị rằng dòng này áp dụng cho tất cả các trình thu thập thông tin. Ở đây, không có tệp hoặc thư mục nào được liệt kê trong dòng Not allow, ngụ ý rằng mọi thư mục trên trang web của bạn đều có thể được truy cập. Đây là một tệp văn bản rô bốt cơ bản.

Chặn trình thu thập thông tin công cụ tìm kiếm khỏi toàn bộ trang web của bạn cũng là một trong những tùy chọn robots.txt. Để thực hiện việc này, hãy thêm hai dòng sau vào tệp:

User agent: *

Disallow : /

Nếu bạn muốn chặn các trình thu thập thông tin từ các khu vực nhất định trên trang web của mình, tệp robots.txt của bạn có thể trông giống như sau:

Xem thêm Phân tích cạnh tranh

User agent: *

Disallow: / database /

Disallow: / scripts /

Ba dòng trên cho tất cả các robot biết rằng chúng không được phép truy cập bất cứ thứ gì trong cơ sở dữ liệu và các thư mục script hoặc thư mục con. Hãy nhớ rằng chỉ có thể sử dụng một tệp hoặc thư mục trên mỗi dòng Not allow. Bạn có thể thêm nhiều dòng Disallow nếu cần.

Đọc thêm  Black hat SEO

Đảm bảo thêm tệp Sơ đồ website XML thân thiện với công cụ tìm kiếm của bạn vào tệp văn bản rô bốt. Điều này sẽ đảm bảo rằng các trình thu thập dữ liệu có thể tìm thấy Sơ đồ website của bạn và dễ dàng lập chỉ mục tất cả các trang trên trang web của bạn. Sử dụng cú pháp này:

Sơ đồ website: http://www.mydomain.com/sitemap.xml

Sau khi hoàn tất, hãy lưu và tải tệp robots.txt của bạn lên thư mục gốc của trang web của bạn. Ví dụ: nếu miền của bạn là www.mydomain.com, bạn sẽ đặt tệp tại www.mydomain.com/robots.txt.

Khi tệp được đặt xong, hãy kiểm tra tệp robots.txt xem có lỗi nào không.

 Tìm kiếm có thể giúp triển khai SEO này và các kỹ thuật SEO khác

Tệp Robots.txt, nó là gì? Và sử dụng nó như thế nào?

Bạn đã tạo một trang web và trang web đó có thể thu thập thông tin đối với công cụ tìm kiếm. Nhưng nếu bạn không muốn công cụ tìm kiếm thu thập thông tin một số phần của trang web thì sao? Làm thế nào bạn có thể chặn các phần đó của trang web đối với công cụ tìm kiếm? Tệp robots.txt.

Vì vậy, bạn muốn hiểu tệp robots.txt? Nhưng nếu tôi nói nó là một người kiểm tra đường dẫn bot đang thu thập thông tin. Điều đó cho phép hoặc Not allow bot trên một số con đường và hãy chặn những con đường khác. Tệp này cho phép hoặc Not allow các bot của công cụ tìm kiếm thu thập thông tin một số phần trên trang web của bạn và Not allow những phần khác.

Xem thêm Giới thiệu các phóng viên như một chuyên gia kỹ thuật số

Đọc thêm  Cập nhật nội dung cũ để tăng nhanh tìm kiếm

Tối ưu hóa Công cụ Tìm kiếm và Robots.txt

Công cụ Tìm kiếm Bots là gì ?: Đây là những bot đọc dữ liệu từ một trang web hoặc trang web và chuyển dữ liệu đó vào cơ sở dữ liệu của chúng như Google, Bing, Yandex hoặc bất kỳ trang nào khác. Ví dụ: giả sử bạn tạo một trang web và liên tục viết bài về đó.

Backlink nội bộ và robots.txt: Nếu bạn đang viết một bài báo và trong đó, bạn cung cấp một số liên kết nội bộ có thể thuộc danh mục hoặc nhãn hoặc bất kỳ thứ gì khác bị robots.txt chặn. Giờ đây, liên kết bạn cung cấp trong bài viết phải theo vì nó là liên kết nội bộ và đồng thời, bạn Not allow liên kết đó theo quyền được đặt trong tệp robots.txt. Vì vậy, phương pháp hay nhất cho các trang nội bộ không nên lập chỉ mục nhưng thu thập thông tin là ngăn lập chỉ mục các trang đó, Not allow sử dụng tệp robots.txt.

Tệp robots.txt sẽ chặn những trang nào: Tệp robots.txt sẽ chặn các trang nhạy cảm. Đó có thể là phần quản trị của trang web hoặc blog của bạn. Tất cả các trang khác gây ra nội dung rác hoặc nội dung kép phải là noindex bằng cách sử dụng thẻ meta hoặc thẻ x-robot thích hợp.

Liên kết từ các tài nguyên bên ngoài sẽ chặn: Giả sử ai đó đã cung cấp một liên kết ngược của phần danh mục trang web của bạn, thì trong trường hợp đó, công cụ thu thập thông tin sẽ cố gắng thu thập thông tin trang web của bạn nhưng robots.txt chặn nó thu thập thông tin và một liên kết khó kiếm được sẽ lãng phí.

Chat Facebook