SEO: Hiểu Sơ đồ trang web XML

Sơ đồ trang XML phục vụ một mục đích rất thích hợp trong việc tối ưu hóa công cụ tìm kiếm: tạo điều kiện cho việc lập chỉ mục. Đăng một sơ đồ trang XML giống như trải thảm đỏ cho các công cụ tìm kiếm và cung cấp cho chúng một lộ trình các tuyến đường ưa thích qua trang web. Đây là cơ hội để chủ sở hữu trang web nói với trình thu thập thông tin rằng “Tôi thực sự đánh giá cao điều đó nếu bạn đặc biệt tập trung vào các URL này”. Việc các công cụ có chấp nhận các đề xuất URL nào để thu thập thông tin hay không phụ thuộc vào các tín hiệu mà trang web đang gửi.

Các bài viết liên quan:

Sơ đồ trang web XML là gì?

Nói một cách đơn giản, sơ đồ trang XML là một chút của Ngôn ngữ đánh dấu có thể mở rộng (XML), một định dạng tiêu chuẩn mà máy có thể đọc được bởi các công cụ tìm kiếm và các chương trình phân tích dữ liệu khác như trình đọc nguồn cấp dữ liệu. Sơ đồ trang XML truyền tải thông tin về một thứ: các URL tạo nên một trang web. Mỗi tệp sơ đồ trang XML tuân theo cùng một dạng cơ bản. Trang web một trang đặt tại www.example.com sẽ có sơ đồ trang web XML sau:

Phiên bản XML và tập hợp url đều giống nhau đối với mọi tệp sơ đồ trang web XML. Đối với mỗi URL được liệt kê,

<url> và <loc> thẻ là bắt buộc, với tùy chọn <lastmod> , <changefreq>

<priority>

các thẻ. Thông tin URL, được tô màu đỏ ở trên, cho biết thông tin thay đổi đối với mỗi URL. Các

<loc>

thẻ chỉ chứa URL tuyệt đối hoặc bộ định vị cho một trang.

<Lastmod>

chỉ định ngày sửa đổi cuối cùng của tệp.

<Changefreq>

cho biết tần suất mà một tệp được thay đổi.

<Ưu tiên>

cho biết tầm quan trọng của tệp trong trang web. Tránh cám dỗ đặt mọi URL thành tần suất hàng ngày và mức độ ưu tiên tối đa. Không có trang web nhiều trang được cấu trúc và duy trì theo cách này, vì vậy các công cụ tìm kiếm sẽ có xu hướng bỏ qua toàn bộ sơ đồ trang XML nếu các thẻ tần suất và mức độ ưu tiên không phản ánh thực tế.

Các URL trong sơ đồ trang XML có thể nằm trên cùng một miền hoặc các miền phụ và miền khác nhau. Tuy nhiên, mỗi tệp XML chỉ có thể chứa 50.000 URL trên mỗi tệp và có kích thước giới hạn ở 10MB. Để tiết kiệm băng thông và giới hạn kích thước tệp, sơ đồ trang web XML có thể được nén bằng cách sử dụng gzip. Khi một trang web chứa hơn 50.000 URL hoặc đạt đến 10MB, nhiều sơ đồ trang XML cần được tạo và gọi cùng nhau từ một tệp chỉ mục sơ đồ trang XML. Theo cách tương tự như một sơ đồ trang XML liệt kê các URL trong một trang web, chỉ mục sơ đồ trang web XML liệt kê các sơ đồ trang web XML cho một trang web. Các khu vực cần sửa đổi cho mỗi sơ đồ trang XML được liệt kê được nêu bên dưới:

Đọc thêm  Tìm hiểu về Lighthouse

Để có thêm ví dụ về sơ đồ trang XML, hãy xem xét bất kỳ trang web nào và nhập sitemap.xml sau tên miền. Ví dụ: https://www.kythuatseo.com/sitemap.xml là chỉ mục sơ đồ trang XML cho trang web này. Nếu việc thêm sitemap.xml không hoạt động, sơ đồ trang XML có thể được đặt tên khác. Hãy thử kiểm tra tệp robots.txt để xem địa chỉ sơ đồ trang XML có ở đó không. Ví dụ: hãy xem http://www.dell.com/robots.txt để biết danh sách khổng lồ các sơ đồ trang XML.

Loại trừ những gì

Bởi vì sơ đồ trang XML đóng vai trò như một tập hợp các liên kết được đề xuất để thu thập thông tin, nên bất kỳ URL không chuẩn nào đều phải được loại trừ khỏi sơ đồ trang XML. Bất kỳ URL nào không được phép trong tệp robots.txt – chẳng hạn như các trang thương mại điện tử an toàn, nội dung trùng lặp và các phiên bản in và email của các trang – cũng không được đưa vào sơ đồ trang XML. Tương tự như vậy, bất kỳ tệp nào bị các thẻ meta ngăn lập chỉ mục và thẻ chuẩn của rô bốt loại trừ khỏi quá trình thu thập thông tin sẽ không được đưa vào sơ đồ trang web XML. Nếu trình thu thập thông tin tìm thấy các URL trong sơ đồ trang web XML đã được cố tình loại trừ khỏi quá trình thu thập thông tin bằng một trong những cách này, nó sẽ gửi một tín hiệu hỗn hợp. “Đừng thu thập dữ liệu URL này. Nhưng hãy coi nó quan trọng hơn các URL khác trên trang web của tôi. ” Các trình thu thập thông tin sẽ tuân theo các lệnh loại trừ thu thập thông tin do robots.txt không cho phép và ngăn lập chỉ mục meta rô bốt đưa ra. Nhưng nếu có đủ các tín hiệu hỗn hợp này, sơ đồ trang web XML có thể bị mất uy tín và mất khả năng đề xuất.

Cách tạo Sơ đồ trang web XML

Trong trường hợp đơn giản nhất, các trang web nhỏ có thể dễ dàng tạo và đăng các sơ đồ trang XML của riêng họ theo cách thủ công bằng cách sử dụng các ví dụ ở trên làm hướng dẫn định dạng. Ví dụ: một trang web thương mại điện tử rất nhỏ có thể liên tục cung cấp năm sản phẩm giống nhau trong sáu tháng. Các URL của trang web không thay đổi mặc dù chúng có thể cập nhật nội dung trên trang web hàng tháng hoặc lâu hơn để giữ cho nó luôn mới mẻ. Trang web năm sản phẩm này có thể dễ dàng tạo một tệp văn bản trong notepad với định dạng của một sơ đồ trang XML và lưu tệp đó dưới dạng sitemap.xml. Tất cả những gì còn lại là đăng sitemap.xml lên thư mục gốc của trang web và sơ đồ trang XML đang hoạt động. Trong sáu tháng khi các sản phẩm thay đổi, họ chỉ cần cập nhật tệp sitemap.xml và đăng lại tệp gốc.

Đọc thêm  Quảng cáo nội dung trang web

Đối với các trang web lớn hơn và các trang web thay đổi thường xuyên hơn, các plugin hoặc mô-đun có sẵn cho nhiều nền tảng thương mại điện tử có thể tự động hóa việc tạo và đăng các sơ đồ trang XML. Các trang web được xây dựng trên Drupal hoặc WordPress có thể sử dụng các plugin sơ đồ trang XML tất cả trong một như Mô-đun sơ đồ trang XML của Drupal hoặc Sơ đồ trang web Google XML tốt hơn cho WordPress để tạo và đăng các tệp của chúng theo lịch trình thường xuyên. Nếu nền tảng của một trang web không bao gồm hỗ trợ tự động hóa sơ đồ trang XML, thì các chương trình phần mềm miễn phí như gSite Crawler có thể tự động hóa việc tạo và đăng các sơ đồ trang XML qua FTP. Tìm chương trình sơ đồ trang XML tuân theo các giao thức loại trừ rô bốt như tệp robots.txt không cho phép và thẻ ngăn lập chỉ mục rô bốt meta để đảm bảo rằng các tệp bị loại trừ không kết thúc trong sơ đồ trang XML.

Để biết thêm thông tin chi tiết về sơ đồ trang XML, hãy xem Sitemaps.org.

Quảng cáo Sơ đồ trang web XML

Sơ đồ trang web XML yêu cầu quảng cáo. May mắn thay, đối tượng mục tiêu của họ quá nhỏ nên chỉ cần thực hiện một vài bước là có thể thực hiện được. Trước tiên, hãy làm cho sơ đồ trang web XML có thể tự động phát hiện bằng cách thêm dòng sau vào bất kỳ vị trí nào trong tệp robots.txt của trang web: Sơ đồ trang web: http://www.example.com/sitemap-index.xml

Khi các trình thu thập thông tin có uy tín truy cập một trang web, họ đặt robots.txt là điểm dừng đầu tiên để xác định tệp nào nên được thu thập thông tin và tệp nào nên tránh. Trong quá trình này, trình thu thập thông tin xác định sơ đồ trang web XML từ dòng tự động phát hiện và đặt tệp XML đó thành điểm dừng thứ hai. Từ đó, nó tiếp tục với phần còn lại của quá trình thu thập thông tin, trang bị các tệp được đề xuất của trang web.

Bước thứ hai trong việc quảng bá sơ đồ trang XML là gửi đến các trang web công cụ quản trị trang web của Google và Bing. Dòng tự động phát hiện sẽ đảm bảo rằng Googlebot và Bingbot tìm thấy sơ đồ trang web XML trong lần truy cập tiếp theo của họ, có thể là một tháng kể từ bây giờ tùy thuộc vào tần suất thu thập thông tin của trang web. Việc gửi trực tiếp sơ đồ trang XML đến các trang web công cụ của họ sẽ nhắc họ thu thập thông tin sơ đồ trang web nhanh hơn, thường là trong vòng vài giờ tới. Ngoài ra, các trang web công cụ của công cụ cung cấp dữ liệu bổ sung về các URL trong sơ đồ trang XML, chẳng hạn như có bao nhiêu URL được lập chỉ mục và liệu bản thân sơ đồ trang XML có hợp lệ hay không.

Đọc thêm  Guest Blog và công dụng với SEO

Những lầm tưởng về Sơ đồ trang web XML

Bởi vì chúng hơi tối nghĩa, sơ đồ trang web XML đã thu thập một tập hợp các sức mạnh thần thoại và mê tín dị đoan thú vị. Đây là một số câu hỏi và phản đối yêu thích của tôi liên quan đến sơ đồ trang web XML.

  • “Bao gồm một URL trong sơ đồ trang XML đảm bảo rằng nó sẽ được lập chỉ mục.”

Không. Điều quan trọng cần lưu ý là sơ đồ trang web XML chỉ là các đề xuất. Sơ đồ trang web XML sẽ không đảm bảo việc lập chỉ mục các URL được bao gồm.

  • “Nếu tôi để một URL ra khỏi sơ đồ trang XML thì nó sẽ bị lập chỉ mục.”

Không. Sơ đồ trang web XML sẽ không loại trừ việc lập chỉ mục các URL không có trong sơ đồ trang web XML. Nó chỉ đơn thuần là một tập hợp các URL được đề xuất, nếu các đề xuất đồng ý với các tín hiệu mà phần còn lại của trang web đang gửi, sẽ có tầm quan trọng hơn một chút đối với các URL được bao gồm ở trên và ngoài các URL khác trên trang web.

  • “Sơ đồ trang web XML rất khó tạo và duy trì.”

Không. Trong trường hợp đơn giản nhất, các trang web nhỏ có thể dễ dàng tạo và đăng các sơ đồ trang XML của riêng họ theo cách thủ công bằng cách sử dụng các ví dụ ở trên làm hướng dẫn định dạng. Đối với các trang web lớn hơn và các trang web thay đổi thường xuyên hơn, các plugin hoặc mô-đun có sẵn cho hầu hết các nền tảng thương mại điện tử có thể tự động hóa việc tạo và đăng các sơ đồ trang XML.

  • “Đăng một sơ đồ trang web XML giống như yêu cầu thu thập thông tin và gửi thư rác.”

Không. Sơ đồ trang XML không hơn gì một danh sách các URL. Những kẻ lừa đảo và gửi thư rác có thể dễ dàng thu thập dữ liệu bất kỳ trang web công cộng nào mà chúng muốn tạo danh sách các URL và nội dung để lấy cắp nội dung của một trang web cho các mục đích bất chính của chúng. Họ chắc chắn không cần sơ đồ trang XML để làm điều đó và việc không đăng một sơ đồ trang web XML sẽ không khiến những kẻ tung tin và gửi thư rác tránh xa.

Chat Facebook