5 lỗi nghiêm trọng mà trình thu thập thông tin trang web có thể tiết lộ cho trang web của bạn

Trình thu thập thông tin trang web thường xuyên truy cập trang web của bạn trong suốt thời gian hoạt động của trang web. Họ tìm kiếm nội dung mới, theo các liên kết và thu thập dữ liệu trên trang web của bạn để hiểu rõ hơn về cách nó phục vụ mục đích tìm kiếm.

Những trình thu thập thông tin này có thể gặp lỗi khi điều hướng trang web của bạn, chẳng hạn như nội dung trùng lặp và liên kết bị hỏng. Việc khắc phục những lỗi này càng sớm càng tốt là điều quan trọng để duy trì trạng thái của trang web và thứ hạng của bạn trên Google.

Trong hướng dẫn này, chúng tôi đã bao gồm 5 lỗi thu thập dữ liệu nghiêm trọng và cách khắc phục chúng.

Liên kết nội bộ dẫn người dùng từ trang này sang trang khác trên trang web của bạn. Liên kết nội bộ rất tốt cho SEO, có thể giúp thiết lập cấu trúc trang web và truyền bá giá trị liên kết.

Các liên kết bị hỏng có thể do URL không chính xác hoặc các trang đã bị xóa. Trong những trường hợp này, trang web chưa được cập nhật để phản ánh những thay đổi.

Các liên kết bị hỏng ngăn cản người dùng điều hướng trang web của bạn, điều này có thể tác động tiêu cực đến trải nghiệm người dùng (một yếu tố chính trong xếp hạng trang web của bạn).

Các liên kết bị hỏng cũng ngăn trình thu thập thông tin khám phá và lập chỉ mục trang web của bạn. Với hàng triệu trang web cần thu thập thông tin, mỗi bot chỉ có một số trang giới hạn mà nó có thể thu thập thông tin trước khi phải chuyển sang trang web tiếp theo. Đây thường được gọi là “ngân sách thu thập thông tin” của bạn.

Nếu bạn có các liên kết bị hỏng, các bot không thể thu thập dữ liệu trang web của bạn và sẽ đốt hết “ngân sách” của bạn.

Bạn có thể sử dụng công cụ Kiểm tra trang web để xác định các liên kết bị hỏng của mình. Khi bạn đã chạy kiểm tra trang web, bạn có thể lọc bất kỳ lỗi liên kết nào mà công cụ đã chỉ ra:

trình thu thập thông tin trang web

Để chạy kiểm tra, bạn cần thiết lập một dự án cho miền của mình. Điều hướng đến “Dự án”, trong “Quản lý” trong thanh công cụ chính ở bên trái:

trình thu thập thông tin trang web

Nếu bạn chưa thiết lập dự án cho trang web của mình, hãy tạo dự án mới bằng cách chọn nút “Thêm dự án mới” ở trên cùng bên phải của trang:

trình thu thập thông tin trang web

Bạn sẽ được nhắc nhập tên miền trang web của mình và đặt tên cho dự án:

trình thu thập thông tin trang web

Bạn sẽ được đưa đến bảng điều khiển của dự án, nơi bạn có thể chọn công cụ Kiểm tra trang web:

trình thu thập thông tin trang web

Sử dụng công cụ Kiểm tra trang web để:

  • Xóa các liên kết đến các trang đã bị xóa.
  • Xác định các trang mà các liên kết bị hỏng nên trỏ đến và cập nhật các liên kết để chúng hoạt động.
  • Chạy lại Kiểm tra trang web để kiểm tra xem các cập nhật đã thành công chưa.

Tránh các vấn đề liên kết nội bộ khác bằng cách xem hướng dẫn của chúng tôi về các lỗi xây dựng liên kết nội bộ phổ biến nhất.

Lỗi 2: Nội dung hỗn hợp

Sự cố nội dung hỗn hợp xảy ra khi mã của trang web tải trong HTTPS (Bảo mật giao thức truyền siêu văn bản), nhưng nội dung trên trang (hình ảnh, video, v.v.) lại tải trong HTTP.

Tại sao Nội dung hỗn hợp là một vấn đề?

Khi sự cố này xảy ra, người dùng sẽ nhận được một cửa sổ bật lên cảnh báo cho biết họ có thể đang tải xuống nội dung không an toàn. Điều này có thể khiến người dùng rời khỏi trang, dẫn đến tỷ lệ thoát cao.

Nội dung hỗn hợp ảnh hưởng tiêu cực đến trải nghiệm người dùng và cho Google biết rằng trang của bạn có vấn đề về bảo mật.

Cách khắc phục sự cố Nội dung hỗn hợp

Bạn có thể sử dụng công cụ Kiểm tra trang web để tìm bất kỳ trang nào có vấn đề về nội dung hỗn hợp:

trình thu thập thông tin trang web

Bạn sẽ cần thay thế tất cả các liên kết HTTP không an toàn trên trang web của mình bằng các liên kết HTTPS mới hơn và an toàn hơn, sau đó nhúng các tài nguyên của bạn với các liên kết giao thức HTTPS tương tự.

Lỗi 3: Nội dung trùng lặp

Google gắn cờ cho nội dung trùng lặp khi trình thu thập thông tin trang web tìm thấy nội dung trên trang web của bạn giống với nội dung khác trên trang web của bạn 85% trở lên.

Điều này có thể xảy ra nếu bạn phục vụ các quốc gia khác nhau trên thế giới với cùng một nội dung bằng nhiều ngôn ngữ hoặc có nhiều trang đích có nội dung tương tự.

Tại sao Nội dung trùng lặp lại là một vấn đề?

Khi các công cụ tìm kiếm thấy nội dung trùng lặp, chúng có thể trở nên bối rối không biết nên thu thập thông tin hoặc lập chỉ mục phiên bản nào và có thể loại trừ cả hai.

Các công cụ tìm kiếm có thể nghĩ rằng bạn đang cố gắng thao túng thuật toán và có thể hạ cấp xếp hạng của bạn hoặc cấm trang web của bạn khỏi kết quả tìm kiếm.

Giá trị liên kết cũng có thể bị loãng do trùng lặp, điều này có thể ảnh hưởng đến điểm tổng thể của cơ quan quản lý trang của bạn.

Cách khắc phục sự cố nội dung trùng lặp

Khi bạn đã chạy kiểm tra trang web, bạn có thể sử dụng Công cụ kiểm tra trang web để xem trang web của bạn có bao nhiêu trang trùng lặp:

trình thu thập thông tin trang web

Để khắc phục chúng, bạn có thể:

  • Thêm thẻ chuẩn vào trang mà bạn muốn Google thu thập thông tin và lập chỉ mục. Các thẻ hợp quy chỉ ra trang gốc cho các công cụ tìm kiếm, vì vậy chúng sẽ biết trang nào sẽ hiển thị trong SERP.
  • Sử dụng chuyển hướng 301 từ trang trùng lặp đến trang gốc.
  • Hướng dẫn Googlebot xử lý các tham số URL theo cách khác nhau bằng Google Search Console.

Cách đơn giản nhất để tránh vấn đề này là tạo nội dung độc đáo cho mỗi trang trên trang web của bạn.

Lỗi 4: Trang mồ côi

Các trang mồ côi không được liên kết nội bộ với bất kỳ trang nào khác trên trang web của bạn. Người dùng không thể truy cập các trang này qua menu chính, sơ đồ trang web của bạn hoặc liên kết từ một trang khác.

Cách duy nhất để truy cập một trang mồ côi là thông qua một liên kết trực tiếp.

Tại sao các Trang mồ côi lại là một vấn đề?

Nếu các công cụ tìm kiếm không thể tìm thấy một trang mồ côi, trang đó sẽ không được lập chỉ mục trên SERP.

Việc thêm các trang mồ côi vào tệp site.xml của bạn sẽ lãng phí ngân sách thu thập thông tin của bạn vì các bot của Google sẽ mất nhiều thời gian hơn để tìm và thu thập dữ liệu.

Cách sửa Trang mồ côi

Công cụ Kiểm tra Trang web chỉ ra các trang không có trong tệp site.xml của bạn:

trình thu thập thông tin trang web

Để thực hiện việc này, hãy nhấp vào tab Sự cố, sau đó nhấp vào nút ‘Chọn sự cố’:

trình thu thập thông tin trang web

Xóa các trang mồ côi nếu chúng không còn cần thiết hoặc hữu ích cho trang web của bạn.

Nếu bạn vẫn muốn giữ lại trang, hãy thêm một liên kết nội bộ đến nó từ một trang khác trên trang web của bạn và làm cho nó có thể phát hiện được trong hệ thống menu.

Để biết thêm chi tiết về quy trình này, hãy đọc về cách tìm các trang mồ côi bằng việc kiểm tra trang web.

Các liên kết ngược hoạt động giống như một giới thiệu trực tuyến. Bạn kiếm được hậu thuẫn khi một trang web bên ngoài liên kết đến trang web của bạn. Họ là một dấu hiệu của sự tin tưởng và quyền hạn trong mắt của các công cụ tìm kiếm.

Có một liên kết từ một trang web bên ngoài với một cơ quan quản lý trang tốt sẽ chuyển một số cơ quan đó trở lại trang web của bạn.

Việc thiếu các liên kết ngược có nghĩa là trang web của bạn có ít thẩm quyền về trang và bạn không phải là người có thẩm quyền trong lĩnh vực của bạn.

Các liên kết ngược độc hại là các liên kết từ các trang web làm suy yếu quyền trang của bạn và làm hỏng xếp hạng SEO của bạn. Bạn sẽ muốn tránh các liên kết ngược từ các trang web nhân bản, tên miền có quyền hạn thấp hoặc trang web có bố cục kém.

Trước tiên, bạn sẽ bắt đầu với công cụ Kiểm tra liên kết ngược để khám phá vị trí của cả hai loại liên kết.

Nếu bạn đã tạo dự án cho miền của mình, bạn sẽ có thể chạy công cụ Kiểm tra liên kết ngược từ bảng điều khiển dự án của mình. Sau khi mở, công cụ sẽ nhắc bạn đặt phạm vi thu thập thông tin, quốc gia mục tiêu và hơn thế nữa:

trình thu thập thông tin trang web

Khi quá trình kiểm tra hoàn tất, bạn sẽ có thể xem trang web của mình đã kiếm được bao nhiêu liên kết ngược, các miền trỏ về trang web của bạn và những liên kết nào độc hại:

trình thu thập thông tin trang web
trình thu thập thông tin trang web
trình thu thập thông tin trang web

Công cụ Kiểm tra Backlink “cho điểm” và sắp xếp các liên kết ngược độc hại từ 0-100, với 0 là điểm tốt nhất.

Có hơn 50 lần kiểm tra mà Semrush thực hiện để đưa ra điểm độc tính. Bạn có thể xem các kiểm tra này bằng cách di con trỏ qua liên kết độc hại.

Những gì bạn làm với các liên kết độc hại này có thể phụ thuộc vào điểm số và lý do chúng được xác định là độc hại.

Bạn có thể đưa chúng vào danh sách xóa để xóa chúng theo cách thủ công hoặc bạn có thể yêu cầu Google từ chối chúng để chúng không ảnh hưởng đến xếp hạng trang trên trang web của bạn.

trình thu thập thông tin trang web

Nếu bạn nhận thấy một số liên kết có điểm độc hại thấp, nhưng bạn biết rằng các trang web đó không độc hại, bạn có thể thêm các liên kết này vào Danh sách trắng của mình.

Bạn có thể tìm thấy thêm chi tiết về kiểm toán backlink trong cơ sở kiến ​​thức của chúng tôi.

Công cụ Semrush tiết lộ lỗi trang web

Có một loạt các công cụ Semrush đáng kinh ngạc để giúp bạn giải quyết tất cả các loại vấn đề kỹ thuật SEO, bao gồm công cụ Kiểm tra trang web, công cụ Kiểm tra liên kết ngược và Trình phân tích nội dung.

trình thu thập thông tin trang web

Công cụ kiểm tra trang web

Công cụ Kiểm tra trang web kiểm tra hơn 120 vấn đề trên trang và kỹ thuật khi thu thập dữ liệu trang web của bạn. Sử dụng công cụ này để kiểm tra các vấn đề phổ biến như liên kết bị hỏng, triển khai hreflang, khả năng thu thập thông tin và hơn thế nữa.

Theo dõi tình trạng trang web của bạn với kiểm tra trang web là một quá trình quan trọng cần được thực hiện thường xuyên. Kiểm tra trang web giúp bạn phát hiện lỗi trang web sớm và thường xuyên, và công cụ Kiểm tra trang web cung cấp các đề xuất để giúp bạn giải quyết bất kỳ vấn đề nào mà nó phát hiện được.

Bạn có thể thu thập dữ liệu lên đến 100 trang một tháng miễn phí. Xem hướng dẫn của chúng tôi về công cụ Kiểm tra trang web trên cơ sở kiến ​​thức của chúng tôi.

trình thu thập thông tin trang web

Công cụ Kiểm tra Liên kết ngược kiểm tra số lượng và chất lượng của các liên kết ngược trỏ đến trang web của bạn. Sau đó, bạn có thể đưa vào danh sách trắng hoặc từ chối các liên kết ngược mà bạn tìm thấy để giúp tăng thẩm quyền trang web của bạn.

Bạn cũng có thể phân tích thêm các liên kết ngược độc hại và sử dụng công cụ để yêu cầu xóa các liên kết đó khỏi các trang web bên ngoài.

trình thu thập thông tin trang web
[create-campaign destination_url=” https://www.semrush.com/backlink_audit” show_input=”false” header=”Find and fix toxic backlins” text=”with the Backlink Audit tool” button_text=”Try for Free” bg_images=” https://static.semrush.com/blog/uploads/media/96/fd/96fd495930d058321d5f78f5554aff88/trial-superbanner-1.png” bg_button=”-success”]

Trình phân tích nội dung

Công cụ phân tích nội dung hoạt động theo 2 bước. Đầu tiên là kiểm tra nội dung bằng công cụ Kiểm tra nội dung.

Công cụ này kiểm tra nội dung trang web của bạn bằng cách khám phá sơ đồ trang web của nó và kiểm tra các thư mục con để tìm URL và liên kết nội bộ. Nó sẽ cần sơ đồ trang web hoặc tệp robots.txt của bạn để chạy báo cáo này.

Trong ví dụ trên, công cụ cho thấy rằng có 364 URL cần kiểm tra trong thư mục con “Blog”.

trình thu thập thông tin trang web

Sau khi bạn kiểm tra, công cụ sẽ trả về một báo cáo:

trình thu thập thông tin trang web

Bạn sẽ có bốn danh mục để giải quyết:

  • Viết lại hoặc xóa: Các trang đã xuất bản hơn 24 tháng trước và được xem ít hơn 15 lần trong tháng trước sẽ được thêm vào đây. Bạn sẽ có tùy chọn xóa các trang hoặc làm mới nội dung.
  • Cần cập nhật: Các trang được xuất bản cách đây hơn 6 tháng và được xem ít hơn 15 lần trong tháng qua được phân loại tại đây. Bạn có thể cần phải làm mới nội dung hoặc tìm các cách mới để liên kết nội bộ với nội dung này để nội dung trở nên hữu ích hơn.
  • Đánh giá nhanh: Đây là những trang được xuất bản gần đây có hơn 150 lượt truy cập trong tháng qua. Các trang này đang hoạt động tốt, vì vậy hãy ghi chú cho nội dung trong tương lai hoặc sử dụng chúng làm nguồn cảm hứng để làm mới nội dung cũ hơn.
  • Nội dung kém: Các trang này có ít hơn 200 từ được giới thiệu trên đó. là những trang có ít hơn 200 từ. Đây là quá ít từ để có hiệu quả với Google. Hãy thử định vị lại nội dung cho mạng xã hội hoặc mở rộng ra ít nhất 600 từ.

Bài học rút ra chính

Thế giới SEO cạnh tranh và bạn sẽ cần mọi lợi thế có thể có được. Tự tạo cho mình một vị trí trong cuộc cạnh tranh bằng cách giải quyết các lỗi chính có thể ảnh hưởng đến trang web của bạn.

Đừng choáng ngợp nếu công cụ kiểm toán của chúng tôi trả về rất nhiều lỗi. Thực hiện từng bước, sửa từng lỗi một cách hợp lý và ổn định, đồng thời thực hiện các đợt kiểm tra tiếp theo để đảm bảo công việc của bạn có tác động.

Để có hướng dẫn chuyên sâu hơn về lỗi khả năng thu thập thông tin, hãy xem phần của chúng tôi về cách khắc phục các vấn đề về khả năng thu thập thông tin.

Trả lời