Nội dung trùng lặp hay còn gọi là Duplicate contents là một chủ đề lớn trong lĩnh vực SEO. Khi chúng tôi được nghe về nó, thì đó là vấn đề hầu như được SEoer coi là một lỗi sẽ bị Google phạt, nhưng mối nguy hại tiềm ẩn của việc trùng lặp nội dung không những bị thổi phồng về tầm quan trọng (Google hầu như chưa từng phạt trang web nào có nội dung trùng lặp) mà thực ra nó còn chẳng phải là vấn đề gì quá nghiêm trọng. 3 vấn đề nghiêm trọng về SEO có khả năng làm giảm thứ hạng website nhiều hơn do nội dung trùng lặp gây ra như sau:
- Lãng phí việc thu thập dữ liệu (crawl budget). Nếu có sự trùng lặp nội dung trong nội bộ trang web của bạn, chắc chắn việc thu thập dữ liệu website của bạn đang bị lãng phí bởi nó (hay còn gọi là số trang được công cụ tìm kiếm thu thập dữ liệu trên mỗi đơn vị thời gian). Điều này có nghĩa là các trang quan trọng trên website của bạn sẽ ít được thu thập thông tin thường xuyên.
- Làm loãng sức mạnh liên kết (Link juice). Việc trùng lặp nội dung cả bên ngoài và nội bộ sẽ làm loãng link juice và đây là một trong những nhược điểm SEO lớn nhất. Theo thời gian, cả hai URL đều có thể xây dựng các backlink trỏ tới chúng, và trừ khi một trong hai có liên kết canonical (hay chuyển hướng 301) trỏ tới nội dung gốc, thì các liên kết có giá trị sẽ giúp cho thứ hạng của trang gốc cao hơn được phân phối giữa cả 2 URL.
- Chỉ có một trong số các trang sẽ được xếp hạng cho từ khóa mục tiêu. Khi Google tìm thấy các phiên bản nội dung trùng lặp, nó thường sẽ chỉ hiển thị một trong số chúng dựa trên các truy vấn tìm kiếm – và không có gì đảm bảo rằng đó chính là thứ bạn muốn xếp hạng (seo sai đường dẫn).
Nhưng tất cả các tình huống trên đều có thể ngăn chặn được nếu bạn biết nơi mà nội dung trùng lặp ẩn náu, cách phát hiện và xử lý nó. Trong bài viết này, Vietads sẽ đề cập đến 7 loại nội dung trùng lặp và cách giải quyết từng loại.
1. Nội dung cóp nhặt
Nội dung cóp nhặt về cơ bản không phải là nội dung nguyên bản trên một trang web hay bạn tự viết ra, mà nó đã được sao chép từ một trang web khác mà không được sự cho phép. Như tôi đã nói trước đó, Google không phải lúc nào cũng có thể phân biệt được bản gốc và bản sao chép, vì vậy nhiệm vụ của chủ sở hữu trang web là tìm ra kẻ sao chép và biết phải làm gì nếu nội dung của họ bị đánh cắp.
Nhưng việc này không phải lúc nào cũng dễ dàng và đơn giản. Nhưng đây là một mẹo nhỏ mà cá nhân tôi hay sử dụng.
Nếu bạn theo dõi cách mà nội dung của mình được chia sẻ và liên kết trực tuyến (và nếu bạn có blog, bạn thực sự nên có blog) qua ứng dụng theo dõi mạng xã hội/ Web, như Awario, bạn có thể một đích trúng hai con chim. Trong công cụ giám sát, bạn thường sử dụng URL của bài viết và tiêu đề làm từ khóa cho thông báo của mình. Để tìm kiếm các website sao chép nội dung của bạn, tất cả những gì bạn cần làm là thêm một từ khóa khác – một trích đoạn từ bài viết của bạn. Tốt nhất, nó nên khá dài, ví dụ, một hoặc hai câu văn. Sử dụng dấu ngoặc kép cho nội dung để đảm bảo bạn đang tìm kiếm kết quả trùng khớp hoàn toàn. Nó sẽ trông như thế này:
Với thiết lập này, ứng dụng sẽ tìm kiếm cả các đề cập đến bài viết gốc của bạn (như lượt chia sẻ, liên kết và các nội dung tương tự) và các phiên bản có nội dung sao chép bài viết của bạn được tìm thấy trên các trang web khác.
Nếu bạn tìm thấy bản sao chép nội dung của mình, trước tiên bạn cần liên hệ với quản trị viên trang web yêu cầu họ xóa nội dung đó (hoặc đặt một liên kết canonical vào bản gốc nếu việc này phù hợp với bạn). Nếu điều đó không hiệu quả, bạn có thể báo cáo với Google về việc người sao chép đã vi phạm bản quyền bằng công cụ DMCA.
2. Nội dung được cung cấp (Syndicated content)
Nội dung được cung cấp là nội dung được xuất bản lại trên một trang web khác được sự cho phép của tác giả nội dung gốc. Mặc dù đó là cách hợp pháp giúp bạn truyền tải nội dung của mình đến đối tượng mới, thì điều quan trọng là phải hướng dẫn cho nhà xuất bản mà bạn hợp tác để đảm bảo việc cung cấp không trở thành một vấn đề SEO.
Xem thêm : Robots.txt là gì? Mục đích và cách sử dụng Robots.txt hiệu quả
Tốt nhất là nhà xuất bản nên sử dụng thẻ canonical trong bài viết để cho biết rằng trang web của bạn là nguồn chứa nội dung nguyên bản. Một tùy chọn khác là sử dụng thẻ noindex trong nội dung được cung cấp trên website đối tác. Tốt nhất bạn nên kiểm tra bất cứ khi nào một nội dung gốc của bạn được hiển thị trên một trang web khác.
3. HTTP và các trang HTTPS
Một trong những vấn đề khiến website bị trùng lặp nội bộ phổ biến nhất là các URL HTTP và các URL HTTPS trên một trang web. Những vấn đề này phát sinh khi việc chuyển website sang HTTPS không được thực hiện chu đáo, cẩn thận. Hai tình huống thường gặp phổ biến nhất khi xảy ra việc này là:
- Một phần của trang web là HTTPS và sử dụng các URL tương đối. Thường sử dụng một trang hoặc thư mục an toàn duy nhất (các trang đăng nhập hoặc giỏ hàng) trên một trang web HTTP khác. Tuy nhiên, điều quan trọng cần lưu ý là các trang này có các liên kết nội bộ trỏ đến các URL tương đối thay vì các URL tuyệt đối:
URL tuyệt đối: https://www.link-assistant.com//rank-tracker/
URL tương đối: /rank-tracker/
Các URL tương đối không chứa thông tin giao thức, thay vào đó, nó sử dụng cùng một giao thức như trang chủ mà chúng được tìm thấy trên đó. Nếu bot tìm kiếm tìm thấy một liên kết nội bộ như thế này và quyết định theo dõi nó, nó sẽ dẫn tới một URL HTTPS. Sau đó nó có thể tiếp tục thu thập thông tin bằng cách theo dõi các liên kết nội bộ liên quan hơn và thậm chí thu thập dữ liệu toàn bộ trang web ở định dạng bảo mật, và do đó google bot sẽ lập chỉ mục 2 phiên bản nội dung hoàn toàn giống hệt nhau của các trang trên website của bạn. Trong trường hợp này, bạn nên sử dụng URL tuyệt đối thay vì URL tương đối trong các liên kết nội bộ. Nếu bạn đã có các trang HTTP và HTTPS trùng lặp trên trang web của mình, giải pháp tốt nhất là chuyển hướng vĩnh viễn các trang đến đúng phiên bản HTTP mà bạn mong muốn.
- Bạn đã chuyển toàn bộ trang web của mình sang HTTPS, nhưng phiên bản HTTP của nó vẫn có thể truy cập được. Điều này có thể xảy ra nếu có các backlink từ các trang web khác trỏ tới các trang HTTP, hoặc vì lý do một số liên kết nội bộ trên trang web của bạn vẫn chứa giao thức cũ và các trang non-HTTPS không chuyển hướng khách truy cập đến các trang HTTPS. Để tránh việc làm loãng sức mạnh liên kết và lãng phí số lần thu thập dữ liệu, hãy sử dụng chuyển hướng 301 trên tất cả các trang HTTP của bạn, và đảm bảo rằng tất cả các liên kết nội bộ trên trang web của bạn được chỉ định qua các URL mới.
4. Các trang WWW và NON-WWW
Một trong những nguyên nhân phổ biến nhất gây ra nội dung trùng lặp trên trang được viết trong sách là khi các phiên bản WWW và không phải WWW của trang web đều có thể truy cập được. Giống như HTTPS, vấn đề này thường được khắc phục bằng cách thực hiện chuyển hướng 301. Một tùy chọn tốt hơn có lẽ là chỉ định tên miền yêu thích của bạn trong Google Search Console.
5. Các URL được tạo động
Các URL được tạo động thường được sử dụng để lưu trữ một số thông tin nhất định về người dùng (chẳng hạn như ID phiên) hoặc để hiển thị một phiên bản hơi khác nhau của cùng một trang (chẳng hạn như một phiên bản đã được sắp xếp hoặc lọc các điều chỉnh). Việc này sẽ cho kết quả các URL sẽ như sau:
- URL 1: https://www.link-assistant.com//rank-tracker.html?newuser=true
- URL 2: https://www.link-assistant.com//rank-tracker.html?order=desc
Mặc dù các trang này thường chứa nội dung giống nhau (hoặc tương tự nhau), chúng đều được Google thu thập thông tin. Thông thường, các thông số động sẽ tạo ra không phải hai mà hàng chục phiên bản URL khác nhau, điều này có thể dẫn đến sự lãng phí một lượng lớn tài nguyên khi google bots thu thập dữ liệu trên trnag của bạn.
Để kiểm tra xem liệu trang web của bạn có gặp sự cố này hay không, hãy truy cập chương trình trong WebSite Auditor và nhấp vào Rebuild Project. Ở bước 1, kiểm tra hộp Bật tùy chọn chuyên gia. Bước tiếp theo, chọn Googlebot trong tùy chọn Follow robots.txt instructions for…
Sau đó, chuyển sang tab URL Parameters và bỏ chọn Ignore URL parameters.
Xem thêm : 5 yếu tố tác động tới lợi nhuận của bạn nếu bỏ qua SEO
Thiết lập này cho phép bạn thu thập thông tin trang web của mình giống như Google (theo hướng dẫn robots.txt của Googlebot) và xử lý các URL có thông số duy nhất dưới dạng các trang riêng biệt. Nhấp vào Next và tiếp tục với các bước tiếp theo như bình thường để bắt đầu thu thập thông tin. Khi WebSite Auditor hoàn tất thu thập thông tin, chuyển sang dashboard Pages và sắp xếp kết quả theo cột Pages bằng cách nhấp vào tiêu đề của trang. Điều này cho phép bạn dễ dàng phát hiện các trang trùng lặp có các tham số trong URL.
Nếu bạn tìm thấy các vấn đề như vậy trên trang web của mình, hãy đảm bảo thiết lập các lại bảng thông số trong Google Search Console. Bằng cách này, bạn sẽ cho Google biết cần bỏ qua thông số nào trong quá trình thu thập thông tin.
6. Nội dung tương tự (giống nhau)
Khi mọi người nói về sự trùng lặp nội dung, họ thường hàm ý rằng nội dung hoàn toàn giống nhau. Tuy nhiên, các nội dung rất tương đồng cũng nằm trong định nghĩa nội dung trùng lặp của Google:
“Nếu bạn có nhiều trang tương tự nhau, hãy xem xét mở rộng từng trang hoặc hợp nhất các trang vào làm một. Ví dụ, nếu bạn có một trang web về du lịch với các trang riêng biệt viết về hai thành phố nhưng có cùng một thông tin trên cả hai trang, bạn có thể hợp nhất các trang thành một viết về cả 2 thành phố hoặc bạn có thể mở rộng từng trang để chỉ chứa duy nhất nội dung về mỗi thành phố.”
Các vấn đề như vậy thường xảy ra với các trang web thương mại điện tử, có các mô tả sản phẩm cho các sản phẩm tương tự chỉ khác nhau ở một vài thông số kỹ thuật. Để giải quyết vấn đề này, hãy cố gắng đa dạng hóa các trang sản phẩm của bạn trong mọi lĩnh vực ngoài phần mô tả, đánh giá của người dùng là một giải pháp tuyệt vời. Trên các blog, các vấn đề về nội dung đồng nghĩa có thể phát sinh khi bạn lấy một đoạn nội dung cũ, thêm vào một số cập nhật và làm nó thành một bài đăng mới. Trong trường hợp này, giải pháp tốt nhất là sử dụng liên kết canonical (hay chuyển hướng 301) trên bài viết cũ.
7. Các trang dành cho việc in ấn
Nếu các trang trên website của bạn có các phiên bản dành cho việc in ấn có thể truy cập qua các URL riêng biệt, Google sẽ dễ dàng tìm ra chúng và thu thập dữ liệu các phiên bản đó thông qua các liên kết nội bộ. Rõ ràng, nội dung trên trang và phiên bản dành cho máy in sẽ giống hệt nhau – do đó một lần nữa nó sẽ làm lãng phí tài nguyên của bạn.
Nếu bạn cung cấp cho khách truy cập các trang dành cho máy in, cách tốt nhất là noindex chúng với công cụ tìm kiếm thông. Nếu tất cả chúng được lưu trữ trong một thư mục, chẳng hạn như https://www.link-assistant.com/news/print, bạn cũng có thể thêm quy tắc disallow cho toàn bộ thư mục trong file robots.txt của mình.
Tổng kết
Nội dung trùng lặp có thể là một thiệt hại to lớn cho chiến dịch SEO của bạn vì nó làm loãng sức mạnh của trang (còn gọi là sức mạnh xếp hạng) và lãng phí việc thu thập tài nguyên, làm giảm khả năng thu thập và ngăn các trang mới được thu thập thông tin và lập chỉ mục. Hãy nhớ rằng các công cụ tốt nhất để khắc phục vấn đề này đó là các thẻ canonical, chuyển hướng 301, và robots.txt, và kết hợp kiểm tra nội dung trùng lặp để cải thiện chỉ mục và thứ hạng.
Các trường hợp nội dung trùng lặp mà bạn đã thấy trên trang web của mình là gì? và bạn sử dụng các kỹ thuật nào để ngăn sự trùng lặp đó? Vietads rất mong nhận được những ý kiến và đóng góp của bạn trong phần bình luận bên dưới. Hãy chia sẻ bài viết này đến với cộng đồng giúp chúng tôi nhé. Cảm ơn vì đã đọc hết bài này. Xem thêm các kiến thức khác tại mục: Kiến thức SEO 2018
Nguồn bài viết: https://www.link-assistant.com – Author: Yauhen Khutarniuk – Biên dịch và chỉnh sửa bởi Việt Anh Trần
Trang chủ: https://vietadsonline.com
Danh mục: Kiến thức SEO
Tôi là Việt Anh Trần, người sáng lập tư duy “SEO 3 BƯỚC” và Vietadsonline là đơn vị cung cấp dịch vụ digital marketing, đã và đang chinh chiến hơn 400 dự án seo trong nước và quốc tế với nhiều lĩnh vực khác nhau.
Hiện chúng tôi là công ty cung cấp dịch vụ SEO, thiết kế web, quảng cáo và các mảng đào tạo. Phương châm làm việc của chúng tôi là: “cung cấp khoá học và dịch vụ tốt nhất cho bất kỳ ai”, cảm ơn các bạn đã đọc bài viết của tôi.