vdoc.com.vn

Kỹ thuật phát hiện website spam của Search Engine

Phân tích các thành phần đặc trưng của các web rác - spammy website, blog. Các phương pháp tối ưu lâu dài - white hat search engine optimization.

 

Bạn đã bao giờ đặt cao hỏi tại sao trang Web hay Blog của bạn không được liệt kê trong chỉ mục của Google dù bạn đã làm mọi cách để quảng bá. Rất có thể Google không thích trang Web của bạn bởi vì nó bị liệt vào một trang “rác” (spam).
Bài viết này sẽ cùng các bạn nghiên cứu đặc điểm của một trang “rác” và phương pháp phòng tránh cho máy tìm kiếm. Bạn hãy kiểm nghiệm xem trang Web của bạn có giống một trang “rác” hay không.
 
Tên miền của một trang Web rác (spammy Web)
(Domain name factors of a spammy website)

Tên miền của các trang rác thường rất dài và chứa nhiều ký tự ngăn cách. Những tên miền này thường chứa rất nhiều từ khóa có tính thương mại cao và tần suất tìm kiếm lớn.
Tên miền rác thường được đứng tên bởi một cá nhân sở hữu rất nhiều tên miền khác. Một người càng sở hữu nhiều tên miền thì chất lượng của các trang Web tương ứng với các tên miền này càng giảm sút. Tên miền rác thường có tuổi đời rất trẻ và chỉ được đăng ký trong thời hạn ngắn. Tên miền chất lượng thấp thường liên quan tới các tên miền cấp 1 dạng .info, .cc, .us hay các tên miền cấp 1 rẻ khác.
Các tên miền rác này còn chèn rất nhiều từ khóa quan trọng vào trong các tên miền thứ cấp.
 
Các nhân tố liên quan tới nội dung
(Content factors of a spammy website)

Website spam thường có rất nhiều quảng cáo. Nội dung của chúng chứa rất nhiều từ khóa có tính thương mại cao. Mật độ, tần suất từ khóa trên các trang chất lượng thấp này thường dày đặc hơn bình thường.
Các Web bẩn này thường bị trùng lặp nội dung (duplicate content) và những nội dung này thường được cóp nhặt từ các trang khác. Tất nhiên là các trang Web chất lượng thấp thì thường không có nội dung độc đáo và xác thực.
Các trang Web có tính chất spam không có điều lệ, nội qui hoạt động, qui định bản quyền hay thậm chí trang liên lạc với địa chỉ đầy đủ.
 
Đường dẫn, cấu trúc liên kết
(li< >nk factors, li< >nk structural)

Các trang web spam thường có rất nhiều liên kết đến các trang web bẩn hoặc chất lượng thấp khác. Cấu trúc liên kết và liên kết của chúng không giống như các trang web chất lượng cao. Các bạn có thể tham khảo thêm bài viết “Tối ưu nội cấu trúc website” và “Tăng cường liên kết bài viết“.
 
Yếu tố kỹ thuật
(Technical factors)

Các website bẩn thường sử dụng các phương pháp chuyển hướng (redirection) (ja< >vasc< >ript, me< >taRefresh, .htaccess…) từ các trang chính. Họ còn sử dụng nhiều trang giả dụng (page cloaking). Tất nhiên, các nhân tố spam như văn bản, ký tự ẩn (hidden text) cũng gây nhiều khó khăn cho các máy tìm kiếm.
 
Tối ưu đúng cách cho máy tìm kiếm
( White Hat Search Engine Optimization)

Nếu như website của bạn sử dụng các phương pháp nói trên thì rất có thể nó sẽ bị các máy truy tìm liệt vào spam. Trong trường hợp đó, bạn nên thiết kế lại website với các tiêu chí tối ưu để quảng bá lâu dài hơn.
Các máy tìm kiếm (search engine) sẽ quan tâm tới các trang có chất lượng cao nếu nội dung của nó độc đáo và chất lượng liên kết ngoài tốt (tức là được đề cập tới nhiều). Trong trường hợp này website của bạn sẽ được các máy tìm kiếm chỉ số hóa thường xuyên và xếp hạng cao. Để tránh các tính chất spam, bạn nên chọn các từ khóa phù hợp, tần suất và mật độ hợp lý với nội dung.
Tin khác