Xếp hạng website của google

Xếp hạng website của google

1. Phát hiện trang

Đầu tiên Google Spider (Máy tìm kiếm) thực hiện dò quét tất cả các website có trên Internet  nhằm mục đích tìm ra nội dung mới.

Với quy mô ngày càng mở rộng của mạng Internet, công việc này ngày càng tiêu tốn nhiều tài nguyên. Do đó, máy tìm kiếm sử dụng các thuật toán để quyết định xem trang web nào sẽ được dò quét, bao lâu sẽ dò quét, và độ sâu dò quét. Điều này cho phép họ tận dụng tài nguyên của mình một cách hiệu quả nhất có thể. Bài học quan trọng mà các SEOer cần phải nhớ là các máy tìm kiếm sẽ không tự động dò quét trang web của bạn trừ phi chúng có lý do để làm điều đó.

Một khi bọ tìm kiếm ghé thăm trang web của bạn, đầu tiên chúng sẽ tìm đến file robots.txt, đây cũng chính là bảng nội quy của trang web và sẽ chỉ ra những trang nào (nếu có) mà chúng không được dò quét. Bạn có thể tìm hiểu nhiều hơn về bảng nội quy đặc biệt này ở những bài học sau.

Giả sử rằng con bọ không bị chặn theo cách này, nó sẽ bắt đầu dò quét tất cả các trang web trên website của bạn. Dọc đường đi, nó sẽ lưu lại tất cả các địa chỉ tên miền vào trong một danh sách để sử dụng cho những lần dò quét sau.

Giữa dò quét và index (lưu dữ liệu) có sự khác biệt lớn. Dò quét là tìm ra các địa chỉ trang web, trong khi index là thu thập thông tin hay nội dung trong các trang web đó.

Google spider có thể phát hiện trang Web của bạn thông qua 4 cách sau:

1.1 Tạo site map (bản đồ cấu trúc website) mà bạn khai báo vào Google console

Thuật ngữ liên quan: “Crawl” căn bản có thể hiểu là đi theo một lối mòn. Trong thế giới của SEO, crawl có nghĩa là các con bọ nó sẽ đi theo các links và thu thập thông tin.

Khi các bot đến website của bạn (bất kỳ trang nào), chúng cũng lần theo tất cả các trang được liên kết trên website đó. Đây chính là lí do vì sao mọi website cần có sitemap, vì chúng có chứa tất cả các đường link trên website, giúp cho Google spider có thể dễ dàng tiếp cận với tất cả dữ liệu trên Website của bạn.

Cách mà chúng ta có thể hạn chế hoặc chặn Google crawl website đó là sử dụng file robots.txt.

1.2 Submit link

Khi bạn up bài mới lên website và muốn Google phát hiện và index bài viết của mình một cách nhanh nhất thì bạn nên chủ động khai báo trong Google console.

1.3 Link internal, external

1.3.1 Internal link 

Đây cũng là một ý tưởng hiệu quả dành cho những người làm SEO. Theo đó, bạn sẽ tận dụng những bài viết có traffic tốt và dẫn link nội bộ đến site mới cần index thông qua các từ khóa. Điều này sẽ giúp GoogleBot nhanh chóng phát hiện site mới hơn và tiến hành lập chỉ mục (index) cho nội dung này.

1.3.2 External link

Đặt liên kết từ những website khác có chủ đề liên quan, nhiều traffic

Outboard links (link bên ngoài website) cũng là một trong những yếu tố Google dùng để đánh giá website và thiết lập index. Do vậy, bạn có thể tận dụng nguồn link từ các trang web có uy tín, tuổi đời lâu và được Google đánh giá tốt để đặt liên kết về bài viết của mình. 

1.4 Quét định kỳ 3 tháng/lần

Đây là cách thụ động mà bạn không cần phải làm gì cả, vì Spider sẽ tiến hành dò quét tất cả các Website trong mạng lưới Internet định kì 3 tháng/lần. Tuy nhiên, điều này khiến cho quá trình index diễn ra rất chậm dẫn đến SEO không hiệu quả.

1.4.1 Những vấn đề mà bọ tìm kiếm thường gặp phải

Bọ tìm kiếm là các chương trình máy tính thông minh, tuy nhiên, chúng vẫn chỉ là máy móc, do đó vẫn có những hạn chế nhất định.

1.4.2 Những công nghệ Web có thể gây khó khăn cho bọ tìm kiếm

Website ngày nay sử dụng nhiều công nghệ khác nhau để nâng cao chất lượng đồng thời mang lại trải nghiệm tốt hơn cho người dùng. Tuy nhiên một số công nghệ lại gây khó khăn cho bọ tìm kiếm. Cụ thể là: Javascript, AJAX, Flash.

2. Thu thập dữ liệu

Một khi máy tìm kiếm đã dò quét trang web, chúng cần lưu tất cả những nội dung này vào cơ sở dữ liệu của mình. Tất cả những thông tin này được tổ chức lại và đặt trong tình trạng sẵn sàng cung cấp cho người dùng khi họ tìm kiếm.

2.1. Thời gian thu thập

Việc liệt kê những đường dẫn đến nội dung mà bạn có trong file sitemap và submit đến Google để giúp Google biết đến sự tồn tại những deep link, giúp Google Spider ở lại thu thập nội dung website của bạn một cách đầy đủ hơn.

Cần lưu ý rằng:

Các liên kết ngoài phải luôn có giá trị đối với người có thể tìm thấy nó, xem nó và nhấp vào nó. Nếu cố gắng tạo ra quá nhiều backlink hoặc trỏ backlink từ các trang web có nội dung không liên quan đến trang web của mình thì có thể bị gắn cờ là “gửi thư rác”.

2.2. Tốc độ thu thập

Tốc độ thu thập dữ liệu phần lớn phụ thuộc vào 2 yếu tố chính là Server và Source code

Xây dựng website có cấu trúc code chuẩn

Server phản hồi chậm, Source code dài không cần thiết, khiến cho tốc độ load trang chậm. Trong khi Google spider chỉ dừng tại mỗi website trong một khoảng thời gian ngắn nhất định và thoát khỏi trong đúng thời gian đó dù có index được nội dung hay không. Do đó, nếu web có tốc độ load quá chậm, chúng sẽ không chờ đợi được và không thể index được gì. 

→ Cần tối ưu website theo một cấu trúc chuẩn SEO. Cải thiện tốc độ tải trang cũng giúp Google spider thu thập được nhiều dữ liệu hơn.Ta có thể cài đặt Schema pro, được gắn vào Website để giúp công cụ tìm kiếm dễ dàng nhận biết, phân loại và trả về kết quả nhanh chóng, chính xác hơn. Đọc thêm cách thức cài đặt và sử dụng Schema pro ở bài viết Hướng dẫn sử dụng và cài đặt Schema pro.

2.3 Tần suất thu thập dữ liệu

Việc tạo nội dung mới trên website một cách thường xuyên và đều đặn hơn giúp cho website đó được công cụ Google bot thu thập dữ liệu thường xuyên hơn. Lưu ý rằng cần đăng tải những bài viết mới mỗi ngày và trong một khung giờ cố định để tạo ra một lịch trình index dữ liệu cho google spider.

2.4 Ưu tiên thu thập thư mục quan trọng (html)

Dữ liệu mà google spider đọc được sẽ là dạng ký tự HTML (HyperText Markup Language – Ngôn ngữ đánh dấu siêu văn bản (Theo Wiki) ) tức là những đoạn mã hiển thị dạng ký tự mà cấu tạo nên Website. Khi thu thập dữ liệu HTML này, robots sẽ bóc tách nội dung của Page ra và sau đó chúng sẽ loại bỏ những cú pháp của ngôn ngữ HTML, giữ lại những đoạn là nội dung dạng TEXT. Và từ đây chúng bóc tách tiếp để xem số lượng từ, mật độ từ khóa (keyword density).

2.5 Chặn những thư mục không cần thiết

Ngăn chặn máy tìm kiếm vào một số thư mục không quan trọng và dư thừa trong website sẽ giúp nó dễ dàng xác định và thu thập những dữ liệu quan trọng cần thu thập. Dùng thẻ noindex, canonical, điều hướng 301, 302, 307.

3. Lập chỉ mục

3.1. Cơ sở dữ liệu web (Web index) là gì?

Về cơ bản, web index là cơ sở dữ liệu lưu trữ các trang web. Các máy tìm kiếm sử dụng hàng nghìn máy chủ đặt khắp nơi trên thế giới để lưu trữ nhiều tỉ trang web trong CSDL của mình. Việc này đảm bảo người tìm kiếm nhận được kết quả gần như ngay lập tức sau khi họ nhấn nút Enter.

3.2. Lấy thông tin

Khi một người dùng tìm kiếm với một từ khóa, thực tế họ không tìm kiếm trên thế giới web. Họ đang tìm kiếm trên cơ sở dữ liệu của các máy tìm kiếm. Các máy tìm kiếm sẽ vào cơ sở dữ liệu của mình và lấy ra các trang web cùng chủ đề. Cụ thể đó là những trang web có chứa từ tìm kiếm hoặc chứa những từ liên quan. Từ đây rút ra được, để tăng độ liên quan của trang web đến từ khóa bạn muốn hướng tới, bạn cần biết chèn từ khóa một cách hợp lý ở những vị trí quan trọng. Bên cạnh đó, cũng không được quên những từ liên quan.

Làm thế nào máy tìm kiếm biết được nội dung trang web có liên quan đến từ khóa đang được tìm kiếm 

3.2.1 Thông qua tổ hợp các từ khóa 

Máy tìm kiếm tìm xem trong nội dung của trang web có chứa từ khóa đang được tìm kiếm hay không?

Nếu người lên Google tìm kiếm với từ bóng đá:

Nội dung A: Bóng đá là môn thể thao tập thể, gồm 2 đội thi đấu đối kháng với nhau. Mỗi đội có 11 vận động viên. Trong đó có 1 thủ môn, có quyền chơi bóng bằng tay và được bảo vệ trong vòng cấm địa. Trận đấu được điều khiển bởi 3 trọng tài trong đó có 1 trọng tài chính, 2 trợ lý trọng tài…

Nội dung B: Với kỹ thuật điêu luyện và khả năng đọc trận đấu cực tốt, Messi đã góp công lớn trong kỳ tích 3 chức vô địch La Liga liên tiếp của Barca. Cũng nhờ điều này mà anh đã 4 năm liền được bầu chọn là cầu thủ hay nhất thế giới.

Tóm lại: vì nội dung A chứa từ bóng đá trong khi nội dung B không có mặc dù cũng nói về chủ đề bóng đá, máy tìm kiếm dễ dàng xác định nội dung A liên quan hơn, và từ đó trả về cho người tìm kiếm.

3.2.2 Tần suất xuất hiện * tần số nghịch của từ trong văn bản

(Term Frequency*Inverse Document Frequency)

     Tần số xuất hiện là số lần xuất hiện của từ khóa trong văn bản.

Tần số nghịch là tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Về căn bản, những từ được sử dụng phổ biến hơn sẽ có trọng số thấp hơn.

Ví dụ khi bạn tìm kiếm với cụm từ “bóng đá Messi”

Nội dung A: Bóng đá là môn thể thao vua, với hàng tỉ người hâm mộ trên toàn thế giới. Các giải bóng đá hàng đầu thế giới có thể kể đến như Ngoại Hạng Anh, Bundesliga Đức hay La Liga Tây Ban Nha.

Nội dung B: Trên thị trường chuyển nhượng, hiện Messi là cầu thủ được định giá cao nhất và được rất nhiều câu lạc bộ lớn săn đón. Dù vậy, đội bóng chủ quản của Messi, CLB Barca chưa bao giờ và khả năng sẽ không bao giờ bán ngôi sao lớn này của họ.

Với phương pháp TF*IDF: vì từ “Messi” ít phổ biến hơn “bóng đá” nên IDF của “Messi” cao hơn. Với cùng một tỷ lệ TF, thì rõ ràng nội dung B liên quan đến cụm từ truy vấn hơn nội dung A. Và do đó, máy tìm kiếm sẽ trả về nội dung B cho người dùng.

Máy tìm kiếm sử dụng IDF. Ví dụ, khi người dùng gửi một truy vấn đến máy tìm kiếm, hệ thống cần biết từ nào là từ người dùng quan tâm nhất. Chẳng hạn: truy vấn của người dùng là “làm thế nào để sửa máy ủi”. Sau khi tách từ, chúng ta sẽ có 5 từ đơn như sau: làm, thế nào, để, sửa, máy ủi. Trong các từ này, “máy ủi” sẽ có IDF cao nhất. Hệ thống sẽ lấy ra tất cả các nội dung có chứa từ máy ủi và sau đó sẽ thực hiện việc đánh giá và so sánh dựa trên các từ còn lại trong câu truy vấn.

Kết quả sẽ xác định tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này, và xuất hiện ít trong các văn bản khác. Với máy tìm kiếm đây là những từ có giá trị cao hơn. Việc này giúp lọc ra những từ phổ biến và giữ lại những từ có giá trị cao (từ khoá của văn bản đó).

3.2.3 Những từ liên quan (Co-occurrence)

Ví dụ, cụm từ tìm kiếm: “tôn ngộ không”

Nội dung A: Tôn Ngộ Không còn gọi là Tề Thiên Đại Thánh hay Tề Thiên, là nhân vật chính trong tiểu thuyết Tây du ký, nhân vật giả tưởng có thể được xem là nổi tiếng nhất trong văn học Trung Hoa.

Nội dung B: Theo truyền thuyết, Tôn Ngộ Không sinh ra từ một hòn đá và đã học được 72 phép biến hóa (gấp hai lần số phép của Trư Bát Giới).

Vì cụm từ “tôn ngộ không” thường được sử dụng với “tây du ký” nên nội dung A liên quan đến cụm từ cần tìm kiếm hơn nội dung B. Do vậy, nó có thứ hạng cao hơn.

3.4 Caching

Để sử dụng hiệu quả nguồn tài nguyên của mình, các máy tìm kiếm sẽ tiến hàng copy nội dung trang web của bạn về máy chủ của họ để dùng cho việc đánh giá thứ hạng. Những bản copy nội dung trang web này được gọi là bản cache. Vì nội dung trang web thường được cập nhật trên máy tìm kiếm thường phải quay trở lại để copy nội dung. Tần suất có thể là từ vài tiếng/1 lần đến vài ngày/1 lần hoặc thậm chí lâu hơn. Điều này có nghĩa nội dung của bản cache có thể khác biệt với nội dung hiện tại của trang web.

Điều này sẽ lý giải thực tế vì sao: thứ hạng của website không thay đổi mặc dù bạn đã tiến hành tối ưu nó. Thực tế, máy tìm kiếm vẫn đánh giá website dựa trên bản cache cũ, chỉ đến khi nó download nội dung mới – hay tạo bản cache mới thì thứ hạng website của bạn mới thay đổi. Ví dụ, khi bạn bổ sung thêm nội dung để nhắm đến những từ khóa khác, bạn không thể ngay lập tức thấy sự cải thiện về thứ hạng cho đến khi máy tìm kiếm ghé thăm website của bạn lần tới, thấy được nội dung mới và lưu những nội dung này vào bản cache mới của trang web.

Cách kiểm tra bản cache của trang web

Nếu bạn dùng Google Chrome, bạn có thể dùng lệnh sau:

cache:vnexpress.net

Khi tìm kiếm, bạn sẽ thấy bản cache đã được Google lưu của trang web này.

Bạn cũng có thể kiểm tra phiên bản chỉ chứa text hay chữ, phiên bản Google nhìn thấy. Việc này sẽ giúp bạn biết thực tế Google có thể thấy những gì trên trang web của bạn.

3.5 Các trang không nên lập chỉ mục và đảm bảo chúng không được lập chỉ mục

Có một số trang bạn không muốn Google hoặc các công cụ tìm kiếm khác lập chỉ mục. Dưới đây là những trang bạn không muốn hiển thị trong tìm kiếm:

Trang cảm ơn: Đây thường là những trang mà ai đó truy cập sau khi đăng ký danh sách gửi thư của bạn hoặc tải xuống ebook. Nếu các trang này được lập chỉ mục, bạn có thể bị mất khách hàng tiềm năng điền vào biểu mẫu của bạn.

Nội dung trùng lặp: Nếu bất kỳ trang nào trên trang web của bạn có nội dung trùng lặp hoặc thay đổi một chút, như trang bạn đang thực hiện kiểm tra A / B, bạn không muốn lập chỉ mục đó.

Ví dụ, giả sử rằng bạn đã có hai trang có cùng nội dung trên trang web của mình. Có thể đó là vì bạn đã thử nghiệm các tính năng trực quan của thiết kế, nhưng nội dung của hai trang này hoàn toàn giống nhau.

Nội dung trùng lặp, như bạn có thể biết, có khả năng là một vấn đề cho SEO. Vì vậy, một giải pháp là sử dụng tệp robot.txt của bạn để hướng dẫn các công cụ tìm kiếm bỏ qua một trong số chúng.Hướng dẫn cách sử dụng robot.txt chi tiết, bạn có thể xem tại bài viết “Robot.txt”

4. Check

4.1. Hình phạt của Google

4.1.1 Google panda:

Google Panda là thuật toán đánh giá chất lượng nội dung trang web để xếp hạng tìm kiếm. Panda sẽ quét nội dung xem phù hợp nguyên tắc quản trị chất lượng không, nếu không sẽ hạ toàn bộ web đó xuống.

Mục tiêu mà Google Panda nhắm tới để quét:

  • Trùng lặp nội dung: Nhiều URL có tiêu đề, mô tả giống nhau. Nhiều Page giống hệt nhau.
  • Tỷ lệ bounce rate cao: Tỷ lệ thoát của web trên 95% – Chất lượng web kém sẽ bị phạt.
  • Nội dung sơ sài: Nội dung cung cấp quá kém, không rõ nghĩa và cho người xem cái họ cần.

Cách khắc phục Google Panda:

  • Viết lại Tiêu đề và Mô tả ngắn cho phù hợp, mỗi URL cần có mô tả riêng biệt có nghĩa.
  • Tăng liên kết Internal link để giảm tỷ lệ thoát trang.
  • Cập nhật nội dung cho phù hợp hơn với người đọc. Chờ Google làm việc lại là xong.

4.1.2 Google penguin:

Google Penguin là thuật toán đánh giá link liên kết trỏ về một website – đánh giá backlink chất lượng hay không, có thực tế hay không. Xem xét web mua bán backlink hoặc các liên kết giả qua mạng web vệ tinh (kém chất lượng) để tăng thứ hạng tìm kiếm trên Google.

Mục tiêu của Google Penguin là các đánh tụt hạng website mua bán backlink số lượng lớn, nhận các liên kết ảo từ những web trong blacklist của Google. Penguin rất khó gỡ, dính nó rất đau đầu.

Cách khắc phục Google Penguin:

Cách duy nhất là bỏ spam backlink, dùng Google Disavow để loại bỏ domain bạn nghi là nguyên nhân dính Penguin. Tạm thời ngừng đi backlink, thêm nhiều nội dung, bài viết mới chất lượng cho web.

4.2. Các yếu tố tối ưu

4.2.1 Cấu trúc web Schema pro

4.2.2 Entity (Xác định thực thể)

Entity là một thực thể hội tụ đủ 4 yếu tố: đơn lẻ, duy nhất, có thể xác định và phân biệt được. Nó có thể là một cá nhân, sự vật, sự việc, địa điểm, tính từ, … Entity Building luôn được xem là một trong những yếu tố quan trọng quyết định thứ hạng của Website trên các công cụ tìm kiếm. Cụ thể, Entity là gì trong SEO Onpage giúp mô tả chi tiết dữ liệu. Và nó đơn giản hóa thông tin để Google dễ dàng hiểu được Website của bạn. Từ đó, dễ dàng giúp bạn xây dựng thương hiệu độc nhất, uy tín trong mắt Google.

– Traffic: minh họa cho lưu lượng truy cập của một website bất kỳ nào đó. Mục tiêu là để người đọc biết được số lượng các lần truy cập của người dùng vào website.

4.2.3 Chuẩn content

Có thể xem đây là yếu tố xếp hạng từ khóa quan trọng bậc nhật trong kỹ thuật seo website. “Content is king” là một câu khẩu hiệu chắc hẳn bạn sẽ thường xuyên gặp khi làm SEO. Nội dung website được biên soạn tốt thì cơ hội bạn được đứng TOP Google rất cao. Với nội dung chất thì website của bạn sẽ có một thứ hạng tìm kiếm ổn định mà không cần phải áp dụng quá nhiều thủ thuật SEO. Ngược lại, nếu nội dung nghèo nàn, copy và không có nghĩa với người dùng thì sớm muộn Google cũng cho website đó “ra đảo”. 

4.2.4 Tốc độ load trang

Tốc độ load trang là một yếu tố ảnh hưởng lớn tới trải nghiệm người dùng. Do đó, nó được máy tìm kiếm đo lường và dùng làm tiêu chí để index một website.

4.2.5 Sitemap

Sitemap là bản đồ của website giúp trình thu thập công cụ tìm kiếm hiểu và điều hướng trang web tốt hơn. Theo nghĩa kỹ thuật đó là một tệp liệt kê các trang và các tệp khác trên website của bạn và mối quan hệ giữa chúng.

Công cụ tìm kiếm sử dụng tệp Sitemap này để thu thập dữ liệu trang web của bạn thông minh hơn. Nó giúp họ thu thập dữ liệu và lập chỉ mục các trang web của bạn theo cách tốt hơn.

4.2.6 Traffic

Traffic là yếu tố chiếm khoảng 30% ảnh hướng đến xếp hạng từ khóa website của Google. Với 1 lượng traffic khủng như vnexpress, 24h hay dantri thì chỉ cần viết bài là sẽ lên TOP mà chả việc gì phải SEO.

4.2.7 Backlink

Liên kết là yếu tố ảnh hưởng trực tiếp đến số lượng cũng như thời gian index dữ liệu. Đây chính là con đường dẫn lối cho các con bọ tìm kiếm đến với website bạn trong quá trình thu thập dữ liệu. Một backlink trỏ về website được xem là 1 phiếu bầu để thăng hạng từ khóa lên kết quả xếp hạng tìm kiếm của google.

5. Xếp hạng

Đây là sơ đồ mô tả những sự kiện sẽ diễn ra khi bạn thực hiện tìm kiếm trên Google:

Về cơ bản, sau khi nhận được truy vấn tìm kiếm, máy chủ sẽ xác định nội dung chính của truy vấn này. Và sau đó lọc ra danh sách tất cả những trang web có chung chủ đề. Sau đó máy tìm kiếm đánh giá dựa trên những trang web đó, và xếp trang web phù hợp nhất với cụm từ tìm kiếm ở vị trí đầu tiên, cũng như các vị trí tiếp theo.

Qua thời gian, máy tìm kiếm dần trở nên thông minh hơn. Chúng bắt đầu học hỏi từ hành vi của người dùng để nâng cao chất lượng tìm kiếm. Ví dụ, chúng có thể đo lường khoảng thời gian kể từ khi một người dời khỏi bảng kết quả tìm kiếm để ghé thăm một website đến khi họ nhấn nút Back để quay trở lại chính bảng kết quả đó. Khoảng thời gian này sẽ ngắn khi website có nội dung hoặc hình thức không tốt và không đáp ứng được mong muốn của người dùng. Nếu việc này xảy ra lặp đi lặp lại, website đó sẽ bị mất thứ hạng.

Kết quả tìm kiếm được cá nhân hóa

Như các bạn đã biết, các máy tìm kiếm thường thu thập dữ liệu về hành vi người dùng để xem người dùng có hài lòng với bảng kết quả tìm kiếm không. Điều này không chỉ giúp tăng chất lượng bảng kết quả mà còn sinh ra một thực tế rằng: Dù tìm kiếm với cùng một từ khóa, mỗi cá nhân sẽ nhận được một bảng kết quả khác nhau. Điều này là do mỗi người có một lịch sử tìm kiếm cũng như hành vi tìm kiếm khác nhau.