Trong google search, ký tự “|” dùng để

Google Tìm kiếm là một công cụ tìm kiếm hoàn toàn tự động, sử dụng những phần mềm được gọi là trình thu thập dữ liệu web có chức năng thường xuyên khám phá trên web nhằm tìm các trang để thêm vào chỉ mục của chúng tôi. Trên thực tế, rất ít trang xuất hiện trong các kết quả tìm kiếm của chúng tôi được gửi theo cách thủ công. Phần lớn các trang được tự động tìm thấy và thêm vào kết quả khi trình thu thập dữ liệu web của chúng tôi thu thập dữ liệu trên web. Tài liệu này giải thích các giai đoạn trong cách thức hoạt động của Tìm kiếm cho bối cảnh trang web của bạn. Khi nắm được kiến thức cơ sở này, bạn có thể khắc phục các vấn đề về quá trình thu thập dữ liệu, lập chỉ mục các trang và tìm hiểu cách tối ưu hoá trang web trên Google Tìm kiếm.

Bạn tìm kiếm nội dung ít mang tính kỹ thuật hơn? Hãy tham khảo trang web Cách thức hoạt động của Tìm kiếm nơi giải thích cách thức hoạt động của Tìm kiếm qua góc nhìn của một người tìm kiếm.

Một vài lưu ý trước khi bắt đầu

Trước khi đi sâu vào cách thức hoạt động của Tìm kiếm, bạn cần lưu ý rằng Google không nhận tiền để thu thập dữ liệu thường xuyên hơn hay tăng thứ hạng cao hơn cho trang web. Nếu ai đó nói khác thì họ đã nhầm.

Google không đảm bảo sẽ thu thập dữ liệu, lập chỉ mục hoặc phân phát trang của bạn, ngay cả khi trang của bạn tuân thủ nguyên tắc và chính sách của Google cho chủ sở hữu trang web.

Giới thiệu ba giai đoạn của Google Tìm kiếm

Google Tìm kiếm hoạt động theo ba giai đoạn và không phải tất cả các trang đều vượt qua được mỗi giai đoạn:

  1. Thu thập dữ liệu: Google dùng các chương trình tự động gọi là trình thu thập dữ liệu để tải văn bản, hình ảnh và video trên các trang mà chúng tôi tìm thấy trên Internet.
  2. Lập chỉ mục: Google phân tích các tệp văn bản, hình ảnh và video trên trang rồi lưu trữ thông tin trong chỉ mục của Google, một cơ sở dữ liệu lớn.
  3. Phân phát kết quả tìm kiếm: Khi người dùng tìm kiếm trên Google, Google sẽ trả về thông tin liên quan đến cụm từ mà người dùng tìm kiếm.

Thu thập dữ liệu

Giai đoạn đầu tiên là tìm những trang tồn tại trên web. Do không tồn tại một danh mục trung tâm về mọi trang web, Google phải liên tục tìm những trang mới và mới cập nhập, rồi thêm những trang đó vào danh sách các trang đã biết. Quá trình này gọi là "Phát hiện URL". Google biết đến một số trang vì chúng tôi từng truy cập những trang đó. Google tìm thấy các trang khác khi đi theo đường liên kết từ một trang đã biết đến một trang mới, ví dụ: một trang trung tâm [chẳng hạn như trang danh mục], đường liên kết đến một bài đăng mới trên blog. Ngoài ra, chúng tôi cũng phát hiện một số trang khác khi bạn gửi danh sách các trang [sơ đồ trang web] để Google thu thập dữ liệu.

Khi phát hiện ra URL của một trang, Google có thể truy cập [hoặc "thu thập dữ liệu"] trang đó để tìm hiểu nội dung trên trang. Chúng tôi sử dụng một số lượng lớn máy tính để thu thập dữ liệu hàng tỷ trang trên web. Chương trình thực hiện việc tìm nạp được gọi là Googlebot [còn gọi là robot, bot hay trình thu thập dữ liệu]. Googlebot sử dụng một quy trình dựa trên thuật toán để xác định những trang web cần thu thập dữ liệu, tần suất thu thập và số trang cần tìm nạp trên từng trang web. Trình thu thập dữ liệu của Google cũng được lập trình để cố gắng không thu thập dữ liệu quá nhanh trên trang web để tránh làm quá tải trang web. Cơ chế này dựa trên phản hồi của trang web [ví dụ: lỗi HTTP 500 tức là "chậm lại"] và chế độ cài đặt trong Search Console.

Tuy nhiên, Googlebot không thu thập dữ liệu tất cả các trang mà Googlebot phát hiện được. Một số trang có thể không được chủ sở hữu trang web cho phép thu thập dữ liệu, có thể Google không truy cập được các trang khác nếu không đăng nhập vào trang web đó và có thể các trang khác trùng lặp với trang đã được thu thập dữ liệu trước đó. Ví dụ: nhiều trang web có thể truy cập được thông qua phiên bản www [www.example.com] và không có www [example.com] của tên miền, mặc dù nội dung trong cả hai phiên bản đều giống nhau.

Trong quá trình thu thập dữ liệu, Google kết xuất trang và chạy mọi JavaScript mà Google tìm thấy bằng cách sử dụng một phiên bản Chrome gần đây, tương tự như cách trình duyệt của bạn kết xuất các trang mà bạn truy cập. Quá trình kết xuất nội dung đóng vai trò quan trọng vì các trang web thường dựa vào JavaScript để đưa nội dung vào trang. Nếu trang chưa kết xuất nội dung thì có thể Google sẽ không thấy nội dung đó.

Khả năng thu thập dữ liệu phụ thuộc vào việc trình thu thập dữ liệu của Google có thể truy cập trang web hay không. Một số vấn đề thường gặp khi Googlebot truy cập các trang web bao gồm:

Lập chỉ mục

Sau khi thu thập dữ liệu trên một trang, Google sẽ cố gắng tìm hiểu nội dung của trang đó. Giai đoạn này gọi là lập chỉ mục và bao gồm cả hoạt động xử lý và phân tích nội dung văn bản cũng như thẻ và thuộc tính chính của nội dung, chẳng hạn như phần tử và thuộc tính alt, hình ảnh, video, v.v.

Trong quá trình lập chỉ mục, Google xác định xem một trang có phải là trang trùng lặp của một trang khác trên Internet hay trang chính tắc không. Trang chính tắc là trang có thể xuất hiện trong kết quả tìm kiếm. Để chọn trang chính tắc, trước tiên chúng tôi sẽ nhóm các trang có nội dung tương tự mà chúng tôi tìm thấy trên Internet rồi chọn trang thích hợp nhất cho nhóm. Các trang khác trong nhóm là các phiên bản thay thế có thể được phân phát trong nhiều ngữ cảnh, như khi người dùng đang tìm kiếm trên thiết bị di động hoặc đang tìm một trang rất cụ thể trong nhóm đó.

Google cũng thu thập các tín hiệu về trang chính tắc và nội dung của trang đó [có thể dùng trong giai đoạn tiếp theo] để phân phát trang trong kết quả tìm kiếm. Có một số tín hiệu bao gồm cả ngôn ngữ của trang, quốc gia bản địa của nội dung, khả năng hữu dụng của trang, v.v.

Thông tin được thu thập về trang chính tắc và cụm của trang đó có thể được lưu trữ trong chỉ mục của Google, một cơ sở dữ liệu lớn được lưu trữ trên hàng nghìn máy tính. Google không đảm bảo hoạt động lập chỉ mục; không phải mọi trang mà Google xử lý đều sẽ được lập chỉ mục.

Hoạt động lập chỉ mục cũng phụ thuộc vào nội dung và siêu dữ liệu của trang. Một số vấn đề thường gặp khi lập chỉ mục có thể bao gồm:

Phân phát kết quả tìm kiếm

Google không nhận tiền để tăng thứ hạng của trang. Việc xếp hạng là do thuật toán thực hiện.

Khi người dùng nhập một cụm từ tìm kiếm, công cụ tìm kiếm của chúng tôi sẽ tìm kiếm các trang thích hợp trong chỉ mục và trả về kết quả mà chúng tôi cho là có chất lượng cao nhất và phù hợp nhất cho người dùng. Mức độ phù hợp được xác định dựa trên hàng trăm yếu tố, có thể bao gồm cả thông tin về vị trí, ngôn ngữ và thiết bị của người dùng [máy tính hoặc điện thoại]. Ví dụ: khi tìm kiếm cùng một cụm từ là "cửa hàng sửa xe đạp", người dùng ở Paris và người dùng ở Hong Kong sẽ nhận được những kết quả khác nhau.

Search Console có thể cho bạn biết rằng một trang đã được lập chỉ mục nhưng bạn lại không thấy trang đó trên kết quả tìm kiếm. Điều này có thể là do:

Hướng dẫn này giải thích cách thức hoạt động của Tìm kiếm, nhưng chúng tôi luôn không ngừng nỗ lực cải thiện thuật toán của mình. Bạn có thể theo dõi những thay đổi này bằng cách theo dõi blog của Trung tâm Google Tìm kiếm.

Mỗi khi bạn cần tìm kiếm thông tin thì chắc hẳn tìm kiếm Google [Google Search] là công cụ đắc lực nhất mà ai cũng nghĩ đến đầu tiên. Tuy nhiên, không phải khi nào kết quả hiển thị cũng trả lời đúng vấn đề bạn cần tìm. 

Hybrid Technologies sẽ tổng hợp một số thủ thuật tìm kiếm Google hiệu quả giúp bạn, khám phá ngay nào!

Bạn có thể sử dụng dấu * thay cho những gì bạn không nhớ hoặc chắc chắn. Thủ thuật này rất hữu ích nếu chẳng hạn như bạn không nhớ rõ tên cuốn sách mà bạn muốn tìm mà chỉ nhớ 1 vài từ đầu hoặc từ cuối, thì bạn có thể thay thế nó bằng dấu *.

VD: Muốn search cuốn sách Cơ Sở Dữ Liệu Quan Hệ & Ứng Dụng mà không nhớ một vài từ thì sẽ search: Cơ Sở **** Ứng Dụng.

Thông thường nếu như bạn search với từ khóa bình thường thì google sẽ trả về cho bạn tất cả những gì liên quan đến từ khóa bạn tìm mà không phân biệt theo thứ tự hay ngữ nghĩa của cụm từ. Ví dụ như bạn tìm từ “lập trình PHP” thì nó sẽ trả về theo kiểu PHP là gì, giới thiệu về lập trình PHP,… mà không tập trung chính xác đến cả cụm từ của bạn.

Lúc này bạn muốn Google Search tập trung đến cả cụm từ bạn cần tìm kiếm thì bạn chỉ cần đặt nó trong cặp dấu ngoặc kép “” mà thôi.

Đôi khi bạn muốn tìm kiếm một từ khóa nào đó nhưng với điều kiện phải nằm trên một trang web bạn xác định. Lúc này bạn chỉ cần thêm cụm từ site: vào phía trước từ khóa bạn muốn tìm kiếm thì google sẽ hiểu và trả về cho bạn tất cả những gì liên quan đến từ khóa bạn cần tìm của trang web đó.

VD: Cần tìm tất cả các bài về Python trên trang //jobs.hybrid-technologies.vn/blogs/ thì sẽ search như sau: site: jobs.hybrid-technologies.vn/blogs/ Python

Bạn có thể tìm kiếm những trang web có cùng thể loại với một trang web mà bạn biết bằng cú pháp related: website_url

VD: Muốn tìm một site có cùng thể loại với site Shopee [thương mại điện tử] chẳng hạn thì mình sẽ search với từ khóa như sau: related: shopee.vn

Ví dụ bạn muốn tìm kiếm và tải xuống một bộ phim nào đó trên google thì bạn chỉ cần search với cú pháp: index of ten_phim. 

Hoặc nếu không tìm thấy thì bạn có thể thử lại với cú pháp: 

ten_phim -inurl:[htm|html|php|pls|txt] intitle:index.of “last modified” [mp4|wma|aac|avi] .

Trong đó ten_phim chính là tên phim mà bạn muốn tìm.

VD: Muốn tìm kiếm phim Joker 2019 chẳng hạn, bạn sẽ search như sau: index of joker 2019

Để tìm kiếm một cuốn ebook nào đó trên google thì bạn có thể sử dụng 1 trong 2 cú pháp sau:

-inurl:htm -inurl:html intitle:”index of” +[“/ebooks”|”/book”] +[chm|pdf|zip] +” ten_sach

Hoặc

-inurl:htm -inurl:html intitle:“index of” +[“/ebooks”|”/book”] +[chm|pdf|zip| *epub* ] +” ten_sach”

Trong đó: ten_sach là tên cuốn ebook mà bạn muốn tìm.

VD: Muốn tìm cuốn “Clean Code” thì bạn sẽ searh như sau:

-inurl:htm -inurl:html intitle:”index of” +[“/ebooks”|”/book”] +[chm|pdf|zip] +” clean code”

Hy vọng với những chia sẻ trên đây có thể giúp các bạn tiết kiệm thời gian và hiệu quả hơn trong công cuộc tìm kiếm. Hybrid Technologies sẽ liên tục cập nhật những thủ thuật hay gửi đến các bạn, cùng comment đóng góp ý kiến với chúng mình nhé! 

Video liên quan

Chủ Đề