Công cụ tìm kiếm – Search engine

Công cụ tìm kiếm là một công cụ tìm kiếm trên Web các trang web có liên quan đến các truy vấn trong thời gian thực do người dùng nhập. Tùy thuộc vào chuỗi tìm kiếm, các công cụ tìm kiếm trả về kết quả, được gọi là trang kết quả của công cụ tìm kiếm (SERPs). Thông thường các động cơ làm đúng và hiển thị kết quả phù hợp nhất. Không có quy tắc cố định nào được các công cụ tìm kiếm sử dụng để hiển thị kết quả chính xác.

Công cụ tìm kiếm là gì

Trình thu thập thông tin hoặc trình thu thập thông tin là rô bốt tìm kiếm và lập chỉ mục nội dung trang web. Nhiều nhất các công cụ tìm kiếm phổ biến là Google, Yahoo !, và Bing. Công cụ tìm kiếm có thể xác định các trang web có liên quan nhất bởi vì các công ty đã phát triển các thuật toán cho quá trình tìm kiếm. Ngày nay, xây dựng liên kết chất lượng, nội dung mới và trực quan, và điều hướng được sắp xếp hợp lý là yếu tố cốt lõi xác định trang web nào được ưu tiên đầu kết quả tìm kiếm. Có các yếu tố khác, chẳng hạn như mức độ phổ biến của trang web, mức độ liên quan của nội dung và việc sử dụng các phương tiện tương tác, mặc dù logic chính xác được sử dụng để thu được kết quả là bí mật kinh doanh. SEO đang hướng tới trải nghiệm người dùng (UX) mô hình và các công cụ tìm kiếm không ngừng phát triển và ngày càng thông minh hơn.

Các bài viết liên quan:

Sự phát triển của Công cụ Tìm kiếm

 Khái niệm về một công cụ tìm kiếm đã được đặt ra từ rất lâu trước đây. Năm 1990, công cụ tìm kiếm đầu tiên đã được phát hành. Những người sáng lập đặt tên cho nó là Archie (kho lưu trữ không có chữ v). Năm tiếp theo, Veronica và Jughead đã được thả. Năm 1993 chứng kiến ​​sự ra mắt của Excite và World Wide Web Giang hồ. Trong cùng năm, Aliweb và Tìm kiếm Web Nguyên thủy đã được ra mắt. Infoseek là một liên doanh mà các quản trị viên web có thể gửi các trang của họ trong một kịch bản thời gian thực.

Tuy nhiên, người thay đổi cuộc chơi là AltaVista: nó là công cụ đầu tiên không giới hạn băng thông và có thể hiểu các truy vấn ngôn ngữ tự nhiên. Những năm tiếp theo chứng kiến ra mắt WebCrawler, Yahoo! Thư mục Web, Lycos, LookSmart và Inktomi.

 Những người sáng lập Google, Larry Page và Sergey Brin đã tạo ra công cụ tìm kiếm BackRub, trong đó tập trung vào các liên kết ngược. Không giống như các công cụ tìm kiếm khác, tập trung vào từ khóa mức độ liên quan, thuật toán Xếp hạng trang trong BackRub đã sử dụng các liên kết ngược để xác định thứ hạng trong kết quả tìm kiếm. Sau đó, Page và Brin đã đổi tên công cụ tìm kiếm thành Google và mở đường cho cuộc cách mạng công cụ tìm kiếm.

 Năm 1997, công cụ tìm kiếm Ask Jeeves được khởi chạy; không giống như Google, nó sử dụng con người trình soạn thảo để phân tích và sắp xếp các truy vấn tìm kiếm. Tuy nhiên, nó phụ thuộc vào nguyên tắc từ khóa mức độ liên quan, và hoạt động kinh doanh của nó đã được thay đổi từ một công cụ tìm kiếm web thành một trang web câu hỏi và câu hỏi vào năm 2010. Yahoo! Tìm kiếm phụ thuộc vào Inktomi, một công cụ tìm kiếm OEM, cho đến năm 2002.

Sau khi mua lại các tiện ích tìm kiếm khác như AltaVista và Overture, Yahoo! phát triển nó công cụ dựa trên mạng nhện riêng. MSN, một cổng web do Microsoft tạo ra, đã khởi chạy MSN Tìm kiếm vào năm 1999. Nó phát triển thành Tìm kiếm trực tiếp và sau đó được đổi tên thành Bing. Hình 2-1 cho thấy dòng thời gian và các công cụ tìm kiếm ra mắt từ năm 1990 đến nay.

Google, với các kết quả có độ chính xác cao, hiện là tìm kiếm được tìm kiếm nhiều nhất và được đại đa số người dùng ưa thích, so với Bing và Yahoo !.

Khả năng tìm kiếm sáng tạo và khả năng thâm nhập thị trường của Google khiến Google trở thành công ty dẫn đầu trong ngành công cụ tìm kiếm.

Xem thêm 10 sai lầm kỹ thuật SEO

Tại thời điểm viết bài, bạn có thể tìm thấy số liệu thống kê cho thị phần ròng của nhiều công cụ tìm kiếm trên cả nền tảng máy tính để bàn và di động tại www.netmarketshare.com/

search-engine-market-share.aspx? qprid = 4.

(Lưu ý rằng không thể xác định được kết quả chính xác, bởi vì sự phát triển của công cụ tìm kiếm, sự đổi mới, nhận thức của người dùng và giao thức thay đổi hàng ngày. Do đó, những thống kê này là gần đúng.) Bạn có thể lọc kết quả dựa trên trình duyệt, hệ điều hành và loại thiết bị. Ví dụ, Hình 2-2 hiển thị số liệu thống kê về thị phần ròng của thiết bị để bàn. Bạn có thể thấy rõ tác động của Google: nó là công cụ tìm kiếm được lựa chọn trên các thiết bị máy tính để bàn, mặc dù khác công cụ tìm kiếm đang đạt được vị thế.

Hình 2-2. Thị phần công cụ tìm kiếm trên máy tính để bàn

Hình 2-3 cho thấy số liệu thống kê về thị phần ròng của thiết bị di động. là Google cũng chủ yếu là công cụ tìm kiếm được người dùng lựa chọn trên nền tảng di động / máy tính bảng.

Đọc thêm  Khắc phục khi bị Google phạt

Hình 2-3. Thị phần công cụ tìm kiếm trên điện thoại di động / máy tính bảng

Ngoài ba công cụ tìm kiếm lớn, các công cụ tìm kiếm như Baidu (Trung Quốc), Yandex (Nga) và Naver (Hàn Quốc) đang gây ra sự thay đổi trong sở thích của người dùng khi các yếu tố nội địa hóa đưa vào xem xét.

 Nhu cầu tìm kiếm trên web sâu để tìm kiếm nội dung không dễ dàng truy cập đã dẫn đến đến sự phát triển của các sáng kiến ​​như DeepDyve và Yippy, phục vụ cho các lợi ích thích hợp.

Và với những người dùng quan tâm đến quyền riêng tư, các công cụ tìm kiếm như Duck Duck Go (tránh các trang web spam và không theo dõi lịch sử tìm kiếm của người dùng) đã trở nên nổi bật.

 Tương lai của các công cụ tìm kiếm đang nghiêng về việc tập trung vào tìm kiếm doanh nghiệp hiệu quả về việc tăng năng suất giữa các tổ chức. Các công cụ tìm kiếm ngày càng trở nên nhiều hơn trực quan và dựa trên danh mục. Một sự thay đổi mô hình sắp diễn ra, nơi các công cụ tìm kiếm sẽ không chỉ được sử dụng cho mục đích cá nhân mà còn được sử dụng cho ngành dọc chuyên nghiệp. Ví dụ, Indeed là một cổng thông tin việc làm. Các công cụ tìm kiếm đặc biệt này thường được gọi là công cụ tìm kiếm dọc và phục vụ cho một đối tượng cụ thể; chúng giúp người dùng định vị thông tin thường không có sẵn trong kết quả của các công cụ tìm kiếm truyền thống. Cổng thông tin web được tích hợp sẵn với tìm kiếm các phương pháp tiếp cận công cụ và thư mục và ngày càng nghiêng về việc tạo ra một Kinh nghiệm người dùng. Một khía cạnh mới khác là tìm kiếm bằng giọng nói, nơi các công cụ tìm kiếm sẽ trở thành một hệ sinh thái thông minh dựa trên mục đích của người dùng. Khi nhu cầu của mọi người phát triển và tìm kiếm động cơ phát triển và máy học đưa khoa học dữ liệu lên một tầm cao mới, tương lai sẽ mang tính cá nhân hơn và dựa trên doanh nghiệp, điều này sẽ giúp giải quyết các phức tạp với mức độ dễ dàng tương đối.

Các quy trình và thành phần của công cụ tìm kiếm

Các công cụ tìm kiếm hiện đại thực hiện các quá trình sau:

  • Thu thập thông tin web
  • Lập chỉ mục
  • Đang tìm kiếm

Phần này trình bày tổng quan về từng thứ trước khi bạn chuyển sang hiểu cách hoạt động của công cụ tìm kiếm.

Thu thập thông tin web

Trình thu thập dữ liệu web hoặc trình thu thập thông tin web là các chương trình internet giúp các công cụ tìm kiếm cập nhật nội dung hoặc chỉ mục của nội dung web của các trang web khác nhau. Họ truy cập các trang web trên một danh sách của URL (còn được gọi là hạt giống) và sao chép tất cả các siêu liên kết trên các trang web đó. Do rộng lớn lượng nội dung có sẵn trên Web, trình thu thập thông tin thường không quét mọi thứ trên trang web; thay vào đó, họ tải xuống các phần của trang web và thường nhắm mục tiêu đến các trang phổ biến, phù hợp và có liên kết chất lượng. Một số trình thu thập dữ liệu chuẩn hóa các URL và lưu trữ chúng ở định dạng được xác định trước để tránh nội dung trùng lặp. Vì SEO ưu tiên nội dung mới và được cập nhật thường xuyên, một số trình thu thập thông tin truy cập các trang nơi nội dung được cập nhật một cách thường xuyên. Các trình thu thập thông tin khác được xác định sao cho chúng truy cập lại tất cả các trang bất kể thay đổi trong nội dung. Nó phụ thuộc vào cách các thuật toán được viết. Nếu một trình thu thập thông tin là lưu trữ các trang web, nó bảo quản các trang web dưới dạng ảnh chụp nhanh hoặc bản sao được lưu trong bộ nhớ cache.

 Trình thu thập thông tin xác định chính họ với máy chủ web. Quá trình nhận dạng này là bắt buộc, và  quản trị viên trang web có thể cung cấp quyền truy cập đầy đủ hoặc giới hạn bằng cách xác định tệp robots.txt tệp thông báo cho máy chủ web về các trang có thể được lập chỉ mục cũng như các trang không nên được truy cập. Ví dụ: trang chủ của một trang web có thể truy cập được để lập chỉ mục, nhưng các trang liên quan đến giao dịch — chẳng hạn như trang cổng thanh toán — là không, bởi vì chúng chứa thông tin nhạy cảm. Các trang thanh toán cũng không được lập chỉ mục, bởi vì chúng không chứa nội dung từ khóa hoặc cụm từ có liên quan, so với danh mục / các trang sản phẩm.

 Nếu một máy chủ nhận được các yêu cầu liên tục, nó có thể bị mắc vào bẫy nhện. Trong đó trường hợp này, quản trị viên có thể yêu cầu cha mẹ của trình thu thập thông tin dừng các vòng lặp. Quản trị viên cũng có thể ước tính trang web nào đang được lập chỉ mục và sắp xếp hợp lý các thuộc tính SEO của các trang web đó.

 Googlebot (được Google sử dụng), BingBot (được Bing và Yahoo! sử dụng) và Sphinx (một mã nguồn mở, trình thu thập thông tin tìm kiếm miễn phí được viết bằng C ++) là một số trình thu thập thông tin phổ biến lập chỉ mục web cho các công cụ tìm kiếm tương ứng của họ. Hình 2-4 cho thấy luồng chức năng cơ bản của một trình thu thập thông tin web.

Đọc thêm  Crawl trong search engine là gì ?

Hình 2-4. Lược đồ cấu trúc của trình thu thập thông tin web

Lập chỉ mục

 Các phương pháp lập chỉ mục khác nhau giữa các động cơ. Chủ sở hữu công cụ tìm kiếm không tiết lộ những loại thuật toán nào được sử dụng để tạo điều kiện cho việc truy xuất thông tin bằng cách sử dụng lập chỉ mục. Thông thường, việc sắp xếp được thực hiện bằng cách sử dụng các chỉ mục chuyển tiếp và đảo ngược. Phía trước lập chỉ mục liên quan đến việc lưu trữ danh sách các từ cho mỗi tài liệu, theo sau một phương pháp xử lý hệ thống; nghĩa là, chỉ mục chuyển tiếp là danh sách các trang web và các từ xuất hiện trên các trang web đó. Mặt khác, lập chỉ mục ngược liên quan đến việc xác định vị trí tài liệu có chứa các từ trong truy vấn của người dùng; một chỉ mục đảo ngược là một danh sách các từ và những từ đó xuất hiện trên trang web nào. Lập chỉ mục chuyển tiếp và đảo ngược được sử dụng cho các mục đích khác nhau. Ví dụ: trong lập chỉ mục chuyển tiếp, trình thu thập thông tin của công cụ tìm kiếm thu thập thông tin Web và xây dựng danh sách các trang web và các từ xuất hiện trên mỗi trang. Nhưng ngược lại lập chỉ mục, người dùng nhập một truy vấn và công cụ tìm kiếm xác định các trang web được liên kết với từ trong truy vấn.

 Trong quá trình lập chỉ mục, công cụ tìm kiếm tìm các trang web và thu thập, phân tích cú pháp và lưu trữ dữ liệu để người dùng có thể truy xuất thông tin một cách nhanh chóng và hiệu quả. Hãy tưởng tượng một công cụ tìm kiếm tìm kiếm nội dung hoàn chỉnh của mọi trang web mà không cần lập chỉ mục — do khối lượng dữ liệu trên Web, ngay cả một tìm kiếm đơn giản cũng sẽ mất hàng giờ. Các chỉ số giúp giảm thời gian đáng kể; bạn có thể truy xuất thông tin trong mili giây.

 Lập chỉ mục chuyển tiếp và lập chỉ mục ngược cũng được sử dụng kết hợp. Suốt trong lập chỉ mục chuyển tiếp, bạn có thể lưu trữ tất cả các từ trong một tài liệu. Điều này dẫn đến không đồng bộ xử lý và do đó tránh được tắc nghẽn (là một vấn đề trong các chỉ mục đảo ngược). sau đó bạn có thể tạo một chỉ mục đảo ngược bằng cách sắp xếp các từ trong chỉ mục chuyển tiếp, để hợp lý hóa quá trình tìm kiếm toàn văn bản.

 Thông tin như thẻ, thuộc tính và thuộc tính alt hình ảnh được lưu trữ trong lập chỉ mục. Thậm chí có thể tìm kiếm các loại phương tiện khác nhau như đồ họa và video, tùy thuộc vào các thuật toán được viết cho mục đích lập chỉ mục.

 Truy vấn tìm kiếm

 Người dùng nhập một từ có liên quan hoặc một chuỗi từ để lấy thông tin. Bạn có thể sử dụng đồng bằng văn bản để bắt đầu quá trình truy xuất. Những gì người dùng nhập vào hộp tìm kiếm được gọi là truy vấn tìm kiếm. Phần này kiểm tra các loại truy vấn tìm kiếm phổ biến: điều hướng, thông tin và giao dịch.

Truy vấn tìm kiếm điều hướng

  Những loại truy vấn này có kết quả xác định trước, bởi vì người dùng đã biết trang web mà họ muốn truy cập. Hình 2-5 cho thấy một ví dụ: người dùng đã nhập Yahoo vào hộp tìm kiếm và muốn truy cập Yahoo! trang mạng. Bởi vì người dùng đã biết đích được truy cập, điều này nằm dưới tiêu đề của một truy vấn điều hướng.

Hình 2-5. Truy vấn tìm kiếm điều hướng

Truy vấn tìm kiếm thông tin

  Các truy vấn tìm kiếm thông tin liên quan đến việc tìm kiếm thông tin về một chủ đề rộng lớn và chung chung hơn về bản chất. Người dùng thường nhập các từ theo thời gian thực để nghiên cứu hoặc mở rộng kiến thức của họ về một chủ đề.

  Trong Hình 2-6, người dùng đã nhập một truy vấn về cách khắc phục sự cố một bộ định tuyến.

Họ muốn thông tin về một chủ đề rộng — truy vấn là chung chung và không giới hạn ở bộ định tuyến cụ thể như D-Link hoặc Cisco.

Hình 2-6. Truy vấn tìm kiếm thông tin

Truy vấn Tìm kiếm Giao dịch

  Trong loại truy vấn này, mục đích của người dùng tập trung vào một giao dịch, có thể chung chung hoặc cụ thể. Trong hình 2-7, người dùng muốn kiểm tra giá giày Nike trên mạngcổng thông tin mua sắm (ví dụ này sử dụng Bing làm công cụ tìm kiếm). Người dùng biết thương hiệu giày mà họ muốn mua và trong trường hợp này, việc tìm kiếm có liên quan đến việc tạo mua. Tuy nhiên, không phải tất cả các truy vấn tìm kiếm giao dịch đều dựa trên giao dịch mua; họ cũng có thể liên quan đến việc người dùng muốn thực hiện một số loại hành động, chẳng hạn như đăng ký cổng thông tin.

Hình 2-7. Truy vấn tìm kiếm giao dịch

Cách công cụ tìm kiếm hoạt động

  Các phần trước đã xem xét các thành phần và quy trình liên quan đến công cụ tìm kiếm.

Phần này đặt các phần lại với nhau để bạn hiểu cách hoạt động của công cụ tìm kiếm.

  Một con nhện của công cụ tìm kiếm truy cập vào một trang web và truy cập vào tệp robots.txt để tìm hiểu những trang nào của trang web có thể truy cập được. Khi có được quyền truy cập, nó sẽ gửi thông tin về nội dung được lập chỉ mục: đây có thể là siêu văn bản, tiêu đề hoặc thẻ tiêu đề, tùy thuộc vào đánh dấu và nội dung trang. Spider hoặc bot sau đó biến thông tin thành một chỉ mục: a danh sách các điều khoản và các trang web có chứa các điều khoản đó.

Đọc thêm  Domain name có quan trọng với SEO

  Trình thu thập dữ liệu web liên tục cập nhật chỉ mục của họ khi họ tìm kiếm thông tin. Hình 2-8 cho thấy luồng chức năng của bot hoặc trình thu thập dữ liệu truy cập các trang web, và sau đó tạo và lưu trữ các chỉ mục cùng với dữ liệu có liên quan trên máy chủ cơ sở dữ liệu.

Hình 2-8. Luồng chức năng cho các bot truy cập các trang web và lưu trữ các chỉ mục và dữ liệu

Khi người dùng nhập các từ theo thời gian thực vào hộp tìm kiếm để truy xuất thông tin, chỉ mục chứa các điều khoản đó và các trang web liên quan của chúng được truy cập. Các thuật toán (các phương trình toán học dài dòng) được định cấu hình để xếp hạng các kết quả có tác dụng, và kết quả chính xác được hiển thị trên các trang kết quả của công cụ tìm kiếm (SERPs). Các thuật toán xác định trang web nào được xếp hạng cao hơn bằng cách gán giá trị cho các trang web tùy thuộc dựa trên các yếu tố khác nhau: nội dung mới, hấp dẫn; bản địa hóa; metadata; ngữ nghĩa; và phông chữ hiển thị sự nổi bật, để đặt tên cho một số. Với các công cụ tìm kiếm ngày càng thông minh hơn, các thuật toán liên tục thay đổi và phát triển để mang lại kết quả chính xác về vấn đề mili giây. Hình 2-9 cho thấy cách một truy vấn tìm kiếm kết thúc trong SERPs.

Hình 2-9. Các truy vấn tìm kiếm của người dùng dẫn đến SERPs

Tìm kiếm cũng có thể sử dụng bộ lọc. Bạn có thể tùy chỉnh tìm kiếm bằng cách sử dụng các bộ lọc hữu ích bạn nhận được thông tin có liên quan nhất. Bạn cũng có thể phân loại kết quả bằng cách sử dụng bộ lọc theo các danh mục hoặc loại phương tiện.

Tìm kiếm theo loại phương tiện. Ngoài ra, các bộ lọc tìm kiếm như bộ lọc Quốc gia, Ngày và Giờkết quả xa hơn. Bằng cách cụ thể hơn, bạn có thể nhận được các kết quả có ý nghĩa và thực hiện tìm kiếm dựa trên nội dung hoặc dựa trên khái niệm.

Hình 2-10. Bộ lọc tìm kiếm của Google

Thư mục Web

 Không phải mọi trang web đều được xếp hạng cao trong kết quả tìm kiếm, do khối lượng lớn và sự cạnh tranh trên Trang web. Trang web của bạn cũng có thể không được xếp hạng cao nếu ngân sách quảng cáo của bạn nhỏ so với của những đối thủ nặng ký. Nó cũng đang trở nên khó khăn cho các trang web địa phương đạt được thứ hạng cao hơn, bởi vì hầu hết các trang web được tối ưu hóa để đạt được khả năng hiển thị tối đa. Trong ngoài ra, hầu hết người dùng sử dụng Google, Yahoo !, hoặc Bing (hoặc, ở Trung Quốc, Baidu), và không phải mọi trang web có thể cạnh tranh với các đối thủ của mình để xếp hạng cao hơn trong kết quả tìm kiếm của các công cụ đó, với tùy chọn hạn chế. Bạn cần đánh giá các lựa chọn thay thế để có được khả năng hiển thị tốt hơn và tăng khả năng truy cập vào trang web của bạn.

 Trước khi tạo ra các công cụ tìm kiếm, thư mục web là phương tiện thực tế để doanh nghiệp có thể tiếp cận với đông đảo công chúng. Một thư mục web chứa một tập hợp các liên kết đến các trang web được sắp xếp theo thứ tự bảng chữ cái hoặc phân loại theo thị trường ngách. Ví dụ: một trang web cho một doanh nghiệp kinh doanh hệ thống ống nước xuất hiện trong danh mục Hệ thống ống nước, nếu danh mục đó tồn tại. Phần lớn thư mục web được chỉnh sửa thủ công, có nghĩa là con người sắp xếp và nhập các liên kết dựa trên Thể loại. Các liên kết đến trang web của bạn hoạt động như các liên kết ngược và giúp hợp lý hóa khả năng truy cập của trang web cho trình thu thập thông tin.

 Ví dụ: DMOZ là một thư mục web toàn diện, do con người chỉnh sửa được duy trì

bởi các biên tập viên và người đánh giá tự nguyện. Nó là danh mục web mặc định, được sử dụng rộng rãi. Một vài thư mục web là miễn phí, trong khi những thư mục khác là thương mại. Tốt nhất của Thư mục Web (https://botw.org/) là một ví dụ về dịch vụ thư mục trả phí. Danh sách trong một trang trực tuyến phổ biến thư mục làm tăng khả năng hiển thị trang web của bạn đáng kể, do đó giúp bạn thu được nhiều hơn giao thông. Với các liên kết chất lượng cao và sự gia tăng lưu lượng truy cập phù hợp, đáng tin cậy, trang web của bạn có thể nhận được một lượng tiếp xúc hợp lý. Hơn nữa, bằng cách xuất hiện trong một thư mục trực tuyến tối ưu, trang web của bạn phản ánh độ tin cậy, đây là một lợi ích cho các doanh nghiệp truyền thống.

Tóm lược

  Chương này khám phá các thành phần khác nhau liên quan đến công cụ tìm kiếm và cung cấp cho bạn

một ý tưởng cơ bản về chức năng của chúng. Bạn đã xem xét nhiều loại truy vấn khác nhau và học được

về thư mục web. Ngoài Google, Yahoo !, và Bing, bạn có thể sử dụng tìm kiếm đặc biệt

các công cụ có tính chủ đề và giúp bạn tìm kiếm thông tin thích hợp thuộc về một

thể loại.

Chat Facebook