Machine Learning là gì? Cách thức máy học hoạt động trong tìm kiếm và xếp hạng SEO

machine learning

Trong thế giới SEO, điều quan trọng là bạn phải hiểu được hệ thống mà bạn đang tối ưu hóa cho nó. Nhất là vào thời kỳ mà (machine learning) hay còn gọi là “Máy học” đang lên ngôi và quyết định tới kết quả tìm kiếm rất nhiều.

Bạn cần phải hiểu cách thức hoạt động:

  • Các công cụ tìm kiếm thu thập dữ liệu và đánh chỉ mục các trang web.
  • Các thuật toán tìm kiếm hoạt động thế nào.
  • Các công cụ tìm kiếm coi mục đích của người dùng như là một tín hiệu xếp hạng (và nơi nào mà chúng có khả năng tìm kiếm đến)

Lĩnh vực quan trọng khác cần phải hiểu nữa là máy học.

Ngày nay, bạn có thể thấy thuật ngữ “máy học” này xuất hiện ở khắp mọi nơi. Nhưng máy học thực sự tác động tới việc tìm kiếm và SEO như thế nào?.

Bài viết này Vietads sẽ giúp khám phá mọi thứ bạn cần biết về cách công cụ tìm kiếm sử dụng máy học như thế nào để xếp hạng và đánh giá website hay chính xác hơn là machine learning LÀ GÌ ?  và máy học hoạt động như thế nào trong SEO?.

Máy học là gì?

machine learning là gì

Không dễ để hiểu cách mà công cụ tìm kiếm sử dụng học máy trong khi không biết máy học thực sự là gì.

Hãy bắt đầu với định nghĩa (được cung cấp bởi Đại học Stanford trong phần mô tả về khóa học của họ trên Coursera) trước khi chúng ta chuyển sang một giải thích mang tính thực tiễn hơn.

“Máy học (machine learning) là một chương trình khoa học làm cho máy tính hoạt động mà không được lập trình một cách rõ ràng”.

Vài thông tin ngoài lề trước khi chúng ta tiếp tục…

Máy học không giống như trí tuệ nhân tạo (AI), nhưng ranh giới giữa hai khái niệm này bắt đầu mờ đi trong các ứng dụng thực tế.

Như đã nói ở trên, máy học là khoa học của việc đưa máy tính tới những kết luận dựa trên thông tin không được lập trình cụ thể trong cách thực hiện nhiệm vụ.

Trong khi đó, AI là khoa học tạo ra các hệ thống hoặc là có sở hữu hoặc được xem như là có sở hữu trí thông minh con người và xử lý thông tin theo cách tương tự.

Hãy nghĩ về sự khác biệt theo cách này:

Máy học là một hệ thống được thiết kế để giải quyết một vấn đề. Nó làm việc theo toán học để đưa ra lời giải. Lời giải có thể được lập trình một cách cụ thể hoặc được tìm ra bởi con người một cách thủ công, nhưng nếu không cần những điều này mà các lời giải xuất hiện nhanh hơn nhiều thì đó là máy học.

Một ví dụ điển hình là việc thiết lập một máy trong đó ta đổ vào hàng đống dữ liệu phác thảo về kích thước khối u và vị trí khối u mà không lập trình để tìm kiếm cái gì cụ thể. Máy này sẽ được đưa cho một danh sách các kết luận lành tính và ác tính. Sau đó, chúng ta sẽ yêu cầu hệ thống này cung cấp một mô hình dự báo trước cho các trường hợp có khối u cá biệt như thể là nó dựa trên các dữ liệu đã được phân tích.

Điều này là thuần toán học.

Vài trăm nhà toán học có thể làm điều này – nhưng họ có thể phải mất tới vài năm (giả thiết là có một cơ sở dữ liệu lớn) và hy vọng rằng không ai trong số họ phạm lỗi. Hoặc, nhiệm vụ tương tự này có thể được thực thi với máy học – với một lượng thời gian được rút ngắn đáng kể.

Mặt khác, khi tôi nghĩ về trí tuệ nhân tạo, đó là khi tôi bắt đầu nghĩ về một hệ thống chạm tới sự sáng tạo và do đó trở nên ít tính dự đoán hơn.

Một hệ thống trí tuệ nhân tạo thực thi cùng nhiệm vụ như trên có thể đơn giản là tham chiếu tới các tài liệu về đối tượng và lôi ra các kết luận từ các nghiên cứu trước. Hoặc nó có thể thêm vào hỗn hợp các dữ liệu mới. Hoặc có thể bắt đầu làm việc trên hệ thống động cơ điện mới với nhiệm vụ đầu tiên đã được đề cập ở trên. Nó chắc chắn không bị gián đoạn bởi Facebook, nhưng bạn hiểu điều tôi đang nói ở đây chứ.

Từ khóa là intelligence (sự thông minh). Tuy là nhân tạo, nhưng để đáp ứng các tiêu chí thì nó sẽ phải có thật, do đó phải tạo ra các biến và ẩn số có liên quan tới những gì chúng ta gặp phải khi tương tác với những người khác quanh ta.  

Trở lại với máy học và công cụ tìm kiếm

Ngay bây giờ những gì mà các công cụ tìm kiếm (và hầu hết các nhà khoa học) đang thúc đẩy để phát triển là máy học.

Google có một khóa học miễn phí về máy học, đã tạo ra một nền tảng máy học mã nguồn mở của khóa học này với tên gọi TensorFlow, và đang tạo ra một lượng đầu tư khủng về phần cứng để chạy nó.

Về cơ bản, đây là tương lai do đó tốt nhất là nên hiểu về nó.

Trong khi chúng ta không thể liệt kê (hoặc thậm chí biết) mọi ứng dụng của máy học (machine learning) đang có trên Googleplex, hãy cùng xem một vài ví dụ đã biết:

  • RankBrain

Điều gì tạo nên thành công cho bài viết về máy học của Google mà không cần phải nhắc tới lần triển khai đầu tiên có tính liên quan cao về thuật toán máy học trong tìm kiếm của họ?

Đúng vậy… cái chúng ta đang nói tới chính là RankBrain.

Về cơ bản thì hệ thống được trang bị chỉ với những hiểu biết về các thực thể (một thứ gì đó hoặc một khái niệm mà là số ít, duy nhất, được định nghĩa rõ ràng và có thể phân biệt được) và được giao nhiệm vụ tạo ra một nhận thức về cách mà các thực thể liên kết với nhau trong một câu truy vấn để hỗ trợ cho việc hiểu tốt hơn truy vấn đó và một tập hợp các câu trả lời điển hình đã biết.

Đây là những lời giải thích được đơn giản hóa vô cùng về các thực thể và RankBrain nhưng nó đáp ứng những mục đích của chúng ta ở đây.

Khám phá thêm về: SEO onpage năm 2018: Làm thế nào để tối ưu hóa RankBrain và tìm kiếm ngữ nghĩa.

Cụ thể, Google đưa vào hệ thống vài dữ liệu (các câu truy vấn) và một tập các thực thể đã biết. Tôi sẽ đoán về quy trình tiếp theo nhưng về mặt logic thì hệ thống sau đó sẽ được giao nhiệm vụ tự huấn luyện dựa trên một tập các thực thể ban đầu về cách để nhận biết các thực thể chưa xác định mà nó gặp phải. Hệ thống sẽ không có ích gì nếu nó không có khả năng hiểu được một cái tên phim mới, hay một ngày mới, vân vân…

Một khi hệ thống đã xử lý xong và đưa ra những kết quả thỏa đáng thì sau đó chúng sẽ có nhiệm vụ tự đào tạo cách để hiểu về mối quan hệ giữa các thực thể và cái mà dữ liệu đang ám chỉ tới hoặc được yêu cầu trực tiếp và tìm kiếm các kết quả phù hợp trong chỉ mục.

Hệ thống này giải quyết được nhiều vấn đề mà Google đang gặp phải.

Một yêu cầu bao gồm các từ khóa như “Làm sao để tôi thay thế màn hình S7 của tôi” trên một trang chuyên về thay thế màn hình S7 là không cần thiết. Bạn cũng không nên bao gồm từ khóa như “fix”(sửa chữa) nếu bạn đã có từ “replace” (thay thế) như là trong ngữ cảnh này, chúng nhìn chung là ám chỉ cùng một điều.

RankBrain sử dụng máy học để:

  • Học liên tục về sự liên kết giữa các thực thể và mối quan hệ giữa chúng.
  • Hiểu khi nào thì các từ là đồng nghĩa và khi nào thì không (thay thế và sửa chữa có thể đồng nghĩa trong trường hợp này nhưng sẽ không đồng nghĩa nếu như câu truy vấn của tôi là “làm sao để sửa xe của tôi”)
  • Chỉ dẫn các thành phần khác của thuật toán để đưa ra thứ hạng từ khoá đúng.

Trong lần lặp đầu tiên, RankBrain được thử nghiệm trên các truy vấn mà Google chưa từng gặp phải trước đây. Điều này làm nên cảm giác hoàn hảo và là một thử nghiệm tuyệt vời.

Nếu RankBrain có thể cải thiện các kết quả truy vấn có khả năng đã không được tối ưu hóa và liên quan tới một hỗn hợp các thực thể mới và cũ đáp ứng được một nhóm người dùng mà lúc đầu nhóm này có khả năng chỉ nhận được các kết quả không đầy đủ thì sau đó nó nên được triển khai lên toàn cầu. Nhưng đó là vào năm 2016.

Hãy cùng xem xét 2 kết quả tôi đã tham chiếu ở trên (đáng chú ý, tôi đã viết một đoạn và một ví dụ, sau đó tôi nghĩ về chụp ảnh màn hình – điều này đơn giản là cách nó làm việc và bạn hãy tự thử dùng nó … nó hoạt động trong hầu hết các trường hợp nơi mà các từ khác nhau ám chỉ cùng một điều):

rankbrain va may hoc

Một số khác biệt về thứ hạng với các site xếp hạng 1 và hạng 2 có thể chuyển vị trí cho nhau nhưng về cốt lõi thì chúng cho cùng kết quả.

Bây giờ cùng xem tiếp ví dụ về ô tô của tôi:

thử nghiệm máy học

Máy học đã giúp Google không chỉ hiểu về những chỗ tương tự nhau trong câu truy vấn, mà chúng ta còn thấy nó quyết định rằng nếu tôi cần phải sửa ô tô của tôi thì tôi có thể cần một thợ máy (gọi điện cho Google), trong khi thay thế nó tôi có thể tham khảo các thành phần hoặc các tài liệu điều khiển tổng quan để thay thế toàn bộ mọi thứ.

Chúng ta cũng thấy ở đây là máy học không hẳn lúc nào cũng giải quyết được hết các vấn đề.

Khi tôi hỏi nó cách thay các bộ phận trong xe của tôi, ý tôi là tất cả mọi thứ hoặc tôi đã liệt kê những bộ phận mà tôi muốn nhưng nó sẽ học… và nó vẫn còn trong giai đoạn trứng nước. Tôi cũng là người Canada, vì thế DMV không thực sự được áp dụng.

Như vậy ở đây chúng ta đã xem một ví dụ về việc máy học ảnh hưởng tới việc quyết định tới ý nghĩa của câu truy vấn, vị trí xếp hạng, và một chuỗi các hành động có thể cần thiết để đạt được ý định của tôi.

Không phải tất cả những điều đó là RankBrain, nhưng nó là tất cả những gì máy học đạt được.

  • Spam

Nếu bạn sử dụng Gmail, hay là hệ thống thư điện tử khác, bạn cũng sẽ thấy cách máy học hoạt động.

Theo Google, ngày nay họ đang chặn 99.9 phần trăm các thư điện tử rác và lừa đảo với tỷ lệ sai lệch chỉ là 0.05 phần trăm.

Họ đang làm điều này bằng cách sử dụng cùng một kỹ thuật cốt lõi – đưa cho hệ thống máy học vài dữ liệu và để nó tự làm việc.

Nếu ai đó lập trình một cách thủ công tất cả các hoán vị mà có tỷ lệ thành công là 99.9 phần trăm trong việc lọc các thư rác và điều chỉnh các kỹ thuật mới trong lúc hoạt động thì nó sẽ là một nhiệm vụ quan trọng nếu có thể. Khi họ làm những điều này họ nói là 97 phần trăm thành công với 1 phần trăm tỷ lệ lỗi (nghĩa là 1 phần trăm tin nhắn thực của bạn bị đẩy vào thư mục spam – thật khó có thể chấp nhận được nếu đó là những tin nhắn quan trọng).

Với thuật toán máy học, nó sẽ đưa vào tất cả các tin nhắn rác mà bạn có thể xác nhận một cách chắc chắn rồi tự xây dựng một mô hình xoay quanh những điểm tương đồng giữa các tin nhắn này, nhập vào một vài tin nhắn mới và thưởng cho hệ thống nếu nó tự chọn ra được các tin nhắn rác và làm như vậy trong hầu hết các lần khác (không phải là nhiều) nó sẽ học thêm nhiều tín hiệu hơn và phản ứng nhanh hơn nhiều so với con người.

Thiết lập hệ thống xem xét các tương tác người dùng với các cấu trúc thư điện tử mới, khi nó học được rằng có một kỹ thuật spam mới đang được sử dụng, thì nó sẽ thêm vào hỗn hợp và tiến hành lọc không chỉ các thư điện tử kia mà cả nhưng thư điện tử sử dụng các kỹ thuật tương tự tới thư mục spam.

Vậy thì máy học hoạt động như thế nào?

Bài viết này đã hứa giải thích về thuật toán máy học là gì, chứ không chỉ liệt kê các ví dụ.

Tuy nhiên, các ví dụ, là điều cần thiết để minh họa cho một mô hình không dễ để giải thích.

Đừng bối rối với điều này mà hãy nghĩ chỉ đơn giản nó là những gì chúng ta cần biết.

Một mô hình máy học nói chung gồm chuỗi các hoạt động sau:

  • Đưa vào hệ thống một tập hợp các dữ liệu đã biết. Có nghĩa là, một tập dữ liệu gồm một mảng lớn các biến liên kết tới một kết quả khẳng định hoặc phủ định. Cái này được dùng để huấn luyện hệ thống và cũng là khởi đầu cho hệ thống. Cơ bản thì giờ đây hệ thống hiểu được cách nhận diện và cân nhắc các yếu tố dựa trên dữ liệu cũ để đưa ra kết quả khẳng định.
  • Thiết lập phần thưởng cho sự thành công. Mỗi khi hệ thống đã được điều chỉnh xong với dữ liệu ban đầu thì sau đó nó sẽ được cung cấp dữ liệu mới nhưng không có kết quả khẳng định hay phủ định. Hệ thống không biết về mối quan hệ giữa một thực thể mới hoặc một thư điện tử là rác hay là không. Khi nó lựa chọn đúng nó sẽ được thưởng hiển nhiên không phải là một thanh sô cô la rồi. Một ví dụ về việc thưởng cho hệ thống là đưa cho hệ thống một giá trị thưởng với mục tiêu là đạt được số cao nhất có thể. Mỗi lần nó chọn đúng câu trả lời thì điểm thưởng này sẽ được cộng thêm vào.
  • Thiết lập điểm dừng. Khi các chỉ số thành công đủ cao để vượt qua các hệ thống đang tồn tại hoặc đạt đến một ngưỡng khác thì hệ thống máy học có thể được tích hợp với thuật toán thành một thể thống nhất.

Mô hình này được gọi là học có giám sát và nếu tôi đoán không nhầm thì mô hình này được sử dụng trong phần lớn các triển khai thuật toán của Google.

Một mô hình học máy khác là Mô hình Không giám sát. Để hiểu mô hình này ta có thể xem một ví dụ được dùng trong một khóa học tuyệt hay trên Coursera về máy học, đây là mô hình được dùng để gom nhóm các câu chuyện tương tự trên Google News và người ta có thể phỏng đoán rằng nó còn được dùng trong lĩnh vực khác như là nhận dạng và gom nhóm các ảnh có người giống nhau hoặc tương tự nhau trong SEO Google Images.

Trong mô hình này, hệ thống không được chỉ định là phải tìm kiếm cái gì mà đơn giản là được hướng dẫn để gom nhóm các thực thể (một ảnh, bài viết, vân vân.) vào các nhóm dựa trên các đặc điểm tương đồng (các thực thể mà chúng chứa đựng, các từ khóa, các quan hệ, các tác giả, vv.)

Tại sao lại phải quan tâm đến vấn đề này?

Việc hiểu thuật toán máy học là gì trong SEO sẽ là điều vô cùng quan trọng nếu bạn đang tìm kiếm sự hiểu biết về tại sao và như thế nào mà thứ hạng từ khoá được thiết lập và tại sao các trang web xếp hạng ở chỗ mà chúng được xếp hạng.

Một thứ cần phải hiểu là các yếu tố trong thuật toán – đó chắc chắn là thứ quan trọng – nhưng việc hiểu về điều kiện hệ thống mà trong đó các yếu tố đó được đánh giá là bằng nhau, mà không phải là lớn hơn, cũng là một điều quan trọng.

Ví dụ, nếu tôi đang làm việc cho một công ty bán ô tô, tôi sẽ chú ý tới các thông tin liên quan, hữu ích trong các kết quả SERP đối với truy vấn được minh họa ở trên. Kết quả rõ ràng là không thành công. Hãy khám phá xem nội dung gì là thành công và tạo ra nó.  

Bài viết hữu ích: 5 bước để tối ưu hoá nội dung cho SEO giúp gia tăng doanh số.

Hãy chú ý tới các kiểu nội dung mà Google cảm thấy đáp ứng được các ý định của người dùng (bài viết, ảnh, tin tức, video, thông tin mua sắm, trích dẫn nổi bật, vv.) và cung cấp nó.

Đọc ngay bài viết: Tìm kiếm từ khóa dựa trên ý định (intent keywords). Hãy để Google giúp bạn

Tôi thích ý nghĩ về việc google áp dụng thuật toán máy học vào SEO và tìm kiếm, sự phát triển của nó giống như là có một kỹ sư Google đang ngồi bên cạnh mỗi người tìm kiếm, điều chỉnh những gì họ thấy và cách họ thấy trước khi những thứ đó được gửi đến thiết bị của họ. Nhưng tốt hơn hết là những kỹ sư đó được kết nối với nhau một kiểu gì đó giống như tuân theo các điều luật toàn cầu.

Kết thúc bài viết này có lẽ các bạn SEOer cũng đã hiểu phần nào về Thuật toán machine learning, máy học là gì?, thuật toán máy học tác động tới SEO như thế nào?. Mọi ý kiến đóng góp vui lòng để lại comment. Đừng quên chia sẻ bài viết này cho người khác cùng đọc và nhớ ghi nguồn nếu copy nhé. 1 điều nữa là mọi kiến thức SEOkiến thức SEM luôn được Vietads Online update liên tục.

Để có thể hiểu rõ hơn và biết cách SEO chuẩn theo cơ chế máy học và người dùng 2018 thì hãy đăng ký ngay khoá học Seo thuộc chương trình đào tạo SEO nâng cao nhé.

Nguồn bài viết tham khảo tại https://www.searchenginejournal.com/ – Dave Davies – và được Việt Anh Trần biên soạn và viết lại.

Machine Learning là gì? Cách thức máy học hoạt động trong tìm kiếm và xếp hạng SEO
5 (100%) 2 votes
5/5 (1 Review)

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *