Hỏi đáp: Tìm hiểu về thuật toán BERT (bản cập nhật mới nhất năm 2019)

Thuật toán Bert là gì, cách hoạt động và ý nghĩa của nó đối với tìm kiếm? Google từng nhận định rằng Bert là bản cập nhật tìm kiếm mới nhất. Cập nhật BERT của Google cải thiện cách Google hiểu hơn các truy vấn tìm kiếm của người dùng, điều đó đem lại kết quả tốt hơn. Google cho biết, Bert sẽ tác động đến 10% tìm kiếm, khả năng sẽ có tác động đến sự hiển thị và lưu lượng truy cập thương hiệu khách hàng, và bạn có thể không nhận ra.

Đây là tầm nhìn của chúng tôi về những gì chúng tôi biết từ trước đến nay rằng Google đang chào mời như “một trong những bước đột phá lớn nhất trong lịch sử tìm kiếm”. “Khi bạn đã sẵn sàng để đi xa hơn, hãy xem phần đồng hành của chúng tôi: Nhìn sâu vào BERT: Làm thế nào BERT phóng một tên lửa vào sự hiểu biết của ngôn ngữ tự nhiên” - Theo Dawn Anderson.

Nội dung bài viết:

Bert đã được ứng dụng trong Google khi nào?
Khái niệm về BERT
Mạng lưới là gì?
Xử lý ngôn ngữ tự nhiên là gì?
BERT hoạt động như thế nào?
Google có sử dụng BERT để hiểu ý nghĩa của tất cả các tìm kiếm không?
BERT sẽ tác động đến đoạn trích đặc trưng như thế nào?
Điều gì khác biệt giữa BERT và RankBrain?
Những sản phẩm nào khác của Google mà BERT có thể ảnh hưởng tới?
Làm thế nào tôi có thể tối ưu hóa cho BERT?

Bert đã được ứng dụng trong Google khi nào?

BERT bắt đầu tung ra trong hệ thống tìm kiếm Google vào ngày 21 tháng 10 năm 2019 cho các truy vấn bằng tiếng Anh, bao gồm các đoạn cơ bản đặc trưng.
Thuật toán sẽ mở rộng ra tất cả các ngôn ngữ mà Google cung cấp cho việc tìm kiếm, nhưng chưa có mốc thời gian nào được đặt ra, tuy nhiên, Danny Sullivan cho biết. Một mô hình BERT cũng đang được sử dụng để cải thiện các đoạn đặc trưng ở hai mươi quốc gia.

Khái niệm về BERT

Kiến trúc mô hình BERT viết tắt của Bidirectional Encoder Representations from Transformers là một bộ mã hóa Transformer hai chiều, được hiểu là một mô hình học sẵn hay còn gọi là pre-train. Nói một cách dễ hiểu, nó có thể được sử dụng để giúp Google transfer sang các bài toán khác trong lĩnh vực xử lý ngôn ngữ tự nhiên.

Ví dụ, trong cụm “từ 9 đến 5”, và “một phần tư năm, từ “Đến” có hai nghĩa khác nhau, có thể rõ ràng đối với con người nhưng ít hơn đối với các công cụ tìm kiếm. BERT được thiết kế để phân biệt giữa các sắc thái như vậy để tạo điều kiện cho kết quả phù hợp hơn...

Google BERT có nguồn mở vào tháng 11 năm 2018. Điều này có nghĩa là bất kỳ ai cũng có thể sử dụng BERT để đào tạo hệ thống xử lý ngôn ngữ của riêng họ để trả lời câu hỏi hoặc các nhiệm vụ khác.

Mạng lưới là gì?

Thuật toán Mạng lưới được thiết kế để nhận dạng mẫu, để đặt nó rất đơn giản. Phân loại nội dung hình ảnh, nhận dạng chữ viết tay và thậm chí dự đoán xu hướng trong thị trường tài chính là các ứng dụng trong thế giới thực phổ biến cho các mạng thần kinh - không đề cập đến các ứng dụng cho tìm kiếm như mô hình nhấp chuột.

Họ ứng dụng trên các tập dữ liệu để nhận ra các mẫu. BERT được đào tạo trước bằng cách sử dụng văn bản đơn giản của Wikipedia, Google giải thích khi nó mở nguồn.

Xử lý ngôn ngữ tự nhiên là gì?

Xử lý ngôn ngữ tự nhiên (NLP) đề cập đến một nhánh của trí tuệ nhân tạo liên quan đến ngôn ngữ học, với mục đích cho phép máy tính hiểu cách con người giao tiếp tự nhiên.
Ví dụ về các tiến bộ mà NLP có thể thực hiện bao gồm các công cụ lắng nghe xã hội, chatbot và đề xuất từ trên điện thoại thông minh của bạn.

Nói chung, NLP không phải là một tính năng mới cho các công cụ tìm kiếm. Tuy nhiên, BERT thể hiện sự tiến bộ trong NLP thông qua đào tạo hai chiều (nhiều hơn về điều đó dưới đây).

BERT hoạt động như thế nào?

Điểm đột phá của BERT nằm ở khả năng huấn luyện các mô hình ngôn ngữ tự nhiên dựa trên toàn bộ tập hợp các từ trong câu hoặc truy vấn (đào tạo hai chiều) thay vì cách đào tạo truyền thống về chuỗi được sắp xếp (từ trái sang phải hoặc kết hợp trái sang phải và phải sang trái). BERT cho phép mô hình ngôn ngữ học ngữ cảnh từ dựa trên các từ xung quanh thay vì chỉ từ ngay trước hoặc theo sau nó.

Google gọi BERT là mô hình hai chiều vì các cách diễn đạt theo ngữ cảnh bắt đầu từ nguồn từ mạng lưới...

BERT trước đó và sau đó

Ảnh nguồn từ Google về BERT trước đó và sau đó

Ví dụ, từ ‘ngân hàng‘ sẽ có cùng đại diện không có ngữ cảnh trong tài khoản ngân hàng và ‘ngân hàng của dòng sông.‘ Thay vào đó, các mô hình bối cảnh tạo ra cách biểu thị của mỗi từ dựa trên các từ khác trong câu. Ví dụ: trong câu 'Tôi đã truy cập vào tài khoản ngân hàng', một mô hình ngữ cảnh đơn hướng sẽ đại diện cho 'ngân hàng' dựa trên 'Tôi đã truy cập' nhưng không phải 'tài khoản.' Tuy nhiên, BERT đại diện cho 'ngân hàng' sử dụng cả bối cảnh trước đó và tiếp theo - 'Tôi đã truy cập vào tài khoản trên mạng.'

Google đã chỉ ra một số ví dụ về cách ứng dụng BERT vào trong Tìm kiếm có thể ảnh hưởng đến kết quả. Trong một ví dụ, các cuốn sách thực hành toán học Truy vấn dành cho người lớn, trước đây đã đưa ra một danh sách cho một cuốn sách dành cho các Lớp 6 - 8 ở đầu các kết quả không phải trả tiền. Với BERT được áp dụng, Google đưa ra một danh sách cho một cuốn sách có tựa đề Math Math cho Grownups, ở đầu kết quả.

Bạn có thể thấy trong một kết quả hiện tại cho truy vấn này rằng cuốn sách dành cho Lớp 6 - 8 vẫn đang xếp hạng, nhưng có hai cuốn sách dành riêng cho người lớn hiện đang xếp hạng trên nó, bao gồm cả đoạn trích đặc trưng.

Hỏi đáp: Tìm hiểu về thuật toán BERT (bản cập nhật mới nhất của Google năm 2019)

Một kết quả tìm kiếm thay đổi như ở trên phản ánh sự hiểu biết mới về truy vấn bằng BERT. Người trưởng thành không bị phạt, thay vào đó, danh sách dành riêng cho người lớn được coi là phù hợp hơn với mục đích của người tìm kiếm.

Google có sử dụng BERT để hiểu ý nghĩa của tất cả các tìm kiếm không?

Không chính xác cho tất cả tìm kiếm, BERT sẽ tăng cường sự hiểu biết của Google về khoảng 1/10 tìm kiếm bằng tiếng Anh ở Hoa Kỳ.

Đặc biệt, đối với các truy vấn dài hơn, nhiều cuộc hội thoại hơn hoặc các tìm kiếm trong đó các giới từ như 'cho' và 'thành' có ý nghĩa rất lớn, Tìm kiếm sẽ có thể hiểu ngữ cảnh của các từ trong truy vấn của bạn, Google Google đã viết trong bài đăng trên blog của mình.

Tuy nhiên, không phải tất cả các truy vấn là đàm thoại hoặc bao gồm các giới từ. Các tìm kiếm có thương hiệu và các cụm từ ngắn hơn chỉ là hai ví dụ về các loại truy vấn có thể không yêu cầu xử lý ngôn ngữ tự nhiên BERT.

BERT sẽ tác động đến đoạn trích đặc trưng như thế nào?

Như chúng ta đã thấy trong ví dụ trên, BERT có thể ảnh hưởng đến kết quả xuất hiện trong các đoạn trích nổi bật khi áp dụng nó.

Trong một ví dụ khác bên dưới, Google so sánh các đoạn trích đặc trưng cho truy vấn Cấm đậu xe trên một ngọn đồi không có lề đường, giải thích, “trước đây, một truy vấn như thế này sẽ gây nhầm lẫn cho các hệ thống của chúng tôi - chúng tôi đặt quá nhiều tầm quan trọng vào từ 'lề đường' và bỏ qua từ 'không', không hiểu mức độ quan trọng của từ đó để đáp ứng một cách thích hợp cho truy vấn này. Vì vậy, chúng tôi đã trả lại kết quả cho việc đỗ xe trên một ngọn đồi với lề đường.

BERT sẽ tác động đến đoạn trích đặc trưng như thế nào?

Điều gì khác biệt giữa BERT và RankBrain?

Một số khả năng quét của BERT có thể nghe giống như phương pháp trí tuệ nhân tạo đầu tiên của Google để hiểu các truy vấn. Nhưng, chúng là hai thuật toán riêng biệt có thể được sử dụng để thông báo kết quả tìm kiếm.

Điều đầu tiên cần hiểu về RankBrain là nó chạy song song với các thuật toán xếp hạng tìm kiếm không phải trả tiền và nó được sử dụng để điều chỉnh các kết quả được tính toán bởi các thuật toán đó, theo Eric Enge-tổng giám đốc của Perficient Digital.

RankBrain điều chỉnh kết quả bằng cách xem truy vấn hiện tại và tìm các truy vấn trong quá khứ tương tự. Sau đó, nó xem xét hiệu suất của kết quả tìm kiếm cho các truy vấn lịch sử đó. Dựa trên những gì nó thấy, RankBrain có thể điều chỉnh đầu ra của kết quả của các thuật toán xếp hạng tìm kiếm hữu cơ thông thường- theo ông Enge.

Điều gì khác biệt giữa BERT và RankBrain?

RankBrain cũng giúp Google diễn giải các truy vấn tìm kiếm để nó có thể hiển thị các kết quả có thể không chứa các từ chính xác trong truy vấn. Trong ví dụ dưới đây, Google có thể tìm ra rằng người dùng đang tìm kiếm thông tin về Tháp Eiffel, mặc dù tên của tòa tháp không xuất hiện trong truy vấn chiều cao của cột mốc trong Paris.

BERT hoạt động theo một cách hoàn toàn khác. Các thuật toán truyền thống đã cố gắng nhìn vào nội dung trên một trang để hiểu nội dung và những gì nó có thể liên quan. Tuy nhiên, thuật toán NLP truyền thống thường chỉ có thể xem nội dung trước một từ HOẶC nội dung sau một từ cho ngữ cảnh bổ sung để giúp nó hiểu rõ hơn ý nghĩa của từ đó. Thành phần hai chiều của BERT là yếu tố tạo nên sự khác biệt. Như đã đề cập ở trên, BERT xem xét nội dung trước và sau một từ để thông báo sự hiểu biết về ý nghĩa và mức độ liên quan của từ đó. Đây là một cải tiến quan trọng trong xử lý ngôn ngữ tự nhiên vì giao tiếp của con người được xếp lớp một cách tự nhiên và phức tạp.

Cả BERT và RankBrain đều được Google sử dụng để xử lý các truy vấn và nội dung trang web để hiểu rõ hơn về ý nghĩa của các từ này.

BERT không ở đây để thay thế RankBrain. Google có thể sử dụng nhiều phương pháp để hiểu một truy vấn, có nghĩa là BERT có thể được áp dụng riêng, cùng với các thuật toán khác của Google, song song với RankBrain, bất kỳ sự kết hợp nào hoặc không, tùy thuộc vào thuật ngữ tìm kiếm.

Những sản phẩm nào khác của Google mà BERT có thể ảnh hưởng tới?

Thông báo của Google về BERT chỉ liên quan đến Tìm kiếm, tuy nhiên, cũng sẽ có một số tác động đối với Trợ lý. Khi các truy vấn được thực hiện trên trang quản lý Google kích hoạt nó để cung cấp các đoạn trích hoặc kết quả web nổi bật từ Tìm kiếm, những kết quả đó có thể bị ảnh hưởng bởi BERT.

Google đã nói với Search Engine Land rằng BERT hiện đang được sử dụng cho quảng cáo, nhưng nếu nó được tích hợp trong tương lai, nó có thể giúp giảm bớt một số biến thể gần phù hợp với các nhà quảng cáo.

Làm thế nào tôi có thể tối ưu hóa cho BERT?

Sullivan nói: “Không có gì để tối ưu hóa với BERT, cũng như không có gì để bất cứ ai phải suy nghĩ lại. Cơ bản của chúng tôi tìm các cách thưởng cho nội dung tuyệt vời nhưng vẫn không thay đổi.

Lời khuyên của Google về việc xếp hạng tốt luôn luôn giúp người dùng ghi nhớ và tạo nội dung thỏa mãn mục đích tìm kiếm của họ. Vì BERT được thiết kế để diễn giải ý định đó, nên việc cung cấp cho người dùng những gì họ muốn tiếp tục là lời khuyên của Google.

Tối ưu hóa ngay bây giờ có nghĩa là bạn có thể tập trung nhiều hơn vào văn bản tốt, rõ ràng, thay vì thỏa hiệp giữa việc tạo nội dung cho khán giả của bạn và xây dựng cụm từ tuyến tính cho máy.

(3 ratings)

Tags: thuật toán, thuật toán bert, bert, hỏi đáp, Google, cập nhật

Tham khảo hữu ích: Thiết kế website chuẩn SEO mới

Nội dung bài viết:

Bert đã được ứng dụng trong Google khi nào?

Khái niệm về BERT

Mạng lưới là gì?

Xử lý ngôn ngữ tự nhiên là gì?

BERT hoạt động như thế nào?

Google có sử dụng BERT để hiểu ý nghĩa của tất cả các tìm kiếm không?

BERT sẽ tác động đến đoạn trích đặc trưng như thế nào?

Điều gì khác biệt giữa BERT và RankBrain?

Những sản phẩm nào khác của Google mà BERT có thể ảnh hưởng tới?

Làm thế nào tôi có thể tối ưu hóa cho BERT?

Freelance Writer: Hành trình từ tay mơ đến "người trong muôn nghề"

Mình có tố chất của một người viết lách hay không?

Làm thế nào để chia sẻ (viết bài) khi nội lực chưa đủ?

Viết Content: Biết người biết ta, trăm trận trăm thắng

Người người nhà nhà kéo nhau đi làm Content - Làm sao để học Content?

Để có thể mở rộng vốn hiểu biết mà có thể dùng được cho việc viết lách?

Liệu pháp giảm triệu trứng Content thiếu sức hút?!

Bạn sẽ được gì khi hẹn hò với một Content Writer?