Tự động hóa phân tích cảnh quan sáng chế bằng học máy bán giám sát

( 0 đánh giá )
Miễn phí

Patent landscaping là quá trình xác định các sáng chế liên quan đến một chủ đề, khác với tìm kiếm prior art vốn tập trung vào một sáng chế cụ thể  

Phương pháp đề xuất gồm ba bước: mở rộng seed set bằng trích dẫn và CPC, tạo tập anti-seed từ các sáng chế không liên quan, huấn luyện mô hình học máy để tinh lọc  

Mở rộng bằng trích dẫn sử dụng đồ thị trích dẫn theo họ sáng chế (family citation graph), mở rộng CPC dựa trên tần suất tương đối trong seed set so với toàn bộ corpus  

Hai cấp mở rộng: Level 1 (trích dẫn và CPC), Level 2 (trích dẫn từ Level 1); anti-seed được chọn từ ngoài Level 2  

Mô hình học máy gồm  

  - LSTM với word2vec embedding từ 5.9 triệu abstract, kết hợp CPC và trích dẫn dưới dạng one-hot  

  - Mạng nơ-ron nông với embedding SVD từ dữ liệu: trích dẫn, văn bản, CPC, trích dẫn tác giả  

  - Perceptron với embedding RFP từ n-gram văn bản và CPC, giảm chiều xuống 5000 đặc trưng  

Mô hình LSTM đạt F1 ~0.98, SNN ~0.93, RFP ~0.95 trên các chủ đề như trình duyệt, hệ điều hành, codec video, học máy  

Kết quả cho thấy mở rộng bằng trích dẫn và CPC là cách hiệu quả để tạo tập dữ liệu huấn luyện bán giám sát  

Phương pháp có thể mở rộng sang các lĩnh vực khác như bài báo khoa học, văn bản pháp lý có metadata tương tự  

Google cung cấp mã nguồn mẫu tại https://github.com/google/patents-public-data