[閒聊] 一技術描述與 多專利請求項1的相似度

看板Patent (專利)作者 (juso)時間4年前 (2020/07/05 15:14), 4年前編輯推噓2(200)
留言2則, 2人參與, 4年前最新討論串1/1
分享一個“找出「一技術描述」與 「多個專利請求項1 」間的相似度”的程式。 https://reurl.cc/9EmGQn 1、要使用這支程式,建議安裝,anaconda python。並且,需要gensim 套件。 2、功能:找出「一個技術描述(sentance1)」,與 「patentlist 中各專利請求項1 」間 的相似度。 3、此程式的使用方式如下: #sentance1 指的是一個技術的描述,最簡單的方法就是一個發明的請求項的記載方式。 #patentlist 提供想要比對的美國專利書號碼,例如['US7654301B2', 'US7654300B2', 'US7654329B2']。 4、改變上述要點3中的變數sentance1及patentlist並執行後,會得到 claim_similarity.txt的文件,打開該文件後,可以得到相似度的計算值,如最後所述。 5、結果:如果把一件專利的不同組的請求項,當作sentance1時,相似度會達0.9以上。 因此,此方法有實用上的「可能性」,但實際上效果可能沒有很好,需要再優化。目前, 我把它當作閱讀順序的排序,覺得滿好用的。 如果顯示0的值,表示沒有爬到該專利的內容。 目前只能從google專利資料庫中爬到美國專利的內容。 與US5419973A間的相似度 = 0 -->沒有爬到該專利的內容 與US6111377A間的相似度 = 0 與US6139976A間的相似度 = 0 與US6410174B1間的相似度 = 0 與US7935439B2間的相似度 = 0.7107066750526427 與US7074155B2間的相似度 = 0.7974137131141663 與US7263240B2間的相似度 = 0.7750532627105713 與US7757929B2間的相似度 = 0.7196704377664795 與US7777529B2間的相似度 = 0.7253437776701355 註:參考了以下幾個程式。 google_patent_spider https://pypi.org/project/google-patent-scraper/ pypatent https://github.com/daneads/pypatent patent_client https://github.com/parkerhancock/patent_client -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.228.170 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Patent/M.1593933263.A.6F3.html ※ 編輯: ides13 (114.32.228.170 臺灣), 07/05/2020 15:16:37

07/06 10:21, 4年前 , 1F
感謝分享
07/06 10:21, 1F

07/08 08:31, 4年前 , 2F
不明覺厲 XD
07/08 08:31, 2F
【更新】 claimsim_20200708.py 1、需要pypatent的檔案,我要修正它,所以直接下載並修正檔名為「DanEadsPypatent」 來使用,請同時下載該檔案。 2、本案是爬美國專利資料庫,已可以爬公開說明書和專利說明書。 3、本次修正,已可以計算整個說明書的段落的近似值,只是段落的編號與說明書編號不 一樣。請用p = thispatent('US6924620B2').description[3]來查詢段落內容。輸出結果 為:claim_similarity.txt。 4、與前次版本不同,本次不會下載任何檔案,是以後修正的目標。 ※ 編輯: ides13 (114.32.228.170 臺灣), 07/09/2020 08:55:14
文章代碼(AID): #1V0NtFRp (Patent)
文章代碼(AID): #1V0NtFRp (Patent)