[閒聊] 一技術描述與 多專利請求項1的相似度
分享一個“找出「一技術描述」與 「多個專利請求項1 」間的相似度”的程式。
https://reurl.cc/9EmGQn
1、要使用這支程式,建議安裝,anaconda python。並且,需要gensim 套件。
2、功能:找出「一個技術描述(sentance1)」,與 「patentlist 中各專利請求項1 」間
的相似度。
3、此程式的使用方式如下:
#sentance1 指的是一個技術的描述,最簡單的方法就是一個發明的請求項的記載方式。
#patentlist 提供想要比對的美國專利書號碼,例如['US7654301B2', 'US7654300B2',
'US7654329B2']。
4、改變上述要點3中的變數sentance1及patentlist並執行後,會得到
claim_similarity.txt的文件,打開該文件後,可以得到相似度的計算值,如最後所述。
5、結果:如果把一件專利的不同組的請求項,當作sentance1時,相似度會達0.9以上。
因此,此方法有實用上的「可能性」,但實際上效果可能沒有很好,需要再優化。目前,
我把它當作閱讀順序的排序,覺得滿好用的。
如果顯示0的值,表示沒有爬到該專利的內容。
目前只能從google專利資料庫中爬到美國專利的內容。
與US5419973A間的相似度 = 0 -->沒有爬到該專利的內容
與US6111377A間的相似度 = 0
與US6139976A間的相似度 = 0
與US6410174B1間的相似度 = 0
與US7935439B2間的相似度 = 0.7107066750526427
與US7074155B2間的相似度 = 0.7974137131141663
與US7263240B2間的相似度 = 0.7750532627105713
與US7757929B2間的相似度 = 0.7196704377664795
與US7777529B2間的相似度 = 0.7253437776701355
註:參考了以下幾個程式。
google_patent_spider
https://pypi.org/project/google-patent-scraper/
pypatent
https://github.com/daneads/pypatent
patent_client
https://github.com/parkerhancock/patent_client
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.228.170 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Patent/M.1593933263.A.6F3.html
※ 編輯: ides13 (114.32.228.170 臺灣), 07/05/2020 15:16:37
推
07/06 10:21,
4年前
, 1F
07/06 10:21, 1F
推
07/08 08:31,
4年前
, 2F
07/08 08:31, 2F
【更新】
claimsim_20200708.py
1、需要pypatent的檔案,我要修正它,所以直接下載並修正檔名為「DanEadsPypatent」
來使用,請同時下載該檔案。
2、本案是爬美國專利資料庫,已可以爬公開說明書和專利說明書。
3、本次修正,已可以計算整個說明書的段落的近似值,只是段落的編號與說明書編號不
一樣。請用p = thispatent('US6924620B2').description[3]來查詢段落內容。輸出結果
為:claim_similarity.txt。
4、與前次版本不同,本次不會下載任何檔案,是以後修正的目標。
※ 編輯: ides13 (114.32.228.170 臺灣), 07/09/2020 08:55:14
Patent 近期熱門文章
PTT職涯區 即時熱門文章