[請益] 英文單字還原的lib (snowball)
有沒有對語言有研究的大大,用過snowball這套演算法?
我們在做語言相關的研究,遇到一個很基本也很重要的問題
就是時態問題,過去式、原型、單複數...
為了簡化處理,希望能把動詞還原原型、複數還原單數
簡單的ed、s、ly之類的都還算好處理,沒有lib也可以自己算
網路上找了一陣,最多人討論的就是snowball的演算法,也有很多語言的lib
但是遇到y結尾的變化,他只是去ed而已
例如replied => repli,沒有還原成reply
但是我們系統資料庫通常是紀錄 reply,這樣就會match不到
但是像loving、loved這種又還原的很好成love
至於不規則變化,snowball看起來是完全不處理
想知道大家用snowball都是怎麼用的?
我們的狀況是會有很多單字的原型跟相關的資料
然後要對進來的資料mapping,給他相關資料
不論來的東西是原型、過去式、單複數,都要對的起來
或是我們也把自己的資料全部用snowball算一次存起來
然後進來的資料也用一樣的算法處理,再一路mapping回原本的資料 XD
還是乾脆自己建適合自己應用的表?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.180.153
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1535702600.A.5A3.html
→
08/31 17:15,
7年前
, 1F
08/31 17:15, 1F
→
08/31 17:15,
7年前
, 2F
08/31 17:15, 2F
推
08/31 18:11,
7年前
, 3F
08/31 18:11, 3F
推
09/01 00:43,
7年前
, 4F
09/01 00:43, 4F
→
09/01 00:44,
7年前
, 5F
09/01 00:44, 5F
推
09/01 10:15,
7年前
, 6F
09/01 10:15, 6F
→
09/01 22:47,
7年前
, 7F
09/01 22:47, 7F
推
09/02 07:38,
7年前
, 8F
09/02 07:38, 8F
→
09/02 07:38,
7年前
, 9F
09/02 07:38, 9F
→
09/02 07:39,
7年前
, 10F
09/02 07:39, 10F
→
09/02 07:40,
7年前
, 11F
09/02 07:40, 11F
→
09/02 07:40,
7年前
, 12F
09/02 07:40, 12F
→
09/02 07:42,
7年前
, 13F
09/02 07:42, 13F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):
Soft_Job 近期熱門文章
PTT職涯區 即時熱門文章
26
156