按 Enter 到主內容區
:::

經濟部智慧財產局Logo

:::

GPSS系統推出優化統計分析及圖表分析的新功能

3.特搜-1

全球專利檢索系統(GPSS)資料庫收錄105個國家約1.5億筆專利資料,為提高檢索反應效能,採用平行運算及管控停用詞(Stopwords)的技術,讓GPSS系統達到最佳化,然其中由於申請人/發明人名稱的原始資料會因為各項因素導致非常雜亂,以致於檢索統計分析時得到的結果與正確性常落差很大,使用者如要正確的統計就必須從系統下載專利案件,再經人工去除雜訊後進行統計,以致於需花費很多的時間額外處理,在考量產業界使用便利性的情況下,GPSS系統於111年11月底推出更進階的「優化」統計分析及圖表分析的新功能,讓使用者於分析模式可選擇原始資料的「標準分析」或經過GPSS系統將資料處理過的「優化分析」,優化分析時系統會先對資料進行下列2項優化處理:

1、申請人/發明人資料標準化

將標點符號、英文公司縮寫、中文正簡體透通、全形半形、特殊字元、空格等雜訊因素進行相同格式處理,俟去除雜訊歸類在一起後再進行統計。

(1) 標點符號處理:資料中常見有CO LTD、CO. LTD.、CO., LTD.等各種公司縮寫的標點符號,這些類型在電腦上都會被認為是不同的公司,統計上就不會歸類在一起,所以系統會將所有標點符號移除,讓格式一致能歸類在一起統計。

(2) 英文公司縮寫處理:公司英文名稱常有全名及縮字表示,導致統計時不會歸類在一起,所以將下表常見名稱都轉換成縮字,讓格式一致能歸類在一起統計:

特搜1-1

 
(3) 中文正簡體透通處理:例如將簡體的鸿海精密工业股份有限公司轉換成正體的鴻海精密工業股份有限公司歸類在一起統計。
(4) 全形半形處理:例如將全形IBM轉換成半形的IBM歸類在一起統計。
(5) 特殊字元處理:常見有…(股)有限公司、…(股)公司,將其轉換成…股份有限公司歸類在一起統計。
(6) 空格處理:由於前端人為輸入資料時,常會發生公司名稱的第1個或最後1個有空格,或者字與字之間有2個空格,這些類型在電腦上都會被認為是不同的公司,所以GPSS系統會先處理成前後端不留空格及中間只留1個空格的相同格式,將其歸類在一起統計。
 
2、綜整申請人/發明人名稱
同1申請人在各國專利局申請時,申請人/發明人名稱會有原始國語文、英文、原始國語文+英文等3種呈現狀態,導致無法歸類在一起統計,GPSS系統會預先將1.5億筆資料資轉對照表,將3種狀態整合成同一申請人/發明人,讓統計時歸類在一起。
 
申請人/發明人資料經過標準化及名稱綜整處理後,由以下例子的差異比較,可以發現優化分析後,前幾名的數量增加幅度都很大,其中排名第1的MITSUBISHI公司的數量由1,769增加到2,829,增加1,060筆、增加幅度為60%,由此可見,經過資料處理的優化分析才會更精確。
 
特搜1-2
  • 發布日期 : 111-12-05
  • 更新日期 : 111-11-30
  • 發布單位 : 國際及法律事務室
  • 瀏覽人次 : 753

訂閱電子報

每月寄送一次,提供我國智財權發展與新知 讓您完整掌握IP最新動態、國際趨勢

回頁首