網站布局之TF-IDF算(suàn)法,說白了(le)在我理(lǐ)解來(lái),這(zhè)個(gè)算(suàn)法就是通(tōng)過一個(gè)的(de)數學計算(suàn),來(lái)确定每個(gè)詞在文章(zhāng)中的(de)權重,從而得(de)到一篇文章(zhāng)的(de)關于詞的(de)帶權重的(de)向量,知道了(le)這(zhè)個(gè)以後就好辦了(le),之後什(shén)麽文章(zhāng)關鍵字提取、概述、不同的(de)文章(zhāng)之前的(de)相似性比較都引刃而解了(le)。
求一個(gè)詞的(de)權重就用(yòng)到TF-IDF算(suàn)法,其實TF-IDF算(suàn)法是分(fēn)爲TF(Term Frequency,縮寫爲TF)與IDF(Inverse Document Frequency,縮寫爲IDF)的(de)計算(suàn)。
說起來(lái)也(yě)簡單,TF就是這(zhè)個(gè)詞在文章(zhāng)中的(de)詞頻(pín),出現的(de)次數比上文章(zhāng)的(de)總次數或者出現次數最高(gāo)的(de)詞的(de)個(gè)數。而IDF則是表示TF-IDF算(suàn)法分(fēn)母上加一是爲了(le)防止分(fēn)母爲零。
TF-IDF
這(zhè)個(gè)數學的(de)表達式也(yě)符合情理(lǐ),如果關鍵字(除去“的(de)”、“爲了(le)”之類的(de)去除字)在越多(duō)的(de)文檔中出現,它在本篇文章(zhāng)中的(de)權重自然就低了(le),舉個(gè)簡單的(de)例子:給你一個(gè)關鍵字計算(suàn)機,你一點也(yě)不知道這(zhè)貨表達的(de)意思,因爲(從這(zhè)個(gè)算(suàn)法角度講)它在太多(duō)的(de)文章(zhāng)中出現,但是如果你的(de)關鍵字爲0day就不一樣了(le),包含它的(de)文檔數遠(yuǎn)遠(yuǎn)小于包含關鍵字“計算(suàn)機”的(de)文檔數。由此,如果在同一篇文章(zhāng)裏,如果“0day”與“計算(suàn)機”的(de)TF(詞頻(pín))相同,IDF就可(kě)以保證“0day”的(de)權重較高(gāo)了(le)。
基本的(de)算(suàn)法就是這(zhè)樣了(le),其實很簡單,但是這(zhè)個(gè)算(suàn)法是基于這(zhè)樣一個(gè)前提,關鍵詞越重要,出現的(de)頻(pín)率越高(gāo)。同時(shí)忽略了(le)詞出現位置的(de)影(yǐng)響,所以這(zhè)個(gè)算(suàn)法存在漏洞。
|