如果只想使用最新的 Word2Vec trained on Wikipedia with Phrase (100d)的話,請直接點擊 -> 2020.02.19 Wikipedia Word2Vec weights 下載網址。
前言
在前一篇 NLP專欄(1) — 詳解 Word2vec 介紹了 Word2Vec 的運作原理之後,但不管是 Google 的 Word2Vec 或者是 Stanford 的 Glove,距今也都有個六、七年之久,那時 windows 7 還是 Microsoft 最流行的作業系統,關於 AI、Machine Learning 的介紹也甚少,很幸運的是 Gensim 幫我們實作 Word2Vec 的訓練,所以我們可以用很簡單的幾行 code 就訓練出自己最新的 word embeddings。
在本文之中,除了使用最新 Wikipedia (英文)的資料來訓練我們的 word2vec 之外,還提供了一些範例來說明要如何訓練一個可以認識片語 (Phrase) 的模型。
步驟一:資料準備
到維基百科的頁面下載資料 https://dumps.wikimedia.org/enwiki/latest/,我下載了檔名為 enwiki-latest-pages-articles.xml.bz2的資料(作者下載日期為2020.02.19,檔案大小為16.88GB)。
步驟二:函式庫安裝
# 如果你使用 pip 的話
$ pip install gensim# 如果你使用 conda 的話
$ conda install -c anaconda gensim
步驟三:Preprocessing the wikipedia data,根據不同的需求選擇不同的Preprocessor:
步驟三(一):新建一個 Jupyter notebook/python file 並將 wikipedia 預處理(Preprocessing):
這一步驟在我的Macbook Pro上面執行大約花了一個半小時。
值得一提的是:在宣告 WikiCorpus 的時候,默認會將輸入文字全部轉成小寫,如果在你的例子之中,需要有大小寫的區分,務必加上 lower = False。
步驟三(二):如果需要使用到 lemmatize的話,可以使用spaCy 來達成目標:
如果你還不是很清楚什麼是 lemmatize 的話可以參考:詞形還原工具對比。因為要lemmatize的關係,這一步大約要花四個小時。
安裝spaCy:
# 如果你使用 pip 的話
$ pip install -U spacy# 如果你使用 conda
$ conda install -c conda-forge spacy
安裝spaCy Model (必要):
# spaCy 本身一個空殼,我們要幫這個殼裝上它的心臟
python -m spacy download en_core_web_md
和剛剛的非常類似,只是加上了三行:
步驟四:Train Your Own Word Vectors(步驟四(二))才有支援片語(Phrase)
步驟四(一):將 wiki-preprocessed-lemma.txt 拿來訓練我們的 word vectors
步驟四(二):訓練一個讀得懂「片語」的 word2vec
到這邊就大功告成啦,可以直接使用:
print(model.wv.most_similar('machine_learning')) # Phrase 中間的空格要用 _ 代替,而且只有步驟四(二)才支援 Phrase
結果為:
[('machine_learn', 0.9530839920043945),
('deep_learning', 0.9144971966743469),
('datum_mining', 0.8860416412353516),
('parallel_computing', 0.8649201393127441),
('scientific_computing', 0.8539735078811646),
('data_analysis', 0.8473660945892334),
('pattern_recognition', 0.8465429544448853),
('datum_analysis', 0.843416154384613),
('computer_vision', 0.8426181077957153),
('neural_network', 0.8414143323898315)]
希望能夠幫助到想要學習如何用 gensim 來創造自己最新詞向量的人!如果覺得這篇文章有幫助的話,也麻煩幫我鼓掌囉!謝謝!