基于机器学习的文本分类
学习目标
- 学会TF-IDF的原理和使用
- 使用sklearn的机器学习模型完成文本分类
机器学习模型
文本表示方法
One-hot
1 | 句子1:我 爱 北 京 天 安 门 |
Bag of Words
每个文档的字/词可以使用其出现次数来进行表示。
1 | 句子1:我 爱 北 京 天 安 门 |
1 | from sklearn.feature_extraction.text import CountVectorizer |

N-gram
相邻单词组合成为新的单词
1 | # N = 2 |
1 | from sklearn.feature_extraction.text import CountVectorizer |

TF-IDF
TF:词语频率。该词语在当前文档出现的次数 / 当前文档中词语的总数
IDF:逆文档频率:语料库中文档总数除以含有该词语的文档数量,然后再取对数。log_e(文档总数 / 出现该词语的文档总数)
1 | from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer |

文本分类
RidgeClassifier——岭回归分类器
1 | sklearn.linear_model.RidgeClassifier( |
Count Vectors + RidgeClassifier
1 | import pandas as pd |
TF-IDF + RidgeClassifier
1 | import pandas as pd |