奇番Kaggle关于IMDB情感分类

来自：奇番网发表于:2019-01-22 21:40:00 浏览:100次关键词:Kaggle关于IMDB情感分类

过去了17天，按照学习计划来说，已经严重超时了。主要的问题是在数据预处理部分。 Kaggle的IMDB情感分析任务其实很简单，train文件用于训练，test文件用于测试。

数据集是tsv格式数据，说白了是分成了5类:

0 - negative
1 - somewhat negative
2 - neutral
3 - somewhat positive
4 - positive

我们先读取一下看看。TSV文件和CSV的文件的区别是：前者使用\t作为分隔符，后者使用,作为分隔符。

可以看到总共156060条记录，其中打2分的数据最多，说明大家都还是很中庸啊。

以上是数据的描述性统计结果，当然，还可以做一下可视化，这些参考kaggle的泰坦尼克号任务操作。

接下来是要对语料库向量化，这其实就是一种对文本特征的抽取。
文中提到了两种方式：BOW（词袋）和Word2Vec，相比而言，Word2Vec所包含的信息更多，而且gensim库已经打包好了，在这里使用word2vec。

在2017年新的特征抽取算法transformer将会横扫一切……

在完成词向量抽取后，将进行分类器的训练。在这里，我们将train和test数据集进行合并，构造出一个维度为200的词向量模型，使用gensim库进行构建。

# 合并test和train的数据，用于训练词向量模型
newDf = pd.concat(, "sentiment":result} )
output.to_csv( "Word2Vec_AverageVectors.csv", index=False, quoting=3 )

到这里大致就完成了，但是，我们希望使用RNN来处理，接下来就是构建LSTM作为分类器。

	Kaggle关于IMDB情感分类
	Kaggle关于IMDB情感分类

	云梦永生(第九章娱乐八卦)
	白色喵星人好忧伤啊
	什么样的家居布局会导致漏财的风水呢?装修必看
	性感女优天木纯最新室内大尺度写真集套图，不要错过了！
	中秋前夕\|思念与情感
	早财经丨习近平签署发布特赦令,特赦九类服刑罪犯;深成指上半年涨幅全球第二;任正非:若非孟晚舟事件,加拿大或成华为世界理论科研中心
	长发美胸妹@Miller 米乐儿性感写真图片
	259luxu系列十大极品之一259luxu-831，女主角三ノ宮舞还是一如既往的“开放”啊。
	《美国英雄》迅雷下载(2015新片)
	《有客到》——迅雷下载（2015恐怖惊悚）

	情感测试:你最喜欢穿哪件衣服?测你在异性眼中的吸引力!我选A
	情感语录:心若相知,无言也默契;情若相眷,不语也怜惜
	摄影中肌理——情感的符号
	【永宁警事】女子因情感纠纷跳水轻生,警民联手奋勇施救!
	在外面,不要叫我妈妈(情感故事)
	现实又很扎心的情感语录,绝对值得收藏
	超现实的情感句子,句句深情,当做个性签名很合适!
	【男女情感交友】游泳教练比游泳池的水还深?
	情感\|感情中,他若跟你论输赢,冷战,你就应该明白一个道理
	情感语录\|别妄想猜透我的模样,因为人心险恶,我已学会千变万化