触点数字孪生,揭秘它的独特魅力
1024
2022-10-09
IMDb Large Movie Review-数据集
用于情感二元分类的数据集,其中包含 25,000 条用于训练的电影评论和 25,000 条用于测试的电影评论,这些电 影评论的特点是两极分化特别明显。另外数据集里也包含未标记的数据可供使用。
Unsupervised vector-based approaches to semantics can model rich lexical meanings, butthey largely fail to capture sentiment information that is central to many word meanings andimportant for a wide range of NLP tasks. Wepresent a model that uses a mix of unsupervised and supervised techniques to learn wordvectors capturing semantic term–document information as well as rich sentiment content.The proposed model can leverage both continuous and multi-dimensional sentiment information as well as non-sentiment annotations. We instantiate the model to utilize thedocument-level sentiment polarity annotationspresent in many online documents (e.g. starratings). We evaluate the model using small,widely used sentiment and subjectivity corpora and find it out-performs several previously introduced methods for sentiment classification. We also introduce a large datasetof movie reviews to serve as a more robustbenchmark for work in this area.
译:
无监督的基于向量的语义方法可以模拟丰富的词义,但它们基本上无法捕捉到情感信息,而情感信息是许多词义的核心,对大量的NLP任务都很重要。我们提出了一个模型,该模型综合使用无监督和有监督的技术来学习单词向量,它捕捉语义术语-文档信息和丰富的情感内容。这个该模型既可以利用连续的、多维的情感信息,又可以利用非情感标注。我们将模型实例化,以利用许多在线文档(例如星级评定)中的文档级情感极性注释。我们使用小型、广泛使用的情感和主观性语料库对该模型进行了评估,发现它执行了之前介绍的几种情感分类方法。我们还引入了一个大型的电影评论数据集,作为这方面工作的更可靠的基准。
只要自己有时间,都尽量写写文章,与大家交流分享。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。