关于NLP：使用Visual C＃从文本文件语料库中提取名词，名词短语，形容词动词

c#nlp

extracting nouns,noun phrases,adjectives verbs from text file corpus using visual c#

我正在做一个项目，其中我必须从文本文件(.doc)格式中提取名词形容词名词短语和动词。
我有大约75个这样的文件的语料库。我已经访问了net来找到有关它的信息，我使用nltk在python中遇到了POS标签。
因为我的项目在c＃中(使用Visual Studio 2008)，所以我需要一个代码来实现。
我已经尝试过使用wordnet api进行相同甚至是Sharpnlp的尝试，但是由于我是新手，所以我发现这些很难与我的项目集成。
有人可以建议我使用一些简单的代码(例如词汇表等)来做到这一点吗？plz帮助我。
谢谢。

相关讨论

我曾在NLP(自然语言处理)中担任行业领导者一段时间，您要做的并不是一件小事。我认识nltk的创建者之一，我自己使用过它。这是一个高质量的开源工具，我建议您使用它(使用C＃是否有令人信服的理由？)

POS标记通常是通过在手动注释的数据上训练语言模型，然后将该模型应用于新文本，预测语音部分并给人信心来实现的。 nltk具有执行此操作的工具，并且还具有一些模型(如果我没记错的话)。

您会发现大多数工具都是用C ++，Java和Python编写的。如果您不懂任何一种语言，则可以将其作为学习某些内容的绝佳机会！

有关更多信息和其他可用于此类标记的软件，请参见Wikipedia，尤其是底部的链接。

克里斯托弗(Christopher)的陈述是正确的，即NLP实现绝非野餐。但是，我最近研究了在带有基本PoS解析器的.NET项目中使用OpenNLP的可行解决方案。在我的示例中，我正在寻找名词短语，但是查找其他片段也并不难。我发现1.5版的OpenNLP工具模型足以满足我的目的。

我意识到对于提问者来说，这个答案来得太晚了，但是希望它将为其他人提供一些启发，帮助他们解决这个难题。

使用OpenNLP在.NET中提取具有上下文相关性的名词短语

请通读这篇文章。

将SharpNLP与C＃Visual Studio项目轻松集成

在本文中，我给出了将SharpNLP与C＃项目集成的逐步方法，并给出了示例代码段以专门解决您的问题，例如句子拆分，标记化和POSTagging。

试试看，我将能够为您解决遇到的问题。