自然语言 – 代码笔记

自然语言是指一种自然地随文化演化的语言。

维基百科：自然语言处理（英语：Natural Language Processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言处理包括多方面和步骤，基本有认知、理解、生成等部分。自然语言认知和理解是让计算机把输入的语言变成有意思的符号和关系，然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。

Table of Contents

自然语言处理的主要范畴：

文本朗读（Text to speech）
语音合成（Speech synthesis）
语音识别（Speech recognition）
中文自动分词（Chinese word segmentation）
词性标注（Part-of-speech tagging）
句法分析（Parsing）
自然语言生成（Natural language generation）
文本分类（Text categorization）
信息检索（Information retrieval）
信息抽取（Information extraction）
文字校对（Text-proofing）
问答系统（Question answering）
给一句人类语言的问句，决定其答案。典型问题有特定答案 (像是加拿大的首都叫什么?)，但也考虑些开放式问句(像是人生的意义是是什么?)
机器翻译（Machine translation）
将某种人类语言自动翻译至另一种语言
自动摘要（Automatic summarization）
产生一段文字的大意，通常用于提供已知领域的文章摘要，例如产生报纸上某篇文章之摘要
文字蕴涵（Textual entailment）
命名实体识别（Named entity recognition）

自然语言处理研究的难点

单词的边界界定
在口语中，词与词之间通常是连贯的，而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上，汉语也没有词与词之间的边界。
词义的消歧
许多字词不单只有一个意思，因而我们必须选出使句意最为通顺的解释。
句法的模糊性
自然语言的文法通常是模棱两可的，针对一个句子通常可能会剖析（Parse）出多棵剖析树（Parse Tree），而我们必须要仰赖语义及前后文的信息才能在其中选择一棵最为适合的剖析树。
有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音，或者在文本的处理中处理拼写，语法或者光学字符识别（OCR）的错误。
语言行为与计划
句子常常并不只是字面上的意思；例如，“你能把盐递过来吗”，一个好的回答应当是动手把盐递过去；在大多数上下文环境中，“能”将是糟糕的回答，虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者，如果一门课程去年没开设，对于提问“这门课程去年有多少学生没通过？”回答“去年没开这门课”要比回答“没人没通过”好。

当前自然语言处理研究的发展趋势

第一，传统的基于句法-语义规则的理性主义方法过于复杂，随着语料库建设和语料库语言学的崛起，大规模真实文本的机器学习处理成为自然语言处理的主要选择。
第二，统计数学方法越来越受到重视，自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
第三，浅层处理与深层处理并重，统计与规则方法并重，形成混合式的系统。

V5数据专家知识库搭建服务

假设
我们遇到一个问句：借书证丢失
而
借书证 = 借书卡，阅读证，阅读卡，借阅证，借阅卡，读者证，读者卡…（算8个吧）
丢失 = 丢了，遗失，掉了，弄掉了，搞掉了，弄没了，不见了，没见了…（算11个吧）
结论
1. 在不考虑次序的情况下，“借书证丢失”的同义句有：▲共88句
2. 再将这88句调换下次序：▲同义句数量 +88
3. 在这个基础上，加些修饰成分
如：
定语：我的借书证丢了 +88
状语：借书证已经丢了 +88
补语：借书证丢路上了 +88
语气词：借书证丢了啦 +88
……
天呐，“借书证丢失”这个句子的同义句到底有多少个？
很专业地告诉你：无穷个
（⊙ o ⊙ ）
曾经，有人想通过自己的勤奋，遇到一个同义句说法就加进去。
结果，从来没做完过
如此专业复杂的语言系统，还是交给专业的人来处理！

自然语言处理的主要范畴：

自然语言处理研究的难点

当前自然语言处理研究的发展趋势

V5数据专家知识库搭建服务

相关链接：