本文摘要:NLP的工程不是算法的积累,也不是任务的独立国家优化,而是一个系统工程的过程,它考虑了语言、计算、场景等各种因素,经过极大的演化和融合,寻求一个结果令人失望的解决方案。

杭州华龙特种钢管有限公司

NLP的工程不是算法的积累,也不是任务的独立国家优化,而是一个系统工程的过程,它考虑了语言、计算、场景等各种因素,经过极大的演化和融合,寻求一个结果令人失望的解决方案。根据希尔伯特西蒙的受限理性模型,这是环境的高度复杂性和有限的信息处理能力所允许的,当自然语言处理应用于着陆时,我们不可能遵循“线性规划”的策略,但我们应该旨在提供一个目前可以拒绝的“令人失望的解决方案”。“拟合法”可以作为实验室环境下的研究目标,而“失望法”是我们在工程条件下唯一的自由选择。我们明确提出了“语言、计算、场景”的三角形失望解的NLP工程技术路线。

我们期望从工程的角度,综合语义符号反应、传统语言学的科学知识反应、深度自学的算法模型等,找到自然语言处理工程应用的失望解决方案。最小化语言特征是基本的语言资源。基本语言功能有限。

否则语言就会处于一种圆润不平的状态,人与人之间是不可能互相理解的。基本语言特征,包括词库、词汇的句法语义属性、词汇之间的关联性(同义、反义、上下)等。比如“Beat”是动词,“Happy”是动物情感,“胜利”和“结束”的反义词,“胜利”和“失败”的同义关系。

这些词的含义以及它们之间的关系在任何一个行业场景中都是基本不变的。我们已经构建了汉语和英语的基本语言特征集,包括8万多个常用词,涵盖了大多数常用词。中文常用词多达5万个,可以覆盖《人民日报》99%的新闻词。

对基本语言特征集进行分类。例如,为情绪计算的基本语言特征包括140多种情绪。

必须手动构建基本语言特征集。我们有一个30多人的语言团队。

经过10年的积累,可行性已经完全构建。语言特征的泛化是必要的。计算技术语言的使用是动态的,特定场景下的生词和用法不会频繁出现。

比如“深度自学”本来不是一个词,但近年来得到了广泛的应用,尤其是一种神经网络算法。这种特征响应可以使用机器学习算法(包括深度自学)从真实语料中自动学习,对基本语言特征进行扩展和归纳。利用机器学习算法,我们还可以归纳出同义词,例如,“查找,suglia,查找,查找”就是“搜索”的同义词。同时可以积极进行词语联想的泛化,比如“马云-阿里巴巴”和“马-腾讯”的关系类似。

通过机器学习得到的新单词和新用法,可以通过相似度计算等算法从基本语言特征中抵消,从而得到新单词对应的语言属性。比如“深度自学”就是一个名词,“算法”的下级,和“神经网络”同义。

偏移算子保证了广义特征的一致性。语言和算法的有效融合是关键。

根据每种语言结构的特点,我们可以在指导下自由选择算法。比如对于中文流水句的处理,流水句的转录特征是哪些语言特征,流水句是否适合LSTM算法,哪些特征参与LSTM运算等。代替所有的句法结构,LSTM模型被用于句法分析。

语言结构由于其动态性,不适合把结构本身作为机器学习的输出。而是应该通过语料库标注或规则设计进一步抽象成更抽象的特征,输出到机器学习和深度自学习算法中。

例如,在形容词谓语句的分析中,作为抽象特征的“形容词短语”被输出到语句分析算法,而不管使用哪种算法来获得“形容词短语”。忽略,机器学习算法的输入必须是语言特征或者语言结构的形式,这样才能保证结果的可解释性。我们指出深度自学习只是NLP算法库的一部分,在某个确定的环节其效果可能是最差的。机器学习(深度自学习)算法的针对性应用是自然语言处理工程的关键。

应用于场景时无法避免的约束是NLP适用的市场需求和环境。不同的约束应用于场景时是不同的。

有的场景处理营销数据,有的处理客服数据;有些场景可以获得大量的标记数据,而有些场景不能获得有限的业务规则;有些场景是实时的,有些是异步的。自然语言处理应该在满足场景约束的前提下,自由选择处理过程、计算算法、语料库资源等内容。比如对于一定量的数据,一定量的文本,营销场景和客服场景的输入拒绝几乎是不一样的,使用的算法也几乎是不一样的。

澳门威尔斯人

客服场景可以使用分类算法,但是营销场景可能不得不使用抽取算法。很多NLP应用都是在场景中使用的,客户期望在很短的时间内看到NLP应用的效果,建立一个不需要训练语料库的“冷启动”。

例如,在一个电信企业中,有2000多个类别的客户服务订单。电信自己组织了三个多月,每个分类下的数据很少,但是电信不可能帮我们在每个细分训练那么多数据,并拿到它来进行机器学习算法训练。“冷启动”的关键是规则方法和机器学习方法的有效结合。

第一步,使用规则方法构建一批规则,对应场景中使用的典型语料,展开规则分析,提供有针对性的特征,标记典型语料。第二步,将典型语料库的标注数据作为机器学习算法的样本,利用各种机器学习(深度自学习)算法进行扩展和推广。

对于一般化的结果,采用抽样的方法,进行人工验证,将结果重新添加到典型语料中。这种循环处置构成了一个良性循环,极大地逼近了客户的拒绝。

自然语言处理系统的研发和应用,是自然语言处理工程的目标,不仅要认识和引导语言科学知识,还要充分利用机器学习(深度自学)技术的优势,以机器学习为工具,不断递归发展,充分发挥自然语言处理在工程应用中的能力,构建失望解决方案。NLP工程希望超越以下目标:(1)可解释性。NLP系统输入的结果应该符合基本的语言学规则,可以用语言学术语解释,而不是得到一堆乱七八糟的数据,让用户从沙海中淘金。

(2)一致性,NLP系统的处理过程应该是随着待处理对象的层次和深度,逐步对模块进行转换,下层模块用于上层模块的结果,便于优化。而不是对每一个任务都用“一杆挂”的简单算法,中间的过程几乎就是一个黑箱。

(3)可用性,在应用NLP系统时,需要做即插即用的“冷启动”,或者在较小的数据集上开发规则解释和实践训练。所有只有用户标记海量数据才能启动的NLP系统都是流氓。(4)可迁移性,NLP系统应该移动到类似的场景,没有大的改动。

而不是几千人,应该是过度个性化。(5)自知,NLP系统的最终目标是要有自知之明,系统对输入结果要有特定的信心,哪些结果一定要保证正确,哪些一定不正确,哪些没有确认,必须人工干预。

凭借可信的自我认知能力,NLP系统不具备超出人类解释水平的基本条件。这两年有很多媒体报道电脑在读者解读、机器翻译等领域达到了人类的水平,这只是媒体的一种夸张误导。计算机只给出端到端的结果,给出的结果和标准答案达到了统计数据的一定百分比。

计算机对读者解读的东西一无所知,对给定结果的对错也没有任何概念。如果从自我认知的角度来看,他们对它的依赖程度,可能接近小学一年级学生的水平。语言解释是人工智能皇冠上的宝石。

必须超越理解能力,路又堵又宽;通过正确处理语言、计算和场景的集成,自然语言处理技术已经在从非结构化到结构化的应用方向上取得了巨大的成就,并获得了巨大的商业价值。自知NLP终极目标,任中任重道远,我们将与您一路同行。

本文关键词:澳门威尔斯人,澳门威尔斯人官网,杭州华龙特种钢管有限公司

本文来源:澳门威尔斯人-www.hzhlsteel.com

相关文章

网站地图xml地图