excel去除文本中的不可打印字符 处理csv文件的时候,有时文本中有一些不可打印的字符,影响诸如文件分行和excel的解析。主要需要去除文本中的换行符和制表符。 2019-03-31 数据处理 excel
基于句法依存树的信息抽取 信息抽取是一个常见的nlp任务,为经常一起提到的知识图谱的基础。 这里有一份比较好的知识图谱入门资料:Mining Knowledge Graphs from Text 信息抽取分为有监督和无监督方法。实际中监督信息往往是缺失的,所以本文主要提无监督方法。 在无监督方法中,一个广泛采用的工具是句法依存树,或者叫句法解析树(Dependency Tree)。 2018-12-16 自然语言处理 自然语言处理 NLP
样本类别不均衡处理 分类任务中样本类别不均衡是常有的事,当样本之间的不均衡程度较小的时候,可以不作处理,当正负样本比例较大(比如10:1)且训练数据较少的时候,就需要做不均衡的处理。常见的处理方式可以分为如下几类: 采样方法 下采样(或欠采样,under-sampling) 上采样(或过采样,over-sampling) 混合采样 数据增强 收集更多的数据 造数据 更改评价指标 cost sensitive 2018-12-16 机器学习 机器学习 machine learning
双数组Trie树(DoubleArrayTrie) 双数组Trie树(DoubleArrayTrie) NLP领域又很多需要词典匹配的需求,也就是,字典树+词典的基本方案。对于中文这种字较多的语言,双数组Trie树是比Trie树更好的结构。 2018-10-09 自然语言处理 数据结构 自然语言处理
命名实体识别综述 命名实体识别(Named Entity Recognition,NER)为自然语言处理(NLP)的基础任务之一,其目标是提取文本中的命名实体并对这些实体进行分类,比如人名、地名、机构、时间、货币和百分比等,广泛用于信息提取、问答系统、句法分析、信息检索和情感分析等任务。 命名实体识别不仅需要找出实体的位置,还需要对实体进行分类。 2018-10-03 机器学习 机器学习 深度学习 NLP NER
图半监督节点分类之五——实验与总结 本文对上几篇文章说诉的方法进行了实验验证和总结。 2018-10-03 机器学习 深度学习 machine learning graph embedding 半监督分类 概率图模型
图半监督节点分类之四——基于自适应高阶近似编码 上一篇文章已经详细描述了在半监督图编码任务中,保持高阶近似的重要性。尤其当图比较稀疏时,节点的一阶和二阶邻居的数目太少以致于不能准确反映节点的上下文。从更细的角度来看,图中不同节点所处的位置不同,其局部图结构也就不同。有些节点处于图中比较稠密的部分,比如社团中部,邻居信息足够,能准确地反映节点的类别分布。但是信息过多也不一定是一件好事,比如有些节点夹在两类节点和两个社团的中间,这些节点的邻居很多但 2018-10-03 机器学习 深度学习 machine learning graph embedding 半监督分类 RNN
图半监督节点分类之三——基于循环神经网络 高阶依赖建模一直是图编码研究的热门话题,通过高阶依赖建模能捕获更长的网络结构依赖,保持节点之间的高阶近似。直观上,两个节点没有边相连,并不意味着这两个节点不相似。相反,如果两个节点在网络上通过某些节点能建立很强的联系,这两个节点仍然可以被认为相似。上一章提出的GCN-CRF模型,是基于GCN做图编码的。但是GCN是基于图上谱卷积的一阶近似方法,从而只能捕获一阶依赖。本章的目标是对更远的依赖范围进行 2018-10-03 机器学习 深度学习 machine learning graph embedding 半监督分类 RNN