http://kxi.me/0K

是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了
来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。
安装和编译
比较方便,在ubuntu环境下,直接用pip安装即可:
sudo apt-get install build-essential python-dev git
sudo pip install -U spacy
不过安装完毕之后,需要下载相关的模型数据,以英文模型数据为例,可以用”all”参数下载所有的数据:
sudo python -m spacy.en.download all
或者可以分别下载相关的模型和用glove训练好的词向量数据:
# 这个过程下载英文tokenizer,词性标注,句法分析,命名实体识别相关的模型
python -m spacy.en.download parser
# 这个过程下载glove训练好的词向量数据
python -m spacy.en.download glove
下载好的数据放在spacy安装目录下的data里,以我的ubuntu为例:
textminer@textminer:/usr/local/lib/python2.7/dist-packages/spacy/data$ du -sh *
776M& & en-1.1.0
774M& & en_glove_cc_300_1m_vectors-1.0.0
进入到英文数据模型下:
textminer@textminer:/usr/local/lib/python2.7/dist-packages/spacy/data/en-1.1.0$ du -sh *
424M& & deps
8.0K& & meta.json
84K tokenizer
300M& & vocab
6.3M& & wordnet
可以用如下命令检查模型数据是否安装成功:
textminer@textminer:~$ python -c & spacy.load('en'); print('OK')&
也可以用pytest进行测试:
# 首先找到spacy的安装路径:
python -c & print(os.path.dirname(spacy.__file__))&
/usr/local/lib/python2.7/dist-packages/spacy
# 再安装pytest:
sudo python -m pip install -U pytest
# 最后进行测试:
python -m pytest /usr/local/lib/python2.7/dist-packages/spacy --vectors --model --slow
============================= test session starts ==============================
platform linux2 -- Python 2.7.12, pytest-3.0.4, py-1.4.31, pluggy-0.4.0
rootdir: /usr/local/lib/python2.7/dist-packages/spacy, inifile:
collected 318 items
../../usr/local/lib/python2.7/dist-packages/spacy/tests/test_matcher.py ........
../../usr/local/lib/python2.7/dist-packages/spacy/tests/matcher/test_entity_id.py ....
../../usr/local/lib/python2.7/dist-packages/spacy/tests/matcher/test_matcher_bugfixes.py .....
../../usr/local/lib/python2.7/dist-packages/spacy/tests/vocab/test_vocab.py .......Xx
../../usr/local/lib/python2.7/dist-packages/spacy/tests/website/test_api.py x...............
../../usr/local/lib/python2.7/dist-packages/spacy/tests/website/test_home.py ............
============== 310 passed, 5 xfailed, 3 xpassed in 53.95 seconds ===============
现在可以快速测试一下spaCy的相关功能,我们以英文数据为例,spaCy目前主要支持英文和德文,对其他语言的支持正在陆续加入:
textminer@textminer:~$ ipython
Python 2.7.12 (default, Jul &1 2016, 15:12:24)
Type &copyright&, &credits& or &license& for more information.
IPython 2.4.1 -- An enhanced Interactive Python.
? & & & & -& Introduction and overview of IPython's features.
%quickref -& Quick reference.
help & & &-& Python's own help system.
object? & -& Details about 'object', use 'object??' for extra details.
In [1]: import spacy & & & & &
# 加载英文模型数据,稍许等待
In [2]: nlp = spacy.load('en')
Word tokenize功能,spaCy 1.2版本加了中文tokenize接口,基于中文分词:
In [3]: test_doc = nlp(u&it's word tokenize test for spacy&) & & & & & &
In [4]: print(test_doc)
it's word tokenize test for spacy
In [5]: for token in test_doc: & & & & & & & & & & & & & & & & & & & & &
& & print(token)
& &...: & &
In [6]: test_doc = nlp(u'Natural language processing (NLP) deals with the application of computational models to text or speech data. Application areas within NLP include automatic (machine) translati dialogue systems, which allow a human to interact with a machine us and information extraction, where the goal is to transform unstructured text into structured (database) representations that can be searched and browsed in flexible ways. NLP technologies are having a dramatic impact on the way people interact with computers, on the way people interact with each other through the use of language, and on the way people access the vast amount of linguistic data now in electronic form. From a scientific viewpoint, NLP involves fundamental questions of how to structure formal models (for example statistical models) of natural language phenomena, and of how to design algorithms that implement these models.')
In [7]: for sent in test_doc.sents:
& & print(sent)
& &...: & &
Natural language processing (NLP) deals with the application of computational models to text or speech data.
Application areas within NLP include automatic (machine) translation between languages; dialogue systems, which allow a human to interact with a machine using natural language; and information extraction, where the goal is to transform unstructured text into structured (database) representations that can be searched and browsed in flexible ways.
NLP technologies are having a dramatic impact on the way people interact with computers, on the way people interact with each other through the use of language, and on the way people access the vast amount of linguistic data now in electronic form.
From a scientific viewpoint, NLP involves fundamental questions of how to structure formal models (for example statistical models) of natural language phenomena, and of how to design algorithms that implement these models.
词干化(Lemmatize):
In [8]: test_doc = nlp(u&you are best. it is lemmatize test for spacy. I love these books&)
In [9]: for token in test_doc: & & & & & & & & & & & & & & & & & & & & & & & & & & &
& & print(token, token.lemma_, token.lemma)
& &...: & &
(you, u'you', 472)
(are, u'be', 488)
(best, u'good', 556)
(., u'.', 419)
(it, u'it', 473)
(is, u'be', 488)
(lemmatize, u'lemmatize', 1510296)
(test, u'test', 1351)
(for, u'for', 480)
(spacy, u'spacy', 173783)
(., u'.', 419)
(I, u'i', 570)
(love, u'love', 644)
(these, u'these', 642)
(books, u'book', 1011)
词性标注(POS Tagging):
In [10]: for token in test_doc: & & & & & & & & & & & & & & & & & & & & & & & & & &
& & print(token, token.pos_, token.pos)
& &....: & &
(you, u'PRON', 92)
(are, u'VERB', 97)
(best, u'ADJ', 82)
(., u'PUNCT', 94)
(it, u'PRON', 92)
(is, u'VERB', 97)
(lemmatize, u'ADJ', 82)
(test, u'NOUN', 89)
(for, u'ADP', 83)
(spacy, u'NOUN', 89)
(., u'PUNCT', 94)
(I, u'PRON', 92)
(love, u'VERB', 97)
(these, u'DET', 87)
(books, u'NOUN', 89)
命名实体识别(NER):
In [11]: test_doc = nlp(u&Rami Eid is studying at Stony Brook University in New York&)
In [12]: for ent in test_doc.ents:
& & print(ent, ent.label_, ent.label)
& &....: & &
(Rami Eid, u'PERSON', 346)
(Stony Brook University, u'ORG', 349)
(New York, u'GPE', 350)
名词短语提取:
In [13]: test_doc = nlp(u'Natural language processing (NLP) deals with the application of computational models to text or speech data. Application areas within NLP include automatic (machine) translati dialogue systems, which allow a human to interact with a machine us and information extraction, where the goal is to transform unstructured text into structured (database) representations that can be searched and browsed in flexible ways. NLP technologies are having a dramatic impact on the way people interact with computers, on the way people interact with each other through the use of language, and on the way people access the vast amount of linguistic data now in electronic form. From a scientific viewpoint, NLP involves fundamental questions of how to structure formal models (for example statistical models) of natural language phenomena, and of how to design algorithms that implement these models.')
In [14]: for np in test_doc.noun_chunks:
& & print(np)
& &....: & &
Natural language processing
Natural language processing (NLP) deals
the application
computational models
Application areas
automatic (machine) translation
dialogue systems
natural language
information extraction
unstructured text
structured (database) representations
flexible ways
NLP technologies
a dramatic impact
the vast amount
linguistic data
electronic form
a scientific viewpoint
fundamental questions
formal models
natural language phenomena
algorithms
these models
基于词向量计算两个单词的相似度:
In [15]: test_doc = nlp(u&Apples and oranges are similar. Boots and hippos aren't.&)
In [16]: apples = test_doc[0]
In [17]: print(apples)
In [18]: oranges = test_doc[2]
In [19]: print(oranges)
In [20]: boots = test_doc[6]
In [21]: print(boots)
In [22]: hippos = test_doc[8]
In [23]: print(hippos)
In [24]: apples.similarity(oranges)
Out[24]: 0.23805
In [25]: boots.similarity(hippos)
Out[25]: 0.008429
当然,spaCy还包括句法分析的相关功能等。另外值得关注的是 spaCy 从1.0版本起,加入了对工具的支持,例如
和 Keras 等,这方面具体可以参考官方文档给出的一个对情感分析()模型进行分析的例子:.
注:原创文章,转载请注明出处及保留链接“”:
本文链接地址:
, , , , , , , , , , , , , , , , , , , , , , , , , , ,
已关闭评论
1、一切从维基百科开始,大致了解一个全貌:
2、拿起纸和笔,再加上ipython or 计算器,通过一个例子直观感受反向传播算法:
3、再玩一下上篇例子对应的200多行Python代码:
4、有了上述直观的反向传播算法体验,可以从1986年这篇经典的论文入手了:
5、如果还是觉得晦涩,推荐读一下”“这本深度学习在线书籍的第二章:
6、或者可以通过油管看一下这个神经网络教程的前几节关于反向传播算法的视频:
7、 同学对于上述视频和相关材料有一个解读:
8、这里还有一个比较简洁的数学推导:
9、 同学对反向传播算法原理及代码解读:
10、关于反向传播算法,更本质一个解释:自动微分反向模式(Reverse-mode differentiation )
注:原创文章,转载请注明出处及保留链接“”:
本文链接地址:
, , , , , , , , , , , , , , ,
接上文《》,我们继续来安装 ,使其支持显卡。
1 下载和安装cuDNN
全称 CUDA Deep Neural Network library,是NVIDIA专门针对深度神经网络设计的一套GPU计算加速库,被广泛用于各种深度学习框架,例如Caffe, TensorFlow, Theano, Torch, CNTK等。
The NVIDIA CUDA(R) Deep Neural Network library (cuDNN) is a GPU-accelerated library of primitives for deep neural networks. cuDNN provides highly tuned implementations for standard routines such as forward and backward convolution, pooling, normalization, and activation layers. cuDNN is part of the NVIDIA Deep Learning SDK.
Deep learning researchers and framework developers worldwide rely on cuDNN for high-performance GPU acceleration. It allows them to focus on training neural networks and developing software applications rather than spending time on low-level GPU performance tuning. cuDNN accelerates widely used deep learning frameworks, including Caffe, TensorFlow, Theano, Torch, and CNTK. See supported frameworks for more details.
首先需要下载cuDNN,直接从Nvidia官方下载链接选择一个版本,不过下载cuDNN前同样需要登录甚至填写一个简单的调查问卷: ,这里选择的是支持CUDA8.0的cuDNN v5版本,而支持CUDA8的5.1版本虽然显示在下载选择项里,但是提示:cuDNN 5.1 RC for CUDA 8RC will be available soon – please check back again.
安装cuDNN比较简单,解压后把相应的文件拷贝到对应的CUDA目录下即可:
tar -zxvf cudnn-8.0-linux-x64-v5.0-ga.tgz
cuda/include/cudnn.h
cuda/lib64/libcudnn.so
cuda/lib64/libcudnn.so.5
cuda/lib64/libcudnn.so.5.0.5
cuda/lib64/libcudnn_static.a
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
接上文《》,这台GTX1080主机准备好之后,就是配置深度学习环境了,这里选择了比较熟悉Ubuntu系统,不过是最新的16.04版本,另外在Nvidia GTX1080的基础上安装相关GPU驱动,外加CUDA8.0,因为都比较新,所以踩了很多坑。
1. 安装Ubuntu16.04
不考虑双系统,直接安装 Ubuntu16.04,从下载64位版本: ubuntu-16.04-desktop-amd64.iso 。
在MAC下制作了 Ubuntu USB 安装盘,具体方法可参考: ,之后通过Bios引导U盘启动安装Ubuntu系统:
1)一开始安装就踩了一个坑,选择”Install Ubuntu”回车后过一会儿屏幕显示“输入不支持”,google了好多方案,最终和ubuntu对显卡的支持有关,需要手动添加显卡选项: nomodeset,使其支持Nvidia系列显卡,参考: or
2) 磁盘分区,全部干掉之前自带的Window 10系统,分区为 /boot, /, /home 等几个目录,同时把第二块4T硬盘也挂载了上去,作为数据盘。
3)安装完毕后Ubuntu 16.04的分辨率很低,在显卡驱动未安装之前,可以手动修改一下grub文件:
sudo vim /etc/default/grub
# The resolution used on graphical terminal
# note that you can use only modes which your graphic card supports via VBE
# you can see them in real GRUB with the command `vbeinfo’
#GRUB_GFXMODE=640×480
# 这里分辨率自行设置
GRUB_GFXMODE=8
sudo update-grub
4)安装SSH Server,这样可以远程ssh访问这台GTX1080主机:
sudo apt-get install openssh-server
5)更新Ubuntu16.04源,用的是:
cd /etc/apt/
sudo cp sources.list sources.list.bak
sudo vi sources.list
把下面的这些源添加到source.list文件头部:
deb http://mirrors./ubuntu/ xenial main restricted universe multiverse
deb http://mirrors./ubuntu/ xenial-security main restricted universe multiverse
deb http://mirrors./ubuntu/ xenial-updates main restricted universe multiverse
deb http://mirrors./ubuntu/ xenial-proposed main restricted universe multiverse
deb http://mirrors./ubuntu/ xenial-backports main restricted universe multiverse
deb-src http://mirrors./ubuntu/ xenial main restricted universe multiverse
deb-src http://mirrors./ubuntu/ xenial-security main restricted universe multiverse
deb-src http://mirrors./ubuntu/ xenial-updates main restricted universe multiverse
deb-src http://mirrors./ubuntu/ xenial-proposed main restricted universe multiverse
deb-src http://mirrors./ubuntu/ xenial-backports main restricted universe multiverse
最后更新源和更新已安装的包:
sudo apt-get update
sudo apt-get upgrade
, , , , , , , , , , , , , , , , , , , ,
先说一点题外话,最近发现
因为庆祝将所有的Plan加了一倍,又来了一次加量不加价,这一下子和别的产品拉开了差距,可惜目前日本节点并不参加活动,否则52nlp目前所用的这台
主机性能就可以翻倍了。不过还是搞了一台
8GB(8G内存,4核,96G SSD硬盘容量) 的VPS套餐(40$/mo),选择了美国西部的 Fremont 节点,据说国内连接速度很不错。在上面选择了64位的Ubuntu14.04 版本,但是在这个环境下安装的过程中接连踩了几个坑,所以记录一下。
这里曾写过“”系列文章,也在github上发布过一个项目 :Chinese morphological analysis with Word Segment and POS Tagging data for MeCab ,但是这个过程中没有怎么写到Mecab安装的问题,因为之前觉得的这篇《》应该足够参考,自己当时也在Mac OS和Ubuntu环境下安装成功并测试,印象貌似不是太复杂。这次在Ubuntu 14.04的环境安装的时候,遇到了几个小坑,记录一下,做个备忘,仅供参考。
, , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
五月中下旬的时候,的公布和发售直接刺激了我攒一台深度学习主机的欲望,攒机对于我来说已经相隔十多年,大学时候的第一台PC就是攒出来的,其实也就是在5000元的预算内,去电脑城里找商家组装了一台台式机,美其名曰DIY。
虽然已经锁定显卡,但是对于其他的搭配还是很模糊,只是需要“好CPU”,“大内存”, “大硬盘”, 于是开始google “深度学习电脑”,“深度学习服务器”,“深度学习PC”, “深度学习主机”,“深度学习机器”,“深度学习工作站”这些关键词,并很快锁定了这篇文章《》作为主要参考:
硬件选择:基本思路是单显卡机器,保留升级空间
……
在深度学习任务中,CPU并不负责主要任务,单显卡计算时只有一个核心达到100%负荷,所以CPU的核心数量和显卡数量一致即可,太多没有必要,但是处理PCIE的带宽要到40。
主板选择:
需要支持X99架构,支持PCIe3.0,还要支持4通道DDR4内存架构。如果要搞四显卡并行,PCIE带宽支持要达到40,并且支持4-Way NVIDA SLI技术。
达到显存的二倍即可,当然有钱的话越大越好。
电源问题:一个显卡的功率接近300W,四显卡建议电源在1500W以上,为了以后扩展,选择了1600W的电源。
机箱散热:
因为各种部件相当庞大,需要有良好散热功能的大机箱,选择了Tt Thermaltake Core V51机箱,标配3个12cm风扇。未来如果需要还可以加装水冷设备。
……
最后的硬件配置:
CPU: Intel X99平台 i7 5960K
内存: DDR4 G*4)
主板: GIGABYTE X99-UD4
显卡: GTX Titan X
硬盘: SSD+普通硬盘
, , , , , , , , , , , ,
智能问答机器人火得不行,开始研究深度学习在NLP领域的应用已经有一段时间,最近在用深度学习模型直接进行QA系统的问答匹配。主流的还是CNN和LSTM,在网上没有找到特别合适的可用的代码,自己先写了一个CNN的(theano),效果还行,跟论文中的结论是吻合的。目前已经应用到了我们的产品上。
参看《Applying Deep Learning To Answer Selection: A Study And An Open Task》,文中比较了好几种网络结构,选择了效果相对较好的其中一个来实现,网络描述如下:
Q&A共用一个网络,网络中包括HL,CNN,P+T和Cosine_Similarity,HL是一个g(W*X+b)的非线性变换,CNN就不说了,P是max_pooling,T是激活函数Tanh,最后的Cosine_Similarity表示将Q&A输出的语义表示向量进行相似度计算。
详细描述下从输入到输出的矩阵变换过程:
Qp:[batch_size, sequence_len],Qp是Q之前的一个表示(在上图中没有画出)。所有句子需要截断或padding到一个固定长度(因为后面的CNN一般是处理固定长度的矩阵),例如句子包含3个字ABC,我们选择固定长度sequence_len为100,则需要将这个句子padding成ABC&a&&a&…&a&(100个字),其中的&a&就是添加的专门用于padding的无意义的符号。训练时都是做mini-batch的,所以这里是一个batch_size行的矩阵,每行是一个句子。
Q:[batch_size, sequence_len, embedding_size]。句子中的每个字都需要转换成对应的字向量,字向量的维度大小是embedding_size,这样Qp就从一个2维的矩阵变成了3维的Q
HL层输出:[batch_size, embedding_size, hl_size]。HL层:[embedding_size, hl_size],Q中的每个句子会通过和HL层的点积进行变换,相当于将每个字的字向量从embedding_size大小变换到hl_size大小。
CNN+P+T输出:[batch_size, num_filters_total]。CNN的filter大小是[filter_size, hl_size],列大小是hl_size,这个和字向量的大小是一样的,所以对每个句子而言,每个filter出来的结果是一个列向量(而不是矩阵),列向量再取max-pooling就变成了一个数字,每个filter输出一个数字,num_filters_total个filter出来的结果当然就是[num_filters_total]大小的向量,这样就得到了一个句子的语义表示向量。T就是在输出结果上加上Tanh激活函数。
Cosine_Similarity:[batch_size]。最后的一层并不是通常的分类或者回归的方法,而是采用了计算两个向量(Q&A)夹角的方法,下面是网络损失函数。,m是需要设定的参数margin,VQ、VA+、VA-分别是问题、正向答案、负向答案对应的语义表示向量。损失函数的意义就是:让正向答案和问题之间的向量cosine值要大于负向答案和问题的向量cosine值,大多少,就是margin这个参数来定义的。cosine值越大,两个向量越相近,所以通俗的说这个Loss就是要让正向的答案和问题愈来愈相似,让负向的答案和问题越来越不相似。
代码,使用的数据是一份英文的,下面介绍代码重点部分:
字向量。本文采用字向量的方法,没有使用词向量。使用字向量的目的主要是为了解决未登录词的问题,这样在测试的时候就很少会遇到Unknown的字向量的问题了。而且字向量的效果也不一定比词向量的效果差,还省去了分词的各种麻烦。先用word2vec生成一份字向量,相当于我们在做pre-training了(之后测试了随机初始化字向量的方法,效果差不多)
原理中的步骤2。这里没有做HL层的变换,实际测试中,增加HL层有非常非常小的提升,所以在这里就省去了改步骤。
CNN可以设置多种大小的filter,最后各种filter的结果会拼接起来。
原理中的步骤4。这里执行卷积,max-pooling和Tanh激活。
生成的ouputs_1是一个python的list,使用concatenate将list的多个tensor拼接起来(list中的每个tensor表示一种大小的filter卷积的结果)
原理中的步骤5。计算问题、正向答案、负向答案的向量夹角
生成Loss损失函数和Accuracy。
核心的网络构建代码就是这些,其他的代码都是训练数据、验证数据的读入,以及theano构建训练时的一些常规代码。
如果需要增加HL层,可参照如下的代码。Whl即是HL层的网络,将input和Whl点积即可。
dropout的实现。
使用上面的代码,Test 1的Top-1 Accuracy可以达到61%-62%,和论文中的结论基本一致了,至于论文中提到的GESD、AESD等方法没有再测试了,运行较慢,其他数据集也没有再测试了。
下面是国外友人用一个叫keras的工具(封装的theano和tensorflow)弄的类似代码,Test 1的Top-1准确率在50%左右,比他这个要高:)
/blog/2016/keras-language-modeling.html
Top-1 Accuracy
Mean Reciprocal Rank
另外,原始的insuranceQA需要进行一些处理才能在这个代码上使用,具体参看github上的说明吧。
字向量和词向量的效果相当。所以优先使用字向量,省去了分词的麻烦,还能更好的避免未登录词的问题,何乐而不为。
字向量不是固定的,在训练中会更新。
Dropout的使用对最高的准确率没有很大的影响,但是使用了Dropout的结果更稳定,准确率的波动会更小,所以建议还是要使用Dropout的。不过Dropout也不易过度使用,比如Dropout的keep_prob概率如果设置到0.25,则模型收敛得更慢,训练时间长很多,效果也有可能会更差,设置会差很多。我这版代码使用的keep_prob为0.5,同时保证准确率和训练时间。另外,Dropout只应用到了max-pooling的结果上,其他地方没有再使用了,过多的使用反而不好。
如何生成训练集。每个训练case需要一个问题+一个正向答案+一个负向答案,很明显问题和正向答案都是有的,负向答案的生成方法就是随机采样,这样就不需要涉及任何人工标注工作了,可以很方便的应用到大数据集上。
HL层的效果不明显,有很微量的提升。如果HL层的大小是200,字向量是100,则HL层相当于将字向量再放大一倍,这个感觉没有多少信息可利用的,还不如直接将字向量设置成200,还省去了HL这一层的变换。
margin的值一般都设置得比较小。这里用的是0.05
如果将Cosine_similarity这一层换成分类或者回归,印象中效果是不如Cosine_similarity的(具体数据忘了)
num_filters越大并不是效果越好,基本到了一定程度就很难提升了,反而会降低训练速度。
同时也写了tensorflow版本代码,对比theano的,效果差不多。
Adam和SGD两种训练方法比较,Adam训练速度貌似会更快一些,效果基本也持平吧,没有太细节的对比。不过同样的网络+SGD,theano好像训练要更快一些。
Loss和Accuracy是比较重要的监控参数。如果写一个新的网络的话,类似的指标是很有必要的,可以在每个迭代中评估网络是否正在收敛。因为调试比较麻烦,所以通过这些参数能评估你的网络写对没,参数设置是否正确。
网络的参数还是比较重要的,如果一些参数设置不合理,很有可能结果千差万别,记得最初用tensorflow实现的时候,应该是dropout设置得太小,导致效果很差,很久才找到原因。所以调参和微调网络还是需要一定的技巧和经验的,做这版代码的时候就经历了一段比较痛苦的调参过程,最开始还怀疑是网络设计或是代码有问题,最后总结应该就是参数没设置好。
如果关注这个东西的人多的话,后面还可以有tensorflow版本的QA CNN,以及LSTM的代码奉上:)
tensorflow的CNN代码已添加到github上,
weibo:码坛奥沙利文
发表在 , , ,
如今,搜索引擎是人们的获取信息最重要的方式之一,在搜索页面小小的输入框中,只需输入几个关键字,就能找到你感兴趣问题的相关网页。搜索巨头Google,甚至已经使Google这个创造出来的单词成为动词,有问题Google一下就可以。在国内,百度也同样成为一个动词。除了通用搜索需求外,很多垂直细分领域的搜索需求也很旺盛,比如电商网站的产品搜索,文学网站的小说搜索等。面对这些需求,达观数据()作为国内提供中文云搜索服务的高科技公司,为合作伙伴提供高质量的搜索技术服务,并进行搜索服务的统计分析等功能。(达观数据联合创始人高翔)
搜索引擎系统最基本最核心的功能是信息检索,找到含有关键字的网页或文档,然后按照一定排序将结果给出。在此基础之上,搜索引擎能够提供更多更复杂的功能来提升用户体验。对于一个成熟的搜索引擎系统,用户看似简单的搜索过程,需要在系统中经过多个环节,多个模块协同工作,才能提供一个让人满意的搜索结果。其中拼写纠错(Error Correction,以下简称EC)是用户比较容易感知的一个功能,比如百度的纠错功能如下图所示:
图 1:百度纠错功能示例
EC其实是属于Query Rewrite(以下简称QR)模块中的一个功能,QR模块包括拼写纠错,同义改写,关联query等多个功能。QR模块对于提升用户体验有着巨大的帮助,对于搜索质量不佳的query进行改写后能返回更好的搜索结果。QR模块内容较多,以下着重介绍EC功能。
  前文介绍了利用词库进行分词,本文介绍词库的另一个应用:词权重计算。
二、词权重公式
  1、公式的定义
    定义如下公式,用以计算词的权重:
  2、公式的由来
    在前文中,使用如下公式作为分词的依据:
    任给一个句子或文章,通过对最佳分词方案所对应的公式进行变换,可以得到:
    按前面权重公式的定义,上面的公式可以理解为:一个句子出现的概率对数等于句子中各词的权重之和。
    公式两边同时取负号使权重是个正值。
三、与TF-IDF的关系
  词频、逆文档频率(TF-IDF)在自然语言处理中,应用十分广泛,也是提取关键词的常用方法,公式如下:
  从形式上看,该公式与我们定义的权重公式很像,而且用途也近似,那么它们之间有没有关系呢?
  答案是肯定的。
  我们知道,IDF是按文档为单位统计的,无论文档的长短,统一都按一篇计数,感觉这个统计的粒度还是比较粗的,有没有办法将文本的长短,这个明显相关的因素也考虑进去呢,让这个公式更加精细些?
  答案也是肯定的。
  文章是由词铺排而成,长短不同,所包含的词的个数也就有多有少。
  我们可以考虑在统计文档个数时,为每个文档引入包含多少个词这样一个权重,以区别长短不同的文档,沿着这个思路,改写一下IDF公式:
  我们用所有文档中的词做成词库,那么上式中:
  综合上面的推导过程,我们知道,本文所定义的词权重公式,本质上是tf-idf为长短文档引入权重的加强版,而该公式的应用也极为简单,只需要从词库中读取该词词频、词库总词频即可。
  时间复杂度最快可达O(1)级,比如词库以Hash表存储。
  关于TF-IDF更完整的介绍及主流用法,建议参看阮一峰老师的博文《TF-IDF与余弦相似性的应用(一):自动提取关键词》。
四、公式应用
    词权重用途很广,几乎词袋类算法中,都可以考虑使用。常见的应用有:
     1、关键词抽取、自动标签生成
        作法都很简单,分词后排除停用词,然后按权重值排序,取排在前面的若干个词即可。
     2、文本摘要
        完整的文本摘要功能实现很复杂也很困难,这里所指,仅是简单应用:由前面推导过程中可知,句子的权重等于分词结果各词的权重之和,从而获得句子的权重排序。
     3、相似度计算
        相似度计算,我们将在下一篇文中单独介绍。
五、演示程序
  在演示程序显示词库结果时,是按本文所介绍的权重公式排序的。
  演示程序与词库生成的相同:
  下载地址:
  特别感谢:王斌老师指出,本文公式实质上是TF-ICF。
六、联系方式:
  1、QQ:老憨
  2、邮箱:
  前面介绍了词库的自动生成的方法,本文介绍如何利用前文所生成的词库进行分词。
二、分词的原理
  分词的原理,可以参看吴军老师《数学之美》中的相关章节,这里摘取Google黑板报版本中的部分:
  从上文中,可以知道分词的任务目标:给出一个句子S,找到一种分词方案,使下面公式中的P(S)最大:
  不过,联合概率求起来很困难,这种情况我们通常作马尔可夫假设,以简化问题,即:任意一个词wi的出现概率只同它前面的词 wi-1 有关。
  关于这个问题,吴军老师讲的深入浅出,整段摘录如下:
  另外,如果我们假设一个词与其他词都不相关,即相互独立时,此时公式最简,如下:
  这个假设分词无关的公式,也是本文所介绍的分词算法所使用的。
三、算法分析
  问:假设分词结果中各词相互无关是否可行?
  答:可行,前提是使用遗忘算法系列(二)中所述方法生成的词库,理由如下:
  分析ICTCLAS广受好评的分词系统的免费版源码,可以发现,在这套由张华平、刘群两位博士所开发分词系统的算法中假设了:分词结果中词只与其前面的一个词有关。
  回忆我们词库生成的过程可以知道,如果相邻的两个词紧密相关,那么这两个词会连为一个粗粒度的词被加入词库中,如:除“清华”、“大学”会是单独的词外,“清华大学”也会是一个词,分词过程中具体选用那种,则由它们的概率来决定。
  也就是说,我们在生成词库的同时,已经隐含的完成了相关性训练。
  关于ICTCLAS源码分析的文章,可以参看吕震宇博文:《天书般的ICTCLAS分词系统代码》。
  问:如何实现分词?
  答:基于前文生成的词库,我们可以假设分词结果相互无关,分词过程就比较简单,使用下面的步骤可以O(N)级时间,单遍扫描完成分词:
  逐字扫描句子,从词库中查出限定字长内,以该字结尾的所有词,分别计算其中的词与该词之前各词的概率乘积,取结果值最大的词,分别缓存下当前字所在位置的最大概率积,以及对应的分词结果。
  重复上面的步骤,直到句子扫描完毕,最后一字位置所得到即为整句分词结果。
  3、算法特点
    3.1、无监督学习;
    3.2、O(N)级时间复杂度;
    3.3、词库自维护,程序可无需人工参与的情况下,自行发现并添加新词、调整词频、清理错词、移除生僻词,保持词典大小适当;
    3.4、领域自适应:领域变化时,词条、词频自适应的随之调整;
    3.5、支持多语种混合分词。
四、演示程序下载
  演示程序与词库生成的相同:
  下载地址:
五、联系方式:
  1、QQ:老憨
  2、邮箱:
NLP相关网站
本站架设在
上, 采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.}

我要回帖

更多关于 开心8 happy8 kx8首页 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信