联想一键还原5 0-不完全gamma函数
2023年4月6日发(作者:找回qq密码)
StanfordParser中⽂句法分析器的使⽤
Contents
⼀、使⽤时注意两点
⼆、stanfordparser命令⾏使⽤
1处理⼀个中⽂的句⼦
2词性标注和⽣成依存关系
3图形⼯具界⾯
三、句法分析树标注集
⼀、使⽤时注意两点:
1。中⽂内存⼤⼩设置:在运⾏--运⾏配置--⾃变量--vm参数中-加⼊:--Xmx1024m
2。Tokenize指的是是否分词。⼀定选Tokenized并且⽂件是utf-8格式,并以空格分隔每个词。
⼆、stanfordparser命令⾏使⽤
StanfordParser
Stanfordparser基本上是⼀个词汇化的概率上下⽂⽆关语法分析器,同时也使⽤了依存分析。根据不同的语法观点可以输出不同的的分析
结果。所以,可以认为是⼀个使⽤混合分析⽅法的剖析器。
需要⽤到的jar包:
1处理⼀个中⽂的句⼦
例如:⼀些盗版制品经营者为了应付和躲避打击,经营⼿法更为隐蔽。
⾸先,使⽤Chinesesegment进⾏词语的切分。
调⽤的命令:
G:chinesesegmenter>18030>
其中pk是词典还有⼀个词典是ctb(没有⽐较过两个词典的优劣)
是输⼊⽂件.⾥⾯包含该句⼦
gb18030是⽂件编码还⽀持GButf-8
是输出的⽂件
结果:⼀些盗版制品经营者为了应付和躲避打击,经营⼿法更为隐蔽。
2词性标注和⽣成依存关系
这⾥为⽅便⽣成⼀个批处理⽂件:
⽂件内容:
@echooff
::RunstheChinesePCFGparserononeormorefiles,printingtreesonly
::usage:lexparserfileToparse
java-server-mx800m-cp";"lizedParser-outputFormat
"penn,typedDependenciesCollapsed"%1
---------------------------------------------------------------------------------------------------------------------------
调⽤的命令:
G:stanfordparser>>
...done[30.2sec].
Parsingfile:h1sentences.
Parsing[sent.1len.15]:⼀些盗版制品经营者为了应付和躲避打击,经营
⼿法更为隐蔽。
Parsedfile:[1sentences].
Parsed15wordsin1sentences(3.35wds/sec;0.22sents/sec).
其中,是⽤于中⽂的parser。
结果:⽂件
ROOT
(IP
(NP
(NP
(QP(CD⼀些))
(NP(NN盗版)(NN制品)))
(NP(NN经营者)))
(PP(P为了)
(IP
(VP
(VP(VV应付))
(CC和)
(VP(VV躲避)
(NP(NN打击))))))
(PU,)
(NP(NN经营)(NN⼿法))
(VP
(ADVP(AD更为))
(VP(VV隐蔽)))
(PU。)))
numod(制品-3,⼀些-1)
nmod(制品-3,盗版-2)
nmod(经营者-4,制品-3)
nsubj(隐蔽-14,经营者-4)
prep(隐蔽-14,为了-5)
clmpd(为了-5,应付-6)
cc(应付-6,和-7)
ccomp(应付-6,躲避-8)
dobj(躲避-8,打击-9)
nmod(⼿法-12,经营-11)
nsubj(隐蔽-14,⼿法-12)
advmod(隐蔽-14,更为-13)
3、图形⼯具界⾯
运⾏命令:
⾸先loadparser
然后选择⽂件,必须是utf-8编码的,⽽且是分词过后的。
Language选择中⽂。
最后parser得到结果的树形表⽰。
三、句法分析树标注集
ROOT:要处理⽂本的语句
IP:简单从句
NP:名词短语
VP:动词短语
PU:断句符,通常是句号、问号、感叹号等标点符号
LCP:⽅位词短语
PP:介词短语
CP:由‘的’构成的表⽰修饰性关系的短语
DNP:由‘的’构成的表⽰所属关系的短语
ADVP:副词短语
ADJP:形容词短语
DP:限定词短语
QP:量词短语
NN:常⽤名词
NR:固有名词
NT:时间名词
PN:代词
VV:动词
VC:是
CC:不是(应该是吧!!不太确定)
VE:有
VA:表语形容词
AS:内容标记(如:了)
VRD:动补复合词
更多推荐
chinese input
发布评论