联想一键还原5 0-不完全gamma函数

chinese input
2023年4月6日发(作者:找回qq密码)

StanfordParser中⽂句法分析器的使⽤

Contents

⼀、使⽤时注意两点

⼆、stanfordparser命令⾏使⽤

1处理⼀个中⽂的句⼦

2词性标注和⽣成依存关系

3图形⼯具界⾯

三、句法分析树标注集

⼀、使⽤时注意两点:

1。中⽂内存⼤⼩设置:在运⾏--运⾏配置--⾃变量--vm参数中-加⼊:--Xmx1024m

2。Tokenize指的是是否分词。⼀定选Tokenized并且⽂件是utf-8格式,并以空格分隔每个词。

⼆、stanfordparser命令⾏使⽤

StanfordParser

Stanfordparser基本上是⼀个词汇化的概率上下⽂⽆关语法分析器,同时也使⽤了依存分析。根据不同的语法观点可以输出不同的的分析

结果。所以,可以认为是⼀个使⽤混合分析⽅法的剖析器。

需要⽤到的jar包:

1处理⼀个中⽂的句⼦

例如:⼀些盗版制品经营者为了应付和躲避打击,经营⼿法更为隐蔽。

⾸先,使⽤Chinesesegment进⾏词语的切分。

调⽤的命令:

G:chinesesegmenter>18030>

其中pk是词典还有⼀个词典是ctb(没有⽐较过两个词典的优劣)

是输⼊⽂件.⾥⾯包含该句⼦

gb18030是⽂件编码还⽀持GButf-8

是输出的⽂件

结果:⼀些盗版制品经营者为了应付和躲避打击,经营⼿法更为隐蔽。

2词性标注和⽣成依存关系

这⾥为⽅便⽣成⼀个批处理⽂件:

⽂件内容:

@echooff

::RunstheChinesePCFGparserononeormorefiles,printingtreesonly

::usage:lexparserfileToparse

java-server-mx800m-cp";"lizedParser-outputFormat

"penn,typedDependenciesCollapsed"%1

---------------------------------------------------------------------------------------------------------------------------

调⽤的命令:

G:stanfordparser>>

...done[30.2sec].

Parsingfile:h1sentences.

Parsing[sent.1len.15]:⼀些盗版制品经营者为了应付和躲避打击,经营

⼿法更为隐蔽。

Parsedfile:[1sentences].

Parsed15wordsin1sentences(3.35wds/sec;0.22sents/sec).

其中,是⽤于中⽂的parser。

结果:⽂件

ROOT

(IP

(NP

(NP

(QP(CD⼀些))

(NP(NN盗版)(NN制品)))

(NP(NN经营者)))

(PP(P为了)

(IP

(VP

(VP(VV应付))

(CC和)

(VP(VV躲避)

(NP(NN打击))))))

(PU,)

(NP(NN经营)(NN⼿法))

(VP

(ADVP(AD更为))

(VP(VV隐蔽)))

(PU。)))

numod(制品-3,⼀些-1)

nmod(制品-3,盗版-2)

nmod(经营者-4,制品-3)

nsubj(隐蔽-14,经营者-4)

prep(隐蔽-14,为了-5)

clmpd(为了-5,应付-6)

cc(应付-6,和-7)

ccomp(应付-6,躲避-8)

dobj(躲避-8,打击-9)

nmod(⼿法-12,经营-11)

nsubj(隐蔽-14,⼿法-12)

advmod(隐蔽-14,更为-13)

3、图形⼯具界⾯

运⾏命令:

⾸先loadparser

然后选择⽂件,必须是utf-8编码的,⽽且是分词过后的。

Language选择中⽂。

最后parser得到结果的树形表⽰。

三、句法分析树标注集

ROOT:要处理⽂本的语句

IP:简单从句

NP:名词短语

VP:动词短语

PU:断句符,通常是句号、问号、感叹号等标点符号

LCP:⽅位词短语

PP:介词短语

CP:由‘的’构成的表⽰修饰性关系的短语

DNP:由‘的’构成的表⽰所属关系的短语

ADVP:副词短语

ADJP:形容词短语

DP:限定词短语

QP:量词短语

NN:常⽤名词

NR:固有名词

NT:时间名词

PN:代词

VV:动词

VC:是

CC:不是(应该是吧!!不太确定)

VE:有

VA:表语形容词

AS:内容标记(如:了)

VRD:动补复合词

更多推荐

chinese input