介绍

词汇获取主要是为了弥补现有机读词典的不足。它主要关注词汇的搭配,动词子范畴,附着歧义,选择倾向,语义相似性等问题。

评价方法

  • Precision(精确度):
    精确度是你筛选出来的集合中正确的数量。也就是$\frac{tp}{fp+tp}$
  • Recall(召回率):
    召回率是系统选择的正确结果占所有正确结果的比例,即$\frac{tp}{tp+fn}$
  • F-measure:
    $F = \frac{1}{\alpha \frac{1}{precision} + (1 - \alpha)\frac{1}{recall}}$
  • fallout:
    系统错误选择的非目标项在非目标集合中所占的比例, 即$\frac{fp}{fp + tn}$

动词子范畴

我们把根据动词所允许搭配的补足成分的类型(名词短语,介词短语等)对动词进行分类称之为子范畴。

例如She greeted me。他就属于一种子范畴,动词前面和后面都是代词,换成其他动词也是相同的结构。