0%

命名实体识别步骤

Embedding

input:

  1. 所有文字的字典文件,{index:word,…};
  2. 所有文字的embedding文件,{word:embedding,…};

output:
将字典中的文字全部用embedding表示,{index:embedding}。
tensorflow提供索引的方式,每次索引对应word的embedding向量。


Dataset

input_x:[batch_size,max_sentence_length,embedding]

  1. batch_size:每批次sentence的条数。
  2. max_sentence_length:max指的是本批次句子中最大的长度,其它不足该长度的句子做padding操作。
  3. embedding:对于每个word都会有对应的embedding。bs[sl[em]]

input_y:[batch_size,max_sentence_length]

  1. batch_size:每批次sentence的条数。
  2. max_sentence_length:max指的是本批次句子中最大的长度,其它不足该长度的句子做padding操作,length中所有位置都有label。
  3. label:[‘B-LAW’,‘I-LOC’,…]
-------------本文结束感谢您的阅读-------------

欢迎关注我的其它发布渠道