Embedding
input:
- 所有文字的字典文件,{index:word,…};
- 所有文字的embedding文件,{word:embedding,…};
output:
将字典中的文字全部用embedding表示,{index:embedding}。
tensorflow提供索引的方式,每次索引对应word的embedding向量。
Dataset
input_x:[batch_size,max_sentence_length,embedding]
- batch_size:每批次sentence的条数。
- max_sentence_length:max指的是本批次句子中最大的长度,其它不足该长度的句子做padding操作。
- embedding:对于每个word都会有对应的embedding。bs[sl[em]]
input_y:[batch_size,max_sentence_length]
- batch_size:每批次sentence的条数。
- max_sentence_length:max指的是本批次句子中最大的长度,其它不足该长度的句子做padding操作,length中所有位置都有label。
- label:[‘B-LAW’,‘I-LOC’,…]