一、常见任务及当下经典算法
文本分类/意图识别:CNN / Bert / LSTM+Attention
实体识别:LSTM+CRF
中文分词:N-Gram / CRF / HMM
文本相似度:TF-IDF / BM25+Bert
文本摘要:Bert+Textrank
问答系统/机器翻译:Transformer+Bert / Seq2seq+Attention
情感分析:Word2vec+LSTM / CNN
二、常见知识点/术语
人工智能领域两类算法:基于统计的机器学习算法(Machine Learning) / 深度学习算法(Deep Learning)
人工智能三要素:算法、算力、数据
常用的框架:pytorch / sklearn / tensorflow / PaddlePaddle
数据标注:为模型训练提供学习语料的数据处理,一般为人工+系统相结合
预训练模型:用某个较大的数据集训练好的模型(给出了可使用的初始化参数),你可以利用它使用自有数据集进行训练并得到合适的模型参数
词向量:即将文字数字化,利用数学领域的向量表示单词/短语
语料:语言材料,提供给算法模型进行学习的基本知识
批处理大小:即训练的 batch_size
训练数据的训练次数:训练 epoch 数
学习率:即 learning_rate
词向量维度:网络中词向量的维度
各层网络卷积核大小:即 kernel_size
窗口大小:skip-gram 算法中的 window_size 参数
过拟合:在模型训练过程中效果较好但在测试样本中准确率较差,表现为模型过分依赖于训练语料,反之可以理解“欠拟合”
模型蒸馏:算法能够用小型的网络从微调过的文本分类模型中学习信息
蒸馏训练次数:蒸馏过程遍历蒸馏数据的次数
评估标准:准确率、召回率、F1、AUC、ROC、损失函数
监督学习:通过已有的训练语料完成模型训练,从而在测试样本验证模型已经学习到的能力
强化学习:将一个已经训练好的模型作为另一个任务的基础模型,降低成本
CIO之家 www.ciozj.com 公众号:imciow