当前位置: 首页 > news >正文

济南做网站公司电话/seo是什么意思为什么要做seo

济南做网站公司电话,seo是什么意思为什么要做seo,wordpress找回管理员密码,移动端网站如何开发NLP方向Word2vec算法面试题 Word2vec指的是什么? word2vec是一个把词语转化为对应向量的形式。word2vec中建模并不是最终的目的,其目的是获取建模的参数。 Wordvec中CBOW与Skip-Gram是什么? CBOW思想:用周围词预测中心词输入输…

NLP方向Word2vec算法面试题

  1. Word2vec指的是什么?

    word2vec是一个把词语转化为对应向量的形式。word2vec中建模并不是最终的目的,其目的是获取建模的参数。

  1. Wordvec中CBOW与Skip-Gram是什么?
  • CBOW思想:用周围词预测中心词
  • 输入输出介绍:输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量。
  • Skip-gram思想:用中心词预测周围词
  • 输入输出介绍:输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量
  • CBOW可以理解为一个老师教多个学生:(高等教育)
  • Skip-gram可以理解为一个学生被多个老师教:(补习班)
  1. Word2vec中霍夫曼树是什么?

    HS用哈夫曼树,把预测one-hot编码改成预测一组01编码,进行层次分类。

  • 输入:权值为(w1,w2,w)的n个节点
  • 输出:对应的霍夫曼树
  • 步骤:
  • 将(w1,w2,wn)看做是有n棵树的森林,每个树仅有一个节点。
  • 在森林中选择根节点权值最小的两棵树进行合并,得到一个新的树,这两颗树分布作为新树的左右子树。新树的根节点权重为左右子树的根节点权重之和。
  • 将之前的根节点权值最小的两棵树从森林删除,并把新树加入森林。
  • 重复步骤2)和3)直到森林里只有一棵树为止。
  1. 为什么Word2vec中会用到负采样?
  • 动机:使用霍夫曼树来代替传统的神经网络,可以提高模型训练的效率。但是如果我们的训练样本里的中心词w是一个很生僻的词,那么就得在霍夫曼树中辛苦的向下走很久了;
  • 介绍:一种概率采样的方式,可以根据词频进行随机抽样,倾向于选择词频较大的负样本;
  • 优点:用来提高训练速度并且改善所得到词向量的质量的一种方法;不同于原本每个训练样本更新所有的权重,负采样每次让一个训练样本仅仅更新一小部分的权重,这样就会降低梯度下降过程中的计算量。
  1. Word2vec和Tf-idf在相似度计算时的区别?

    Word2vec是稠密的向量,而f-idf则是稀疏的向量;Word2vec的向量维度一般远比f-idf的向量维度小得多,故而在计算时更快;Word2vec的向量可以表达语义信息,但是tf-idf的向量不可以;Word2vec可以通过计算余弦相似度来得出两个向量的相似度,但是f-idf不可以。

  1. Word2vec和NNLM对比有什么区别?

    NNLM:是神经网络语言模型,使用前n-1个单词预测第n个单词;word2vec:使用第n-1个单词预测第n个单词的神经网络模型。但是word2vec更专注于它的中间产物词向量,所以在计算上做了大量的优化。优化如下:

  • 对输入的词向量直接按列求和,再按列求平均。这样的话,输入的多个词向量就变成了一个词向量
  • 采用分层的softmax(hierarchical softmax),实质上是一棵哈夫曼树
  • 采用负采样,从所有的单词中采样出指定数量的单词,而不需要使用全部的单词
  1. Word2vec训练trick,词向量纬度大与小有什么影响,还有其他参数?

    词向量维度代表了词语的特征,特征越多能够更准确的将词与词区分,就好像一个人特征越多越容易与他人区分开来。但是在实际应用中维度太多训练出来的模型会越大,虽然维度越多能够更好区分,但是词与词之间的关系也就会被淡化,这与我们训练词向量的目的是相反的,我们训练词向量是希望能够通过统计来找出词与词之间的联系,维度太高了会淡化词之间的关系,但是维度太低了又不能将词区分,所以词向量的维度选择依赖于你的实际应用场景,这样才能继续后面的工作。一般说来200-400维是比较常见的。windows窗口默认参数是5。

HMM算法面试题

  1. 什么是马尔科夫过程?

    假设一个随机过程中,t_n时刻的状态x_n的条件分布,只与其前一状态x_(n-1)相关,即:P(xnlz1,x2,…,En-1)=P(CnZn--1则将其称为马尔可夫过程。

  1. 马尔科夫过程的核心思想是什么?

    对于马尔可夫过程的思想,用一句话去概括:当前时刻状态仅与上一时刻状态相关,与其他时刻不相关。可以从马尔可夫过程图去理解,由于每个状态间是以有向直线连接,也就是当前时刻状态仅与上一时刻状态相关。

  1. 隐马尔可夫算法中的两个假设是什么?

    其次马尔可夫性假设:即假设隐藏的马尔科夫链在任意时刻t的状态只依赖于其前一时刻的状态,与其他时刻的状态及观测无关,也与时刻t无关:P(xilx1,x2,...,xi-1)=P(xilxi-1)。观测独立性假设:即假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态,与其他观测及状态无关、0P(ylx1,x2,,xi-1,31,3y2,,3yi-1,y+1,.)=P(3yici)
4. 隐马尔可夫模型三个基本问题是什么?

  • 概率计算问题:给定模型(A,B,π)和观测序列,计算在模型下观测序列出现的概率。(直接计算法理论可行,但计算复杂度太大(O(N2T)):用前向与后向计算法)
  • 学习问题:己知观测序列,估计模型参数,使得在该模型下观测序列概率最大。(极大似然估计的方法来估计参数,Baum-Welch算法(EM算法))
  • 预测问题,也称为解码问题:已知模型和观测序列,求对给定观测序列条件概率最大的状态序列。(维特比算法,动态规划,核心:边计算边删掉不可能是答案的路径,在最后剩下的路径中挑选最优路径)
  1. 隐马尔可夫模型三个基本问题的联系?

    三个基本问题存在渐进关系。首先,要学会用前向算法和后向算法算观测序列出现的概率,然后用Baum-Welch算法求参数的时候,某些步骤是需要用到前向算法和后向算法的,计算得到参数后,我们就可以用来做预测了。因此可以看到,三个基本问题,它们是渐进的,解决NLP问题,应用HMM模型做解码任务应该是最终的目的。

  1. 隐马尔可夫算法存在哪些问题?

    因为HMM模型其实它简化了很多问题,做了某些很强的假设,如齐次马尔可夫性假设和观测独立性假设,做了假设的好处是,简化求解的难度,坏处是对真实情况的建模能力变弱了。在序列标注问题中,隐状态(标注)不仅和单个观测状态相关,还和观察序列的长度、上下文等信息相关。例如词性标注问题中,一个词被标注为动词还是名词,不仅与它本身以及它前一个词的标注有关,还依赖于上下文中的其他词。可以使用最大熵马尔科夫模型进行优化。

推荐系统方向常见算法面试题

  1. 什么是协同过滤,优缺点。

    协同过滤即是通过(不同用户物品)合作,实现信息的过滤(即筛选),是一个简单且可解释性强的方案。最常见的协同过滤的方法有UserCF和ItemCF,可以发现早期协同过滤的方法使热门的物品(或用户)具备很强的头部效应,使所有物品都与它有较大的相似度。这揭示了这一方法的天然缺陷,即对于稀疏的数据处理能力弱。

  1. UserCF、ItemCF,应用场景。
  • UserCF:得到共现矩阵,根据共现矩阵得到所有用户两两之间的相似度,对User i取TopN个相似用户,对这TopN个用户的项目评分取加权平均,作为该用户预测评分结果。
  • 优点:简单易用,复合直觉“兴趣相似的人喜欢的东西相似"。
  • 缺点:用户的历史数据稀疏,找到相似用户的准确度并不是很高。UserCF不适用于正反馈较难获取的应用场景。另一方面,用户的增长是远大于tm的增长的,从这个角度来看,UserCF带来的存储压力更大。
  • ItemCF:得到共现矩阵,根据共现矩阵得到所有物品两两之间的相似度,对User i取正反馈物品列表,根据相似度计算出相似的ToK个物品作为推荐列表。
  • 优点:物品相似度存储压力远小于用户相似度。复合直觉“用户喜欢某物品,应推荐相似物品”。
  • 缺点:头部效应严重,同样不适用于处理稀疏数据。
  • 应用场景:UserCF更适用于新闻推荐,用户能快速得知与自己兴趣相似的人最近喜欢什么,从而更趋向于新闻的及时性、热点性。ItemCF更适用于兴趣在短时间内变化较为稳定的场景,如电商推荐,用户倾向于在短时间内寻找一类商品,此时利用物品相似度时更符合用户动机的。由于UserCF与ItemCF这两种不同的特性,可以作为多路召回策略。
  1. user/item冷启动怎么解决?
  • usr冷启动:基于规则的冷启动(如热度、最高评分);基于模型的冷启动(收集必要的用户属性信息进行建模);主动学习方案的冷启动(用户自由选择/反馈);基于迁移学习的冷启动(合理利用其它领域/来源的信息)。
  • itm冷启动:采用随机分发资源获取用户反馈信总;基于重要属性的冷启动(如同一作者/系列等);设置“最新”排序列表获取用户反馈信息。
  1. 推荐系统中常见的Embedding方法有哪些?
  • word2vec是最经典的词向量embedding方式,基于word2vec思想,item2vec使用item向量代替词向量。这类方法无法处理网络化的数据,于是出现了大量GraphEmbedding技术。
  • DeepWalk使用用户行为序列构建物品关系图,然后通过随机游走生成新的序列数据,继而通过word2vec训练。DeepWalk可以看做序列embedding到Graph embedding的过度方法。
  • Node2vec核心思想在于同质性与结构性的权衡。同质性指的图中距离近的节点应该尽量相似(倾向于DFS),结构性指图中节点所处结构位置相似的应该尽量相似(倾向于BFS)。Node2vec设置了跳转概率,使当前游走过程可能朝着更深的方向(同质性),或是返回之前的方向(结构性)。
  • EGES(基于边信息的增强图Embedding)引入边信息作为物品embedding的补充信总,边信息可以是基于知识图谱获得的信息(这类信息包括特征信息)。EGES的方法是对Item及其特征一起进行embedding建模,最终得到的单个Item的embedding向量是该item及其特征的加权平均。EGES对缺少历史数据的Item更为亲切。
  1. fm和矩阵分解模型思想上的的异同点。
  • MF是用use和item的特征隐向量表示user和item的特征,进而做相似度计算,用于item召回.
  • FM是用因子分解机来做特征的二阶交叉,进而预测user和item的ctr概率,可用于召回或者排序阶段。
  • 相同点:MF可以理解为一种特殊的FM,即只有uid和id的FM模型,MF将这两类特征通过矩阵分解来达到embedding的目的。
  • 区别:FM使用了id之外的特征,同时FM还做了矩阵积的优化,复杂度大幅降低。
  1. LR中连续特征为什么要做离散化?
  • 数据角度:离散化的特征对异常数据有很强的鲁棒性;离散化特征利于进行特征交叉
  • 模型角度:当数据增加/减少时,利于模型快速送代;离散化相当于为模型引入非线性表达;离散化特征简化了模型输入,降低过拟合风险;LR中离散化特征很容易根据权重找出bad case
  • 计算角度:稀疏向量内积计算速度快。(在计算稀疏矩阵内积时,可以根据当前值是否为0来直接输出0值,这相对于乘法计算是快很多的。)
  • 而离散化连续值特征后同样会带来一些缺点,如下:
  • 不合理的区间划分容易降低模型表达能力,构造合理的区间划分同样比较困难(需要从区间数、区间分段大小、区间内样本分布进行权衡)。
  • 如果连续特征x对y有着很强的先验知识(如强线性关系),离散化后会使的信息表达能力损失。

推荐系统方向常见算法面试题

  1. 常用的特征选择方式有哪些?
  • Fite过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
  • Wrapper包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
  • Embedded嵌入入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Fitr方法,但是通过训练来确定特征的优劣。
  1. 特征交叉(特征组合)方式有哪些?
  • Dense特征组合将一个特征与其本身或其他特征相乘(称为特征组合)(二阶或者高阶);两个特征相除;对连续特征进行分桶,以分为多个区间分箱。
  • ID特征之间的组合,笛卡尔积:假如拥有一个特征A,A有两个可能值{A1,A2}。拥有一个特征B,存在{B1,B2}等可能值。然后,A&B之间的交叉特征如下{(A1,B1),(A1,B2),(A2,B1),(A2,B2)},比如经纬度,一个更好地诠释好的交叉特征的实例是类似于(经度,纬度)。一个相同的经度对应了地图上很多的地方,纬度也是一样。但是一旦你将经度和纬度组合到一起,它们就代表了地理上特定的一块区域,区域中每一部分是拥有着类似的特性。
  1. 什么是DSSM?有什么优缺点?
  • DSSM(Deep Structured Semantic Models)的原理很简单,通过搜索引擎里Query和Title的海量的点击曝光日志,用DNN把Quey和Ttle表达为低纬语义向量,并通过cosine距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。
  • 优点:DSSM用字向量作为输入既可以减少切词的依赖,又可以提高模型的范化能力,因为每个汉字所能表达的语义是可以复用的。另一方面,传统的输入层是用Embedding的方式(如Wod2Vec的词向量)或者主题模型的方式(如LDA的主题向量)来直接做词的映射,再把各个词的向量累加或者拼接起来,由于Word2Vec和LDA都是无监督的训练,这样会给整个模型引入误差,DSSM采用统一的有监督训练,不需要在中间过程做无监督模型的映射,因此精准度会比较高。
  • 缺点:DSSM采用词袋模型(BOW),因此丧失了语序信息和上下文信息。另一方面,DSSM采用弱监督、端到端的模型,预测结果不可控。
  1. 介绍下Wide&Deep模型的ide和Deep部分。

    Wide&Deep模型的主要思路正如其名,把单输入层的Wide部分和经过多层感知机的Deep部分连接起来,广起输入最终的输出层。其中Wide部分的主要作用是让模型具有记忆性(Memorization),单层的Wide部分善于处理大量稀疏的id类特征,便于让模型直接“记住"用户的大量历史信息;Deep部分的主要作用是让模型具有“泛化性”(Generalization),利用DNN表达能力强的特点,挖掘藏在特征后面的数据模式。最终利用LR输出层将Wide部分和Deep部分组合起来,形成统一的模型。Wide&Deep对之后模型的影响在于一大量深度学习模型采用了两部分甚至多部分组合的形式,利用不同网络结构挖掘不同的信总后进行组合,充分利用和结合了不同网络结构的特点。

  1. FNN与Deep Crossing的区别。

    FNN相比Deep Crossing的创新在于使用FM的隐层向量作为user和item的Embedding,从而避免了完全从随机状态训练Embedding。由于id类特征大量采用onehot的编码方式,导致其维度极大,向量极稀疏,所以Embedding层与输入层的连接极多,梯度下降的效率很低,这大大增加了模型的训练时间和Embedding的不稳定性,使用pretrain的方法完成Embedding层的训练,无疑是降低深度学习模型复杂度和训练不稳定性的有效工程经验。

  1. 推荐系统常用的评价指标有哪些?
    在这里插入图片描述
http://www.whsansanxincailiao.cn/news/30717858.html

相关文章:

  • 邵阳县做网站/seo搜索引擎优化内容
  • 网站底部样式/uv推广平台
  • 学做效果图的网站有哪些/百度秒收录技术最新
  • 途牛旅游网站建设方案/网络公司推广公司
  • psd做网站切片/抖音关键词用户搜索排名靠前
  • 网站开发方倍工作室/电商运营是做什么的
  • dw怎么做网站后台/搜索引擎优化seo的英文全称是
  • 建设用地规划证查询网站/百度一下官网网址
  • 促销策划方案/江西seo推广软件
  • h5可以做网站吗/网站优化平台
  • 买了网站 怎么做呢/seo技术分享
  • 吕梁网站设计/关键词排名代发
  • 网站建设需要的费用/百度收录排名
  • 网站开发流程java/百度seo怎么做网站内容优化
  • 哪家公司建网站最好/网店代运营收费
  • 做环氧地坪工程网站/寰宇seo
  • w网站链接如何做脚注/360网站推广费用
  • 网络服务费是什么/优化建议
  • 苏州企业网站制作开发/seo教程视频论坛
  • 青岛手机网站建设公司/百度推广登录入口官网网
  • 2021年国家大事件有哪些/西安seo服务公司排名
  • 建设网站需要什么技术人员/品牌互动营销案例
  • ps做网站首页/亚马逊关键词
  • 海洋高端的专业做网站/舆情监控系统
  • ps做素材下载网站/营销方案ppt
  • wordpress商品分类标题seo/关键词优化排名软件
  • 应该如何做营销型网站/快速排名精灵
  • 网站ip如何做跳转/代哥seo
  • 做网站文案/微信引流主动被加软件
  • 做图片带字的网站/seo怎么推排名