Leon Ling's Blog

人的一生,总是为了追寻生命中的光,而走在漫长的路上

剑指Offer-操作系统

操作系统基础知识总结

[TOC] 1. 进程与线程 1.1 进程 进程是资源分配的基本单位。 进程控制块 (Process Control Block, PCB) 描述进程的基本信息和运行状态,所谓的创建进程和撤销进程,都是指对 PCB 的操作。 下图显示了 4 个程序创建了 4 个进程,这 4 个进程可以并发地执行。 1.2 线程 线程是CPU独立调度的基本单位。 一个进程中可以有多个线程,...

Hive使用手册

从零开始学Hive

[TOC] 1. Hive & HiveQL Hive 是 Hadoop 生态系统中基于HDFS分布式文件系统构建的分布式数据仓库 HiveQL 是针对Hive的数据库查询语言,其中封装了MapReduce的查询方法,和传统数据库的差别是: Hive是数据仓库,只支持增(insert)查(select),而不支持删(delete)改(update)...

文档分类常用方法

文本文档分类是NLP领域一个基础而又经典的话题,决定开始在NLP方向开展学习工作,这方面的基础知识必不可少,这里把这两天搜集的内容简单整理一下,以供后面深入探究。 [TOC] 1. 文档分类概述 文本分类通过算法对输入的文本按照一定的类目体系进行自动化归类的过程,文档分类正是文本分类领域的一项分支。完整的流程包括数据预处理、特征工程、算法选择、模型构建以及后处理和效果评估。 ...

Spark使用入门

从零开始学Spark

之前在科大学习的时候学过一段时间Spark,但是仅限于Spark本身,而且只是方法上的实践,来到公司后结合了完整的Hadoop生态,发现对很多地方还是一脸懵逼的。 这里先结合公司第一次技术培训,整理一些Spark日常使用的一些问题,以供以后参考。 [TOC] 1. Spark 的版本 版本 区别一 区别二 ...

解决MacOS音视频无法播放的问题

自从换了Mac之后被一个问题困扰了很久,就是只要长时间不关机,系统的音视频播放程序似乎就出了问题,不论网页端还是应用程序都不能播放音视频,必须要重启才能解决 (可能就是所谓的小事重启,大事重装吧 :happy: ),但是总归很不方便。 后来在网上各种查,找到了答案。是MacOS本身的一个Bug,OS X的核心音频守护进程coreaudiod在长时间使用中有概率会出问题。解决方案也比较简单,...

文章关键词提取&摘要生成

面试问题回顾

之前微众银行的面试里,因为项目经历中写到了两段NLP相关的项目,所以就问到了一些NLP相关的问题,其中有一些我当时没有答好,部门老大就把它们留给我回去思考。 现在把当时的答案和后来的想法和查资料的结果放在这里做一个对比。 [TOC] 1. 问题: 如果给你一篇论文,如何提取其中的关键字? 如果给你一篇论文,如何自动生成摘要? 2. 当时的答案 2.1 关键...

剑指机器学习--优化方法

机器学习方法复习笔记-3

我们知道机器学习算法的实质就是模型表征+优化算法+模型评估三个部分,其中优化算法的工作就是从模型表征空间里找出模型评估指标最好的模型。虽然现有的优化算法已经集成到各类机器学习平台中,但是如果想要成为称职的算法工程师,从原理上了解优化算法必不可少。 [TOC] 1. 监督学习的损失函数 监督学习中损失函数作为模型评估的指标,定义了模型和数据的匹配程度。定义损失函数$L(\cdot...

浅谈拉格朗日乘子法和KKT条件

拉格朗日乘法和KKT条件,了解一下[转载]

[TOC] 1. 引子 之前学习各种机器学习的优化理论时都有听到过用KKT条件去解释各种问题,但是具体KKT条件是什么我却一直没有去深入了解过,所以最近就从网上查找了一些资料,总结到这里。 2. 拉格朗日乘子法 拉格朗日乘子法(Lagrange multiplier)是一种在最优化的问题中寻找多元函数在其变量受到一个或多个条件的相等约束时的求局部极值的方法。这种方法可以将一个有 n ...

Linux Shell 常用命令

虽然一直都有用Linux,但是对其中一些命令的细节也没有很清楚。听说大厂笔试面试可能会有用到,这里就简单总结一下。 1. cd, ls命令 这是一个非常基本,也是大家经常需要使用的命令。这里不再赘述,仅说明ls的几个option: -d :仅列出目录本身,而不是列出目录的文件数据 -h :将文件容量以较易读的方式(GB,kB等)列出来 -R :连同子目录的内容一起...

剑指机器学习--降维

机器学习方法复习笔记-2

机器学习领域输入的数据往往以向量的形式,但是如果向量的的维度过高,会极大消耗计算资源,而有些计算并不是必须的,所以合适的降维方法非常重要。 本文将主要从原理的角度介绍PCA和LDA这两种常见的降维方式。 [TOC] 1. PCA主成分分析 PCA(Principle Component Analysis)是降维方法中的一种非常经典的方法,属于一种线性,非监督,全局的降维算法。 ...