爱悠闲 > 分类 >

1.自然语言处理/机器学习 第1页

一种语言/编码检测的复合方法
转自:链接地址 翻译自Mozilla的网站。 这篇论文讨论了组合三种不同的检测方法来实现自动字符集检测。 A composite approach to language/encoding detection) Shanjian Li (shanjian@netscape.com ) Katsuhiko Momoi (momoi@netscape.com ) Netscape Communicat
中文分词的一些研究记录
    这两天想了解一下中文分词的一些技术,因此就研究了一把,也就是了解了一些皮毛,记录下来,首先申明我是外行,请勿用专业标准来要去我。     中文分词,主要是三个流派,一是词典派,一是统计派,一是规则派。比如“我爱北京天安门”,词典派就是去查词典,词典中中有“我”,“爱”,“北京”和“天安门”,就分出来了,简单吧。词典派的算法一般是最大匹配算法,比如“毛泽东北京华烟云”,正向最大匹配就是“毛泽
VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法](介绍)
VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法] 链接地址   这篇论文很好,对于如何确定正文区域,排除广告具有很好的指导作用。 但是,对于如何合并、如何查找正文区域,还要另外思考。 同时,是否有必要处理css和style,对于效率有什么影响,也要考虑。 其实,对此我有一些经验,但是出于保密,无法提供。   可以参考我后面写的一篇博文   《基于Web开发模式的信息抽取 》  
CRF++中文分词使用指南
前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下来,以备忘,另外,李沫南同学优化过CRF++,见:链接地址。我觉得CRF++还有更大的优化空间,以后有时间再搞。   1 下载和安装 CRF的概念,请google,我就不浪费资源啦。官方地址如下:http://crfpp.sourceforge.net/ 我用的是Ubutnu,所以,下载的是源码:http:
基于libsvm的中文文本分类原型
    支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 、非线性 及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小 原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(
基于kNN的文本分类原理以及实现
    前两天写了 基于libsvm中文文本分类 ,只是做到了会用的,要做到知其然知其所以然还是很难的。不过SVM的应用很广泛,除了文本分类,比如人脸识别,手写识别,甚至验证码识别都可以搞定。     kNN(k最邻近)算法相对而言,就简单得多了。   1,kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其
网页文本的排重算法介绍
转自链接地址 1.信息指纹算法 判断重复网页的思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。 判断内容复制的方法中最关键的两点: 1、计算信息指纹(Fingerprint)的算法; 2、判断信息指纹的相似程度的参数。 信息指纹就是提取网页正文信息的特征,通常是一组词或者一组词+权重,
结构风险最小和VC维理论的解释
基于libsvm的中文文本分类原型 ,虽然做了原型,但是概念还不是很清晰。 “支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上” 结构化风险 结构化风险 = 经验风险 + 置信风险 经验风险 =  分类器在给定样本上的误差 置信风险 = 分类器在未知文本上分类的结果的误差 置信风险因素: 样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小; 分类函数的VC
近期推荐引擎、机器学习、自然语言处理看到的一些资料
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探 链接地址   探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤 链接地址   探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类 链接地址   LDA 链接地址   SVD 链接地址   NGram 链接地址   后续会继续添加  
信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。 准确率、召回率、F1 信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式:              召回率(Recall)      =  系统检索到的相关文