摘要: 摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。
阅读全文
posted @
2008-05-10 20:43 蛙蛙池塘 阅读(1792) |
评论 (15) |
编辑
摘要: 在.NET 3.5里System.Net.Sockets空间下有一组增强功能的类,提供可供专用的高性能套接字应用程序使用的可选异步模式,SocketAsyncEventArgs 类就是这一组增强功能的一部分。该类专为需要高性能的网络服务器应用程序而设计。应用程序可以完全使用增强的异步模式,也可以仅仅在目标热点区域(例如,在接收大量数据时)使用此模式。以下是关于此类的介绍(摘自MSDN)
http://msdn.microsoft.com/zh-cn/library/system.net.sockets.socketasynceventargs.aspx
其实主要是改进了异步模式,让一些类可以重用,可能用的对象池的原理,不像以前的异步传输模式,每个数据来了,new一个新的iasyncresult,这样可能会引起GC线程CPU很高。下面是我找的一篇介绍.net 3.5里增强的socket api使用的文章,我翻译了一下,大家了解一下,貌似性能增强了不少。当然大家肯定说还不如看原文呢,但怎么说也是俺花了好几天,问了好多人才翻译出来的,大家没事赏个脸看看也没啥坏处,对
阅读全文
posted @
2008-06-25 07:41 蛙蛙池塘 阅读(1442) |
评论 (7) |
编辑
摘要: 利用excel做线性增长预测
昨天看了个帖子http://www.cnblogs.com/shenyisyn/archive/2008/05/20/1203061.html,自己写程序实现线性预测,其实excel也有这功能。假如我们知道了1季度的每天的销售额,我们要推算出后半年的销售额,以便制定原材料采购计划。当然销售量受很多因素影响,季节,营销,地区等,我们先不考虑这些情况,单纯利用线性公式来做预测,如果要把多种属性进行考虑和建模的话,得用sqlserver的BI功能了。
阅读全文
posted @
2008-05-23 12:42 蛙蛙池塘 阅读(1032) |
评论 (14) |
编辑
摘要: 困了,不多说了,就是教你怎样把邮件建立索引,再搜索出来。用MAPI把邮件读取到数据库里,用SharpICTCLAS做一个lucene的中文的语汇单元分析器,用lucene建立索引及查询索引。
阅读全文
posted @
2008-05-21 00:23 蛙蛙池塘 阅读(1791) |
评论 (12) |
编辑
摘要: 摘要:昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。
阅读全文
posted @
2008-05-11 23:34 蛙蛙池塘 阅读(1436) |
评论 (7) |
编辑
摘要: 摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。
阅读全文
posted @
2008-05-10 20:43 蛙蛙池塘 阅读(1792) |
评论 (15) |
编辑
摘要: 摘要:辛辛苦苦写个共享软件,又怕被人破解,所以就会想到用注册码的方式来激活软件。本蛙给大家一个简单的思路来实现软件注册码算法,当然.net做的东西很容易被人破解,反编译出来把验证注册码的代码一去就算破解了,不过咱不讨论这个先。
阅读全文
posted @
2008-05-03 21:55 蛙蛙池塘 阅读(2159) |
评论 (34) |
编辑
摘要: 不知道有多少人去研究google,阿里妈妈的广告作弊算法,抓包、分析http头,分析参数,分析cookies,甚至分析鼠标的点击序列,写钩子用程序去点广告,或者去模仿用户行为,我说这太麻烦了。不管你的广告做的多么好,你的广告点击次和广告商的收益低于一定比例,人家肯定不会给你广告费的,人家又不傻。这里用另一种思路去鼓励你的网站访问者去随机的点击广告,毕竟最终是人点的,咱只是鼓励一下,还不算不道德,是吧。
阅读全文
posted @
2008-05-01 12:57 蛙蛙池塘 阅读(1693) |
评论 (22) |
编辑
摘要: 摘要:Tag系统是Web2.0的一个招牌应用,如果你有一个经营了好几年的论坛,是不是也想生成自己的一套TAG。别听他们说什么语义WEB,文本聚类算法,TIIDF,余弦定理,相似度算法啥的高深算法(我一个也没整明白),跟我来,简单的计算词频来提取tag的效果就很好。
阅读全文
posted @
2008-04-29 23:34 蛙蛙池塘 阅读(2533) |
评论 (21) |
编辑