蛙蛙池塘
人生价值的最好体现就是做好本职工作...
posts - 176,  comments - 1498,  trackbacks - 53
     摘要: 摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。  阅读全文
posted @ 2008-05-10 20:43 蛙蛙池塘 阅读(1792) | 评论 (15)编辑
     摘要: 在.NET 3.5里System.Net.Sockets空间下有一组增强功能的类,提供可供专用的高性能套接字应用程序使用的可选异步模式,SocketAsyncEventArgs 类就是这一组增强功能的一部分。该类专为需要高性能的网络服务器应用程序而设计。应用程序可以完全使用增强的异步模式,也可以仅仅在目标热点区域(例如,在接收大量数据时)使用此模式。以下是关于此类的介绍(摘自MSDN)
http://msdn.microsoft.com/zh-cn/library/system.net.sockets.socketasynceventargs.aspx

其实主要是改进了异步模式,让一些类可以重用,可能用的对象池的原理,不像以前的异步传输模式,每个数据来了,new一个新的iasyncresult,这样可能会引起GC线程CPU很高。下面是我找的一篇介绍.net 3.5里增强的socket api使用的文章,我翻译了一下,大家了解一下,貌似性能增强了不少。当然大家肯定说还不如看原文呢,但怎么说也是俺花了好几天,问了好多人才翻译出来的,大家没事赏个脸看看也没啥坏处,对  阅读全文
posted @ 2008-06-25 07:41 蛙蛙池塘 阅读(1442) | 评论 (7)编辑
     摘要: 利用excel做线性增长预测
昨天看了个帖子http://www.cnblogs.com/shenyisyn/archive/2008/05/20/1203061.html,自己写程序实现线性预测,其实excel也有这功能。假如我们知道了1季度的每天的销售额,我们要推算出后半年的销售额,以便制定原材料采购计划。当然销售量受很多因素影响,季节,营销,地区等,我们先不考虑这些情况,单纯利用线性公式来做预测,如果要把多种属性进行考虑和建模的话,得用sqlserver的BI功能了。
  阅读全文
posted @ 2008-05-23 12:42 蛙蛙池塘 阅读(1032) | 评论 (14)编辑
     摘要: 困了,不多说了,就是教你怎样把邮件建立索引,再搜索出来。用MAPI把邮件读取到数据库里,用SharpICTCLAS做一个lucene的中文的语汇单元分析器,用lucene建立索引及查询索引。  阅读全文
posted @ 2008-05-21 00:23 蛙蛙池塘 阅读(1791) | 评论 (12)编辑
     摘要: 摘要:昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。  阅读全文
posted @ 2008-05-11 23:34 蛙蛙池塘 阅读(1436) | 评论 (7)编辑
     摘要: 摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。  阅读全文
posted @ 2008-05-10 20:43 蛙蛙池塘 阅读(1792) | 评论 (15)编辑
     摘要: 摘要:辛辛苦苦写个共享软件,又怕被人破解,所以就会想到用注册码的方式来激活软件。本蛙给大家一个简单的思路来实现软件注册码算法,当然.net做的东西很容易被人破解,反编译出来把验证注册码的代码一去就算破解了,不过咱不讨论这个先。  阅读全文
posted @ 2008-05-03 21:55 蛙蛙池塘 阅读(2159) | 评论 (34)编辑
     摘要: 不知道有多少人去研究google,阿里妈妈的广告作弊算法,抓包、分析http头,分析参数,分析cookies,甚至分析鼠标的点击序列,写钩子用程序去点广告,或者去模仿用户行为,我说这太麻烦了。不管你的广告做的多么好,你的广告点击次和广告商的收益低于一定比例,人家肯定不会给你广告费的,人家又不傻。这里用另一种思路去鼓励你的网站访问者去随机的点击广告,毕竟最终是人点的,咱只是鼓励一下,还不算不道德,是吧。
  阅读全文
posted @ 2008-05-01 12:57 蛙蛙池塘 阅读(1693) | 评论 (22)编辑
     摘要: 摘要:Tag系统是Web2.0的一个招牌应用,如果你有一个经营了好几年的论坛,是不是也想生成自己的一套TAG。别听他们说什么语义WEB,文本聚类算法,TIIDF,余弦定理,相似度算法啥的高深算法(我一个也没整明白),跟我来,简单的计算词频来提取tag的效果就很好。  阅读全文
posted @ 2008-04-29 23:34 蛙蛙池塘 阅读(2533) | 评论 (21)编辑
残荷听雨,梨花飞雪,落英缤纷时节。晓来谁染枫林醉?点点都是离人泪
活着,就是快乐!自信,就是美丽! 有人爱,就是幸福。
春天来了
但愿野百合也有春天

第一季度的计划


看完几本书:
《应用程序框架设计》
《lucene in action》
《P2P网络技术原理与系统开发案例》

<2008年7月>
293012345
6789101112
13141516171819
20212223242526
272829303112
3456789

与我联系

常用链接

留言簿(39)

我参与的团队

我的标签

随笔分类

随笔档案

相册

朋友

搜索

  •  

积分与排名

  • 积分 - 363946
  • 排名 - 55

最新评论

阅读排行榜

评论排行榜

60天内阅读排行