第一篇:现代信息检索学习报告
76993082.doc
(图与内容无关)
Modern Information Retrieval 现代信息检索学习报告
姓名:
班级:
学号: 教师:
76993082.doc
一,我的感想
在报这课程时,对这门课程并不了解,只是简单的认为信息检索就是翻翻书找找文献等是单纯的查找。但是经过这一学期的课程,我发现每一条信息,每一篇文章都是系统的归类,划分范围类型,而检索的途径也很多种,如有作者途径检索、分类途径检索等,检索式更是分类齐全繁多。
有很多收获,感觉很充实,发现我们的生活中时时刻刻都在检索信息.在老师的指引下,我们对检索工具一步一步地熟悉和应用,对于检索的方法,我觉得不管是在哪个网站检索,最重要的还是关键词的选择。关键词选的“关键”,不仅可以提高检索速度,而且大大提高了检索结果的质量,可以很容易找到自己需要的资料,总之要缩小范围。
二,学习收获
信息检索课是无意间报名的,如不是一个偶然的事件,要不是我找错教室,也许我就会错过了一个真正的学习的机会。根据CNNIC最新统计调查显示,在互联网应用中,信息检索已经排在了第二位,成为仅次于电子邮件的互联网应用。搜索网站可以帮助我们快速便捷地在互联网中进行信息的检索、查询。信息检索对我们来说并不陌生,在这个信息泛滥的年代,很难想象如果一夜之间如果没有了Internet将对我们的生活产生怎样的影响。
以前我在网上找资料基本上处于一种盲目的状态。在百度里输入
76993082.doc
关键词,不少检索出来的东西,基本上用处不大,或者并没有什么依据,只是网友自己的解答。本学期上了信息检索课,我学习到了检索的一些知识,并且也由此及彼地把这些知识应用到信息的检索中。在学习阶段,通过上信息检索课我对信息检索的认识又上升到了一个新的高度。
我觉得信息检索可以应用在我们每个课程中,自己可以给自己觉得有意义的课题,进行一个追踪或者资料的查询,可以把自己学到的知识巩固,并且可以深化自己随着方面的理解。例如在我们的一堂《企业财务管理》课程,老师布臵了一个作业,一个企业并购案例分析,香港巨商李嘉诚之子,李泽楷,盈科数码动力主席与新加坡总理李光耀之子,李显扬,新加坡电信行政争夺香港电讯的收购权。在分析这道题时,就涉及到信息的检索,首先要看看这三家公司的经营情况,还要检索当时参与收购的财团,还有收购的获胜方,收购价格,最终收购后的经营状况等等。最后通过自己查到的这些资料分析为什么盈科数码动力会获胜,但是经营确是赔本的。
通过学习以后发现,信息检索的策略也是非常重要的,我原来误以为一个好的检索策略只能提高查准率,大不了我多查几篇资料,现在发现它还能提高你的查全率,而且对于你从较高层次上把握课题的研究方向、发展脉络是极有帮助的。
附:常用搜索网站信息和基本检索技巧
一,八大搜索网站简单介绍
1、“Google”是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能。
Google(http://www.teniu.cc.yahoo.com)支持网页、网站搜索,搜索速度快而且准确性比较高。
4、“网易”网站搜索非常出色,但缺少提示,网易搜索的操作界面不太方便,在使用的过程中也缺少提示。
网易搜索(http://search.163.com)支持网页、网站搜索,网页搜索使用的是百度的搜索技术,除了分页方式以外,其他的返回结果都与百度一样,但推荐的站点比较少。
5、“搜狐”曾是IE默认的中文搜索网站,网站搜索值得推荐,但重复现象较多搜狐的搜索结果中没有标出关键字,查阅起来非常不便。
搜狐(http://search.soho.com)支持网页、网站搜索,在国内享有很高的声誉,曾经一度是微软IE浏览器使用的默认中文搜索网站,在IE浏览器地址栏直接输入关键字即可进行搜索。
6、“慧聪”是出色的 行业搜索网站,但缺少高级搜索功能,死链率也不低,而且搜索结果中重复的网站较多。
长期以来,国内的搜索技术提供厂商很少,百度作为先驱者,占据了大部分份额。到了2002年,国内搜索市场中出现了一匹黑马,那就是慧聪搜索(http://www.teniu.cc)是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。天网搜索的FTP服务器文件搜索功能非常强大,而且还为用户整理了一份庞大的热门搜索关键字目录,方便用户浏览和下载所需的文件。二,信息检索技巧
1、选择恰当的关键字
互联网上流传的所有搜索技巧都是在如何确定关键字上做文章,选择一个好的关键字是搜索成功的关键。关键字代表着我们要搜索资料的特征,如果您找不
76993082.doc
到所需的信息,大部分情况是因为在关键字的选择方向上发生了偏移。找出关键字可不是一件简单的事情:首先您需要知道或者估计出目标网页内包含的文字,在脑子里形成一个比较清晰概念,再从中提炼出此类信息最具代表性的关键字。尽量不要选择常用词汇进行搜索,但可以同时使用多个关键字并加入与、或、非等多种逻辑关系进行搜索,这样才能避免返回无关的搜索结果。
a.避免输入及逻辑关系错误 首先我们要避免输入的关键字中有错别字,以及其他错误的操作。不同的搜索网站往往都有各自的特点,在某些搜索网站上,您可以使用“Where can I find software?”这样的自然语言进行搜索;但在某些搜索网站上,您甚至不能成功地使用单个汉字作为关键字进行搜索。另外,在使用多关键字通过与、或、非逻辑关系进行搜索时,不同的搜索网站所采用的逻辑关系表示符号也可能有所不同。所以我们有必要针对不同的搜索网站选择不同的关键字,并在首次使用一个搜索网站时,花一点时间阅读搜索网站的帮助文档,这是非常有必要的。
b.使用多关个键字来提高 检准率 对于大部分的搜索任务来说,一般都能够通过搜索网站找到需要的网页,但是如果不细心选择关键字,搜索网站可能会返回很多并不是您需要的结果。此时,如果您将另外一个跟搜索目标相关的关键字加在一起搜索,返回的结果就会少很多,也更加准确。因此,很多时候我们需要使用多个关键字查询的方法来提高搜索准确率。但需要注意的是,搜索网站对关键字的个数可能会有限制。另一方面,也要注意搜索内容之间的逻辑关系是否合理。
2.句子检索法可有效提高文本检准率
在使用搜索网站时,不少人经常被“关键字”这个名称所限,而忘了关键字可以是一个字、一个词,甚至一句话。例如在搜索小说、文章等文本内容时,最简单的方法,是用文本的标题搜索,但最高效的方法,则是用文中的一句话来搜索,可以让您的搜索效率提高不少。3.文件检索法 利于快速查找文件目标
如果您的搜索目标是一个文件,如一个公司Logo的图像文件,或者一个设备驱动程序的压缩包,您除了可以用公司的名称或者设备的名称进行搜索外,还可以从文件的名称入手。例如,当您在搜索设备驱动程序时,如果选择设备的品牌、型号为关键字时,搜索网站会返回许多无关的信息,这时,如果在这些关键字的后面再加上ZIP或RAR等常见压缩文件扩展名,您会有意外的收获。4。“抛砖引玉”法利于快速查找相关信息 如果您有一个非常喜欢的专业网站,并希望从互联网上找到更多同类的网站,这时怎么选择关键字最有效呢?或许搜索这个网站的内容类型会找到一些不错的站点,例如使用“军事网站”、“医学站点”做关键字,但很多时候这种搜索方法也可能一无所得。实际上最有效的方法是抛砖引玉,用您最喜欢的网站的站点地址作为关键字。因为链接到那个站点的往往是同类站点,用这种方法您肯定能够找到一些相关的网站。
5.中西结合检索法可以很好地完成某些搜索任务
在使用搜索网站时,灵活地结合中文和英文可以很好地完成某些搜索任务。您除了可以将要翻译成中文的英文词汇用作关键字,并指定搜索网站只返回中文网页的结果,尝试将搜索网站当成翻译机器来使用;还可以将中文词汇的一部分翻译成英文,例如您正想将“土豆烧牛肉”翻译成英文,只要您知道土豆的英文,您就可以输入关键字 “土豆烧牛肉 potato”,从互联网上找到含有土豆烧牛肉
76993082.doc 的英文网页。
三,信息检索的应用
本学期选修了现代信息检索课程,觉得很有用,虽然在一开始对于这门课程,到底能够学下什么,到底可以应用多少产生过质疑。觉得现代信息检索,名字叫得听高级,到底学什么不了解,但在这门课程学完后我有了理解。“快速便捷地找到自己所需要的信息”是这门课程的要求,那怎么才能应用与我所学的旅游管理专业上呢?
随着互联网技术的广泛应用,旅游业的网上营销是近期行业内探讨的热门话题,而其中一个重要的推广手段——搜索引擎,在企业中发挥的作用也渐渐突显出来。对搜索引擎以及旅游行业专业人士—— “去哪儿”旅游搜索引擎的了解,综观搜索引擎对推动在线旅游业发展方面所创造的价值,可以让旅游业界人士对运用搜索引擎来最大化收益有个更清晰的理解。
通过对“去哪儿”旅游搜索引擎的了解,可以看整个在线旅游行业的现状,细致分析了消费者利用网络查找及预订相关旅游服务的情况,不但有利于完善和丰富旅游搜索引擎自身的发展,对旅游运营商——航空公司、酒店及旅游代理商了解搜索引擎的及消费者购买流程更是大有裨益。
“去哪儿”的调查发现,使用网上预订的旅客都是旅游常客,进行网上预订的消费者是热衷旅游的人士,26%称在过去一年中他们至少度假4次;虽然中国的网络用户主要是在中国境内旅行,越来越多的中国人计划出国旅行,将近40%的人希望下一次旅行时能够走出国 6
76993082.doc
门。
对于网上旅行者特征的调查,“去哪儿”的报告显示,这部分消费者是属于吸引力很强的人群,73%使用信用卡,22%拥有并驾驶小汽车,88%拥有大学学历。
而对他们的预订方式的调查发现,更多的人愿意使用互联网预订旅行。“去哪儿”的报告显示,一半以上的互联网用户曾经在某个地方在网上购买机票,略低于一半的人曾在网上预订酒店。
从市场应用角度来讲,航空旅游行业对搜索引擎的依赖性是比较强的。我们可以从用户的反馈看到,凡是在网上有旅行预订经历的用户,有97%的人都会通过搜索引擎来寻找旅游产品。这也给航空公司、旅行代理,还有酒店一个很强烈的信号——利用搜索引擎来传达他们的相关信息,是企业推广的有效手段之一。”
关于信息检索的应用有部分摘抄自2007的一个腾讯新闻网的《关于旅游业与搜索引擎的发展关系》,其中还有介绍Google的旅游搜索引擎,但由于Google2010年3月推出中国内地,转至香港,就不做介绍分析。
以上为我对现代信息检索的感想,学习收获,和现代信息检索在游业方面应用的看法,可能不是太全面,或者太狭隘,望何老师见谅和指导。
2011年12月5日星期一
第二篇:信息检索学习报告
信息检索学习报告
第一部分:对自己的学习做个自我评价,对于“信息检索”这门课程的学习,我给自己的评价是8分(10分制)。
首先,我对检索确确实实有了更深入、更准确的理解。它不再是我之前观念中那种单纯的搜索查找,而是一项系统的技术。在通过课堂的讲解和教材的指导后,我也基本掌握了对各种信息进行检索的方法、技巧以及对检索系统与工具的选择。一定程度上达到了学习本课程的目的。
其次,由于检索技术概括的面之广,而在实际使用与操作中,涉及的检索对象有限,使用的系统、语法、方法、工具等都集中在一些常用或习惯的部分,导致很多内容只是到懂得、知道的地步,远达不到熟练使用与操作。
最后,通过系统的学习,我已经可以检索到自己需要的资料,实现学以致用的目的。第二部分:每次课堂学习的收获,开学以来,在C203上理论课的时间一共是7节。针对我们所学专业——地理资源和城乡规划管理作了举例和讲解。其中详细、具体学习的内容如下:
a)信息检索基础知识——信息与信息检索的认识,明白检索的对象、意义等。然后重点以信息检索工具及其选择原则、信息检索方法及途径、检索式的拟定、信息检索和分析步骤进行学习。其中检索语言类型、检索语言的规范、检索词的用法最为实用,学习后就立竿见影解决了平时检索的很多像检索不全、不准或过多等问题。
b)网络信息检索——就与网络相关的检索,弥补了除对图书、期刊的检索的局限性,让学习的知识可以在平时的娱乐、休闲中起作用。对搜索引擎的了解虽不是像一门技术可以掌握,但至少了解其工作原理。网络资源、导航的学习可以说切切实实节省了时间,提高了我们检索的效率。
c)学术论文的写作——作为学习这门课程的几大目的之一,掌握论文写作是必要的。通过学习知道了其格式、要求和写作程序,但还没实际操作,以至记忆不深刻,还不能不翻书完全对立完成写作。
d)对图书、期刊、特种文献、数据与事实信息的检索——不同的信息在不同的检索系统和工具上完成。在之前学习的基础上,只要清楚在哪里才能检索哪种信息就可以有效的找到相关资料,当然这也要求我们能将检索目标准确的判断为哪种信息和较好的使用检索语言。第三部分:完成上机实验题目的收获,我们上机实验的题目主要是对检索语言的练习和利用一检索系统对相应信息进行检索的练习。这两方面与我们现在的学习、生活联系相当密切,直接的操作比上理论课更直观的感受了我们学习的内容有什么作用,对我们有什么帮助。也同样检查了我们是否真正掌握这些方法,让我知道在什么情况要做何处理。
第四部分:对信息检索这门课做个评价,上完这门课,我才知道为什么其他学校同学争先恐后选修这门课。它比起其他很多课程更具有实用价值,学完即用。学时短,但成效可以非常显著,现在我已经可以利用学到的很多东西了。但是,上机时间有些短,如果可以再增加两堂实验课,再多布置一些题目进行练习,我想可以更好地在课堂中发现自己不知道如何处理的情况和不清楚的方法并处理这些问题。
第三篇:现代信息检索题目及
《现代信息查询与利用 》参考题目
一、每一位同学从以下题中选择一题来做,也可以自拟题目: 城市下岗工人工作生活状况
促进城乡义务教育均衡发展问题
大型赛事对城市发展的影响
大学毕业生当村官
大学生创业现状、问题与对策
大学生就业问题研究综述
“80后”与“90后”大学生比较研究
低碳经济研究综述
电子商务发展研究综述
发展低碳经济的现状与对策
发展旅游业对当地生态环境的影响
房地产市场研究综述
在校大学生创业问题
网络对大学生的影响问题
教育应注重人格培训还是技能培训
大学生谈恋爱问题
构建和谐社会背景下的医疗卫生问题
关于城市化研究综述
关注弱势群体生活保障问题
国内外高等教育研究综述
节能减排问题
经济国际金融危机后民营企业经营状况
经济与环境协调研究综述
科学发展观与大学生活规划
老年人家庭赡养问题及对策
旅游文化开发基础研究
农村劳动力转型问题
农村留守儿童生活状况研究
农村人口的就业方式、就业观念变化调查调研
农村社会保障制度建设研究
农村社会弱势群体的权利保护问题
农村社会养老保险研究综述
农村义务教育实施情况研究
农民工返乡创业问题
全球变暖问题
社会保障问题
四川旅游环境研究综述
特色农业现代化道路调研
图书馆建筑研究进展综述
我国信息生态问题研究综述
我国远程教育在农村中的发展问题 新农村建设背景下的农村乡风文明建设 新形势下粮食安全问题 医疗制度改革问题
金融危机对我国财政政策的影响综述区域经济发展研究综述
新农村建设中的公共事业管理研究综述农村留守儿童心理问题研究综述碳汇交易在我国的发展现状及对策基于分形理论的地方文化产业发展研究高校处罚法的立法现状与未来发展公民道德危机问题研究纪录片创作的故事化绵阳的旅游市场研究综述
数字图书馆的知识产权问题研究综述知识传播动力学研究综述企业战略信息系统研究综述知识传播动力学研究综述
分布式知识管理系统的开发和应用研究综述流媒体技术研究综述软系统方法研究综述
高校信息化体系建构研究综述智能代理技术研究综述
网络信息的挖掘技术研究综述异构信息集成模型研究综述网络不良信息过滤研究
信息向量与信息接发失真研究综述信息技术对组织的影响研究综述信息资源开发技术研究综述三维可视化系统研究综述信息污染研究综述信息系统实证研究综述
版权保护与信息资源共享研究综述网络虚拟财产的法律属性研究农村宅基地使用权流转法律问题互联网发展的法治问题
公民启动违宪审查的法律困境公民言论自由的法律限制
大众传媒对大学生学习的影响消费者知情权的保障研究我国品牌发展的问题与对策广告新闻化的媒介行为分析研究
二、要求按以下格式及内容要求撰写“《现代信息查询与利用》综合报告”:
《现代信息查询与利用》综合报告模板
学科专业学号姓名成绩
课题:
一.研究主题分析 1. 需求分析:
(列举出课题需要的文献信息为全面性文献资料/专深性文献资料;查找的文献资料的文献类型;文献加工深度;文献的时间范围;文献的作者、文献的质量;语种范围)2. 关键词分析:
(根据课题题目提取出检索关键词,并且扩展出相关的等同词与下位词)3. 背景知识:
(通过文献资料汇集书写300字左右的课题的背景材料,可包括课题描述的事物发展历程、种类、现状,国内外研究的重点机构、项目、代表人物和已经取得的学术成果等)4. 拟解决的问题:
(通过思维分析活动和了解课题背景知识对课题进行主题分析,提出需要解决的问题)二.信息检索与收集 1.检索方法:
(文献检索过程中可能需要使用的检索方法,例如常规法、追溯法、访谈法、二次检索法、综合法等)2.检索工具:
(查找文献的工具;文献检索过程中使用到的中文数据库;中文搜索引擎;纸质书籍、报纸、期刊等。要求使用的检索工具不少于3个)3.检索主题词:检索表达式
(文献检索过程中使用的检索词,检索技术的应用)4.检索过程:
(根据提取的主题检索词,依次使用不同的检索工具,运用构建相匹配的检索表达式并且使
用适合的检索方法,分别获取检索结果)
三、检索结果的筛选与评价
1、依据检索目标,对检索获得的相关结果文献进行选择,并记录下其中6篇重要文献的外表特征分别是:(1)【题名】 【作者】【作者单位】 【刊名】【关键词】
【摘要】(此处指的是原文的摘要)
得到了下列的重要文献(包括追溯法检索与引文检索法获取的文献)的外表特征及摘要是:
2、依据检索结果,从文献的相关性、可靠性、适用性、新颖性等几个方面来评价一下
四、检索结果的比较与归纳
(通过阅读分析,对5篇文献从研究的目的、提出研究的问题、研究方法、研究的结论、文献的创新点、该文献与你的关系等方面进行比较与归纳分析,写出针对该题目,在以后的写作中将重点研究的内容与方法,或提出自己研究的方向与重点。)
五、检索结果的应用与组织(综述写作)
按照课题要求,根据分析整理出的5篇文献资料,选择一种综述类型撰写课题的综述。要求字数1000字左右,格式要完整:(1)题目:(2)引言:(3)正文:(4)结论:(5)参考文献:(按照标准的参考文献标注格式书写,并在综述中标注出来)
六、我的信息素养(选做其中一题)
1、对照本课程的信息素养评价指标,根据课程学习的心得体会,写下自我信息素养提高的总结,200字。
2、打开,以实名制形式做一份问卷调查。
作业形式:打印稿
作业上交时间:6月20日
地点:新区图书馆三楼技术部(3-12)电话:6089229
温馨提示:综合报告中所提及的概念在课堂上、书本上都有讲过,如果不记得,可网络自助查询,此过程不必写入报告。
第四篇:现代信息检索论文
期末课程论文
论文标题:课程名称:信息检索技术课程编号:学生姓名:尹江津学生学号:所在学院:计算机科学与工程学院学习专业:计算机科学与技术课程教师:
文本分类及相关技术研究
1220500 1100310230
王
冲
2013年7月2 日
文本分类及相关技术研究
信息检索(Information Retrieval,IR)是研究信息的表示、存储、组织和获取的一门学科,其目标是为用户快速、准确地提供其所需的信息。信息检索起源于20世纪50年代,在60年代取得了关键性进展,其中最著名的是GerardSalton开发的SMART系统以及Cym Cleverdon提出的Cranfield评价方法,SMART系统和Cranfield评价方法有力地推动了信息检索的发展。在70年代和80年代,多种关于文档检索的模型被提出,文本检索会议(TREC)于1992年开始举办,该会议推动了大规模文档集合环境下的信息检索技术的发展。随着互联网上信息的迅速增加,为了进一步提高用户信息检索的质量和效率,网络上出现了更高效地信息索工具——搜索引擎(Google,Yahoo,Bing,百度等),搜索引擎为用户在互联网这个分布式环境下检索需要的信息提供了极大的方便。
文本分类是一个监督学习过程,它根据一个类信息已知的训练文档集合,训练出文本特征和文本类别间的关系模型,然后通过这个学习得到的模型对待分类文本进行分类。文本分类技术是处理和组织文本数据的重要手段,同时也是信息检索的重要基础,把大量的文本信息按主题层次进行组织可以极大地简化信息检索的过程,按照类别对文档进行检索或对检索结果进行分类,都可以提高检索的查准率。由于文本分类技术可以对大量的文本进行分类,文本分类在信息检索、自然语言处理、垃圾信息过滤、Web挖掘等领域得到了广泛应用。
一、文本分类概述 1.文本分类的一般过程
数据分类是数据分析的一种重要形式,数据分类通常用两个步骤:学习和分类。在学习步,分类算法利用训练数据来构建分类器,训练数据有多个元组以及与元素关联的类标签构成。元组X被表示为n维的属性向量,每一个元组属于一个或多个事先定义好的类别,类别由类标号属性(class label attribute)决定,类标号属性由离散、无序值构成。由于每一个训练元组的类标号已知,因此,学习步是一个监督学习过程。学习步可以看作是学习映身函数,函数,对于给定的元组Z该函数可以预测与X关联的类别标号。文本是数据的一种具体形式,也是语言的实际运用形态,文本在人们生常生活中无处不在,任何有具体一定含义的文字都可以统称为文本。文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地对待分类文本进行分类,确定待分类文本的类别。其数学公式表示如下:
其中,A为类信息未知文本的集合,B为分类体系中类别信息的集合文本分类一般包括以下5个过程:文本预处理、文本表示、特征降维、分类器的选取与训练以及分类结果的评价。
文本分类系统的主要功能模块为:
(1)文本预处理:为了使文档的格式满足分类器的输入要求,首先需要对原始语料进行处理,将其格
式进行规范化,;
(2)文本表示:将文本分解为基本处理单元,用数学模型来表示;(3)特征降维:降低特征空间的维数,提高分类器的效率和准确率;(4)分类器:选择合适的分类器并用训练数据集进行训练;(5)性能评价:选择对分类器的性能进行评估的性能评价标准。
2.文本预处理·
自动文本分类的第一步是文本预处理。通常情况下,各种不同类型的文档的来自不同的领域,从而文档的存储形式各异,并且计算机处理的文本不仅包含文字内容,还包含有功能性标签等不规范符号,文本分类模型不能直接对原始文档进行处理。必须对原始文本进行预处理,去除其中的噪声,规范化其形式,从而使文本满足分类模型的输入要求。文本预处理是影响文本分类准确度的关键因素,文本预处理的主要任务是从原始文本提取主要内容并对其格式进行规范化,一般包括以下几个步骤:去除文档中的格式标记、过滤非法字符、字母大小写转换、去除停用词和稀有词、词干化处理。
3.文本表示
文本本身不能被直接用来分类,为了使文本能够输入到计算机中进行处理,首先应将原始文本转换为数学模型,然后用计算机对数学模型进行处理。在实际应用中,将原始文本转为文本向量和词频矩阵后,这些数学模型非常庞大,计算机处理时需要花费大量的时间,为了提高处理效率,一般都假设词语与词语之间相互独立,词语在文本中的位置被忽略,文档被表示为不同特征项的集合。这种方法被称为“朴素(Naive)”的方法或“词袋“模型。文本表示模型主要有布尔模型、向量空间模型以及统计语言模型,虽然这三种模型采用不同的方法来表示文档,这三种模型都采用了“词袋”模型的思想。
4.信息增益
信息增益是指某特征项在文本中出现前后的信息熵之差,在机器学习领域中,经常用信息增益来衡量某个特征项的重要性。对于词语t和文档类别C,通过统计C中出现和不出现t的文档数来衡量t对C的信息增益。特征项t的信息增益用如下公式计算:
其中,Pr(Ci)表示在文本集合中属于白类的文本出现的概率,Pr(t)表示文本集合中包含特征项t的文本在文本集合中的出现概率,Pr(Ci|t)表示在文本中包含词语f的条件下文本属于类Ci的条件概率,Pr(t)表示文本集合不包含特征项t的文本在文本集合中的出现概率,Pr(Ci|t)表示在文本中不包含词语t的条件下文本属于类Ci的条件概率,m是类别总数。根据公式计算出各个特征项的信息增益后,除去增益值小于指定闽值的特征项,剩余的即为选中的特征;或按特征项的信息增益从大到小排序,删除信息增益很小的单词。
二、文本分类方法 1.Naive Bayes方法
Naive Bayes分类方法(以下简称NB法)是一种简单而又非常有效的分类方法。NB法的一个前提假设是:在给定的文档类语境下,文档属性是相互独立的。假设面为一任意文档,它属于文档类C={cl,C2,.,Ck)中的某一类cj。根据NB分类法有:
对文档反进行分类,就是按计算所有文档类在给定di情况下的概率,概率值最大的那个类就是di所在的类,即:
可知,对于给定分类背景和测试文档,用NB法分类的关键就是计算P(Cj)和P(di|cj)。计算P(cj)和尸(硝lcj)的过程就是建立分类模型(或者说学习)的过程。根据.P(dj|ci)计算方式的不同,可以将Naive Bayes方法分为最大似然模型(Maximum Likelihood Model)、多项式模型(Multinomial Model)、泊松模型(PoisonModel)等[ELM03]。
2.使用最大熵模型进行中文文本分类
最大熵模型是一种在广泛应用于自然语言处理中的概率估计方法,它可以综合观察到的各种相关或幂相美的概率知识,对许多问题的处理结果都到这或超过了其他方法的最好结果。但是,将最大熵模型应用在文本分类中的研究却非常少,本章使用最大熵模型进行了中文文本分类的研究。通过实验,比较和分析了不目的中文文本特证生成方法,以及使用平滑技术的情况下,基于最大熵模型的分类器的分类性能;将其和Bayes、KNN、SVM三葶争典墨的文本分类器进行了比较;使用Bagging来提高最大熵模型的分类稳定性。
1).最大熵模型
最大熵模型是用来进行概率估计的。假设a是某个事件,b是事件a发生的环境(或称上下文),我们想知道a和b的联合概率,记为p(a,b)。更一般地,设所有可能发生的事件组成集合为A,所有环境组成的集合为B,我们想知道,对于任意给定的aA,bB,概率p(a,b)是多少?
我们抱这个问题放到自然语言处理的领域来讨论,对于文本分类问题,一个文档分到某个类别可以看成一个事件,文档中出现的词可以看成这个事件的发生环境,我们想知道包含词b的文档属于某一类a的概率。很容易想到的方法是通过训练语料进行统计。给定一个训练集,定义A={a1,a2,A,am)是文档所属类别集,B={bl,b2,A,bm}是文档的特征词集,num(ai,bj)为疆练集中二元组(ai,bj)出现的次数,那么我们可以使用如下公式进行概率估计:
这个方法有个很大的问题,即“稀疏事件”(sparse evidence)问题,即便是很大的训练文本,很多
二元缝组(ai,bj)仍然没有出现,武断的认为它的概率为0显然是不可取的。最大熵模型是这样来解决稀疏事件问题的,它使未知事件的概率分布总是尽可能均匀,即倾向予得到最大熵。例如一个军事、政治和科技的三类文本分类题,我们得知出现“飞秘”这个词的、80%的文档属于军事类别,对于“飞机”这个词在蒺饱两类中的分布未知。根据最大熵原则,如果给定一个包含“飞机”这个词文档,那么认为文档以0.8的概率属于军事类别,分别以0.1的概率属于其它两类;如果文档中不包含“飞机”这个词,那么认为文档分别以相同的、1/3的概率属于每一个类。即,在符合已知约束条件下,使未知事件尽可能均匀。具体来说,根据Shannon的定义,熵的计算公式如下:
那么,求解满足最大熵原则的概率分布公式如下:
三、总结与展望
文本分类技术是组织和处理文本数据的重要手段,其主要任务是如何在给定的分类体系下,根据文本的内容自动地确定与文本关联的类别。文本分类可以有效解决大量文本信息归类的问题,并且是信息检索、Web挖掘、内容信息过滤等研究的重要基础。主题模型是概率模型,由于主题模型可以捕获潜在的语义结构信息,主题模型在文本分类、信息抽取、观点挖掘等文本挖掘任务中的应用得到了较深入的研究。
本文对文本分类进行了研究,介绍了文本分类的一般过程与关键技术,主要包括:文本预处理、文本表示、性能评价指标,同时还对主题模型PLSA、LDA、sLDA和iTopicModel的构建方法和参数估计方法进行了介绍。针对已有的监督主题模型与基于机器学习的文本分类算法假设文档之间相互独立、不能有效利用文档间的关联关系的问题,提出了监督关联主题模型SRTM和关联文本分类算法TC.iTM。为了利用利用文档间的关联关系来提高监督主题模型的预测准确度,我们基于iTopicModel提出了监督关联主题模型SRTM,将文档间的关联关系、文档的文本信息、文档的标号进行统一建模,首先用古典线性回归模型对文档标号进行建模,给出SRTM的联合概率分布,通过EM算法最大化联合概率分布的对数似然对SRTM的参数进行估计,然后用Fold.In[54]方法对训练数据以外文档的标号进行预测。最后我们用广义线性模型对文档标号进行建模,对SRTM进行扩展,使SRTM可以处理多种类型的文档标号。Cora研究论文分类数据集和电影评论数据集上的实验表明,在文档网络中,SRTM的预测结果要优于现有的监督主题模型。
参考文献: [学位论文] 姜英杰,2010郑州大学:计算机系统结构
[学位论文] 刘欣,2010重庆大学:计算机科技与技术
[学位论文] 陈树清,2010南京理工大学:计算机应用技术
第五篇:信息检索教程学习报告
信息检索教程学习报告
一.学习自我评价
刚开始接触信息检索这门课觉得很茫然,因为从来没有接触过,甚至听说过,所以对这门课很有兴趣,有知识的好奇才是学习的原动力,所以我比较认真的听课,通过这一学期的学习多多少少还是对这个学科有一点了解,随着现代信息技术的快速发展,信息数量呈爆炸性增长,信息的存储和传播方式发生了巨大的变革,而信息的杂乱性、无序性、分散性无疑加大了查找和利用信息的难度,影响了获取信息的质量和效率。于是信息检索便应运而生,而通过这一学期的学习,我掌握了信息检索的方法和技巧,提高了自己的学习效率,提高了自己解决问题的能力,最主要的还是给生活上提供了很大的方便,最基本的,查找信息的时间大大减少这都得益于信息检索这门课和尚老师的教导,而自己在学习上也比较认真和努力,所以说也算基本掌握了这门课的主要内容,而在生活上的种种收获更让我觉得知识的,通过尚老师的教授和自己对这门课的学习,提高了自己的素质,也十分感谢。
二.课堂学习收获
信息检索这门课总共包括九章,虽说每一章内容不一样,但是核心却是一样的,都是服务生活,信息的客观,时效,传递,共享这些属性让我们更全面具体的了解了信息,作为一个喜爱浏览杂志期刊的学生,第四章给我很大的帮助,了解了检索期刊的途径和工具,更是了解到期刊全文数据库,以及检索方法,而通过第五章的学习,更是给我们平时的学习生活提供力很大帮助通过对学术论文的了解,以及对论文检索方法和技巧和地方的学习,给现在提供了很大帮助,耿鬼以后的毕业论文打下了基础,而国外论文的学习更是丰富了我们的学习生活,各种科技报告和文献的学习也是、对我们帮助很大,七八章的学习更是让我们平时的生活丰富和方便,最后我们还有两百道题的学习巩固,更是让我们收获很多,增长见识,让自己在如今的社会中取得一定的优势。
三.上机实验收获
上机是对所学知识的应用实践,是巩固提高我们所学知识的手段以及最佳方法,在上机中我们通过网络对老师要求的内容进行检索,让我们对所学知识进行深化,通过布尔逻辑方式,特定文件类型检索,精确匹配——双引号,把搜索范围限定在特定站点中——SITE等好几种方式去检索。使我熟练的掌握了这几种检索方式,提高了我的检索技能。坚持实践和课堂相结合更是让我收获良多
四.检索课程评价
带着好奇与求知去学习是最好的动力,如今的生活信息与我们息息相关,我们每天都在与信息打交道,通过这一课程的学习,让我通过反觉器官接受外界各种各样的信息,更是通过很多方式传递,而通过这一学期的学习让我不仅能更快捷的收索到信息,而且让我们能更准确的传递信息,不仅方便了我的生活,也提高了我的学习质量与效率,所学到的知识与技术更是能让我一生受用,知识改变命运