2010年百度之星程序设计大赛初赛

2010年百度之星程序设计大赛初赛

ID:37900280

大小:28.50 KB

页数:4页

时间:2019-06-02

2010年百度之星程序设计大赛初赛_第1页
2010年百度之星程序设计大赛初赛_第2页
2010年百度之星程序设计大赛初赛_第3页
2010年百度之星程序设计大赛初赛_第4页
资源描述:

《2010年百度之星程序设计大赛初赛》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、2008年百度之星程序设计大赛初赛第二场题目1.广告排名区间(10分)问题背景shifen广告消费预估系统可以估计出一段时间内一个特定的广告在检索结果中排在各个位置的几率。比如系统对某广告的输出如下:p1=0.03,p2=0.08,p3=0.04……这说明该广告展现在第1位的概率是3%,展现在第2位的概率是8%,展现在第3位的概率是4%……问题是:如何给出一个排名估计区间[i,j],使得广告出现在该区间中的概率大于或等于一个预设值p,同时这个区间所包含的元素尽可能的少。也可用数学语言来描述:给定数p和数列p1,p2,…,pn,求i和j(1<=i<=j<=n),在满足

2、pi+pi+1+…+pj>=p的前提下让j-i最小。一般来说,pi只需保留6位小数就足够了。这样,若令ai=106pi,a=106p,则a和所有的ai均为[0,106]之间的整数。这样就避免了对实数的处理。输入格式第一行包含一个整数n(1<=n<=100,000)。以下n行每行包含一个[0,106]内的整数,依次为a1,a2,…,an。这n个整数之和保证不超过106。最后一行包含一个[0,106]内的整数a。保证所有ai之和不小于a。输出格式输出仅一行,包含一个整数,即j–i的最小值。样例输入75847105218样例输出2样例解释a2=8,a3=4,a4=7之和为

3、19,满足条件。而任何两个相邻数之和均小于18。2.LZW网页判重(20分)问题背景有一种简单的网页判重的方法,通过求两个网页内容的最长公共子序列(LCS)长度来判定两个网页的相似程度。如:(网页A)老师:请用“果然”造句。(网页B)学生:先吃水果,然后喝汽水……它们的最长公共子序列为“果然”,长度为2。注意这里的“子序列”并不要求连续。类似的,下面两个网页:(网页A)老师:请用“果然”造句。(网页B)学生:先吃水果,然后喝汽水,果然拉肚子……最长公共子序列还是“果然”,长度为2。但不难看出,由于“果然”两个字在网页B中也曾连续出现,第二组网页比第一组更加“相似”。

4、为了区分开这两种情况的区分度,我们改用一种称为LZW的理论。为了严格的叙述相似度的计算方法,我们首先定义“文本单元”。假定网页用一个不包含空白字符(空格、回车换行、水平制表符)的字符串来表示。它只包含纯文本,没有标签。在计算相似度之前,你应该首先对该字符串进行处理,划分成一个个“文本单元”。每个文本单位可以是一个中文字、英文单词(由一个或多个连续的半角英文字母和数字组成,正规表达式为[a-zA-Z0-9]+)、或者一个标点符号。根据上述定义,同一个标点符号的全角和半角应该被作为不同的文本单元,尽管他们看起来可能很相近;每个单独全角英文和全角数字都应该被看成一个单独的

5、文本单元,而连续的半角英文字母和数字应被看成一个整体。总之,全角的字符可以与中文字同等对待。这样,网页被看成文本单元序列。例如,网页“内容?123456??web2.00#”切分出的文本单元序列为(为了显示方便,用下划线分隔各文本单元):内_容_?_1_2_345_6_?_?_web2_._00_#而网页“why内容相似??1234567890,web#00”的切分结果为:why_内_容_相_似_?_?_1234567890_,_web_#_00黑体部分给出了两个网页的一个公共子序列。注意“内容”、“??”分别在两个网页中都是连续出现的文本单元。为了奖励这种情况,L

6、ZW规定一段由连续k个文本单元组成的字符串权值为k2。在刚才的例子中,“内容”、“??”的权值均为4。但“00”是一个数字串,应当被看成一个单独的文本单元。所以权值仅为1。根据上述规则,公共子序列“内容??00”的权值为22+22+1=9。在所有可能的子序列中,这个权值是最大的。给定两个网页,求他们的LZW相似度,即所有可能的公共子序列中的最大权值。注意1)输入的网页内容以GBK编码(参见FAQ)2)除了大小写英文字母和数字之外的其他半角字符均视为标点符号。输入格式包含两行,分别是网页A和B对应的字符串(不包含空白字符)。每行至少包含5个字节,最多包含200个字节。

7、输出格式输出仅一行,包含一个整数,为两个网页的LZW相似度。样例输入内容?123456??web2.00#why内容相似??1234567890,web#00样例输出9样例解释尽管两个网页里看上去都有“123456”但一方面第一个网页中混杂的全角和半角字符,而另一方面,即使全部改成半角字符,由于数字串“123456”和“1234567890”将分别看成一个单独的文本单元,因此无法部分匹配。3.钉子与木板(30分)问题背景墙上有n个钉子,编号为1,2,…,n。其中钉子i的横坐标为i,纵坐标初始为xi。可以进行两种操作:0kv:竖直移动钉子k,坐标变为(k,v)。1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。