[源码]打包下载算法与数据结构演示动画

很早的时候,学习数据结构的时候。收集了一下演示的动画。帮助理解。但是不全。今天在看KMP算法的时候。看到了福州大学的一个精品课程。。81个演示动画呢。。想打包下载收藏。话说福州大学这才是好样的。踏踏实实搞学术。 第一种方法就是手工了。。嘎嘎。你敢么。一个个下载。。。一个个改名。。 第二种就是用整站下载的软件了。。但是我看了一下swf的命名。我就知道下载下来意义不大。因为名字不好理解。 第三种就是自己写个程序吧。。   整体思路,首先访问课程页面,解析得到每一章的标题和内容,然后创立章节文件夹,得到每个动画对应的html页面,然后对html页面解析,提取swf地址。然后下载就行了。 比较疼的地方是那个页面用的是gb2312编码。而解析神器HtmlAgilityPack,不能指定编码。只能想办法绕过了。 WebClient client = new WebClient(); MemoryStream ms = new MemoryStream(client.DownloadData(url)); HtmlDocument doc = new HtmlDocument(); doc.Load(ms, Encoding.GetEncoding(“gb2312”)); 绕过方法就是先使用内置类得到内存流。然后从内存中加载。 然后呢。涉及的技术就是xpath了。参考着xpath的文档。搞定了不少。中间还有一个地方就是我没注意看。这个页面有两个文件是一样名字。。调试了几次才发现。。 using System; using System.Collections.Generic; using System.Linq; using System.Text; using HtmlAgilityPack; using System.IO; using System.Threading; using System.Net; namespace FzuSwf { class Program { static void Main(string[] args) { DoWork(); } //执行任务 static void DoWork() { HtmlWeb web = new HtmlWeb(); HtmlDocument doc = web.Load("http://ds.fzu.edu.cn/fine/resources/"); HtmlNode divResource = doc. [Read More]

《商务智能与数据挖掘-谢邦昌》第三章读书笔记

3.数据挖掘 3.1定义  数据挖掘是指找寻隐藏在数据中的信息,如趋势。特征及相关性的过程。也就是从数据中发掘信息或知识(Knowledge Discovery in Database)。也有人称之为数据考古学。。记住,它不是一个无所不能的软件或是一种技术,他是一种结合数种专业技术的应用。数据挖掘工具从数据中发掘出个各种假设。但是并不帮你查证。确认这些假设。也不帮你判断这些假设是否有价值。 3.2数据挖掘的功能  1.分类(Classification),按照分析对象的属性进行分门别类加以定义。建立类组(Class)。例如划分银行信用申请者的风险属性,使用的技术有决策树(Decision Tree),记忆基础推理(memory-based reasoning)  2.估计(Estimation),根据既有连续性数值的相关属性数据。以获知某一属性未知值。。例如按照信用申请者的教育程度,行为估计其的信用卡缴费量。使用的技术包括相关分析,回归分析及神经网络算法。  3.预测(Prediction)根据对象属性的过去观察值来估计该属性未来值。比如根据顾客过去刷卡消费量来预测其未来刷卡消费量。使用的技术包括回归分析,时间序列分析,神经网络。  4.关联分组(Affinity Grouping)从所有对象决定哪些相关对象放在一起销售。比如那个啤酒和尿不湿。。在客户营销系统上,此功能用来确定交叉销售。。  5.聚类(Clustering),将异质总体中区分为特征相近的同质类组。目的是将组和组之间的差异辨识出来。并对个别组内相似样本进行挑选。 3.3数据挖掘的步骤  1.理解数据和数据所代表的含义(Data Understanding)  2.获取相关知识和技术(Domain Knowledge Acquisition)  3.整合和检查数据(Integration and Checking)  4.去除错误或不一致的数据(Data Cleaning)  5.建模与假设(Model and Hypothesis Development)  6.数据挖掘运行(Running)  7.测试与验证所挖掘的数据(Testing and Verification)  8.解释与使用数据(Interpretation and Use) 3.4数据挖掘建模的标准CRISP-DM  CRISP-DM模型强调完整的数据挖掘过程,不能只针对数据整理、数据呈现、数据分析以及构建模型,还需要对企业的需求问题进行了解,同时,后期对模型进行评价和模型的延伸应用,也是一个完整的数据挖掘过程不可或缺的要素。  CRISP-DM分为六个阶段(phase)和四个层次(level),分别简介如下:  1. 商业理解(Business Understanding)  本阶段主要的工作是要针对企业问题以及企业需求进行了解确认,针对不同的需求做深入的了解,将其转换成数据挖掘的问题,并拟定初步构想。在此阶段中,需要与企业进行讨论,以确定分析者可以对于问题有非常清楚的了解,只有这样才可以正确地针对问题拟定分析过程。  2. 数据理解(Data Understanding)  这部分包含建立数据库与分析数据。在此阶段必须收集初步数据,然后了解数据的内涵与特性,选择要进行数据挖掘所必须的数据,然后进行数据整理及评估数据的质量,必要时再将分属不同数据库的数据加以合并及整合。数据库建立完成后再进行数据分析,找出影响预测最大的数据。  3. 数据预处理(Data Preparation) [Read More]

《商务智能与数据挖掘-谢邦昌》第二章读书笔记

2.数据仓库

  数据仓库名字上来看是很好理解的。他与传统的数据库的不同在于。传统的数据库是未经整理后的一大堆数据集。而数据仓库是从数据库中萃取出来。经过整理,规划,建构而成的一个有系统的数据库的子集合。

2.1数据仓库特点:

  数据仓库的四个特点。

  1.面向主题(Subject Orient)。数据建立的着重点就是在于以重要的主题组件作为核心。作为建构的方向。数据需求者只要把谣言觉得相关主题数据,从数据库中攫取,整合之后就可以做研究之用。

  2.整合性(Integrated)各应用系统的数据需经过整合。以便利执行相关分析操作

  3.长期性(Time Variance) 为了执行趋势的分析。数据仓库系统需保留1-10年的历史数据。这与数据库为日常性的数据有所不同。

  4.稳定性(Non-Volatile)数据库可以被随时修改,但数据仓库基本上不会大动。只有内部人员会定期修改。但频率不会太多。也不允许用户做更新的动作。

  由于以上的几个特点。数据仓库必须通过一连串的程序才可建立。而不是说即买即用。。

2.2数据仓库架构

  数据源->整体数据仓库->部门性数据仓库->查询工具->终端用户

  数据仓库的建设过程:

  专业顾问通过与企业进行需求访谈,建立数据仓库的model,然后将企业内各种数据整合到数据库中,并建立前端分析数据的工具以及管理工具,这样的过程即为建立数据仓库的基本过程。

  1.设计(Design) 即数据仓库的数据Model设计,这部分是最重要的,若Model设计的不够周全或布里希那个,不管之后的报表设计如何精美,也可能跑出错误的信息。这也是需要有经验的专业顾问建立数据仓库的一个重要原因。

  2.整合(Integrate)即数据的整合转换过程,包含数据解释(Data Extraction) ,数据转换(Data Transformation)数据清理(Data Cleaning),数据加载(Data Loading)将各种来源的数据整理,转换并加载数据仓库中,程序编写较为繁杂,自动化处理困难,经常需要人工参与操作,大约占掉该项目60-70%的时间和人力。

  3.可视化(Visualize)即前端呈现给用户看的形式,例如数据挖掘(Data Mining) 即OLAP工具,用以呈现分析过的数据形式。

  4.调度(Administration)为管理的工具。

2.3建立数据仓库的原因和目的

  提高企业的竞争能力,降低成本,提高客户满意度。创造利润。

《商务智能与数据挖掘-谢邦昌》第一章读书笔记

1.绪论

  商务智能的含义就是指通过企业所拥有的数据和数据仓库的汇总,结合联机分析及数据挖掘技术挖掘出潜藏在数据库中的有用信息,并将其提供给决策者或部门主管作为平时运营的决策依据。而当企业面临危机时或必须立即做出重大决策时,也能依据数据仓库所提供的正确数据及时作出正确的决策。协助企业顺利解决问题。化危机为转机。更可见商务智能的重要性。

  商务智能应用的几个方面

  对于一般企业来说,商务智能主要应用在以下几个方面。1.了解运营状况,2.衡量绩效。3.改善关系。4.创造获利机会。

  企业引用商务智能的流程

  

  商务智能的核心:根据企业数据库整合成可以作为分析用的数据仓库。再进一步通过分析技术来探索数据。

  《Building the Data Warehouse》的作者William Inmon认为数据仓库必须具有面对主题,整合性,时间转化,不易变化四个特性。

  联机分析简单来说就是能让用户根据本身决策需求来浏览数据。动态且实时的产生其所需的报表,以提高分析效率的技术。事实上,他除了能提供在线实时数据分析模块外,更重要的是能展示多维度的数据。

  商务智能的另一项重要技术:数据挖掘:是指在大量数据库中寻找有意义或是有价值的信息的过程。通过机器学习技术或是统计分析方法论。根据整合的数据加以分析探索,发掘出隐含在数据中的特性。通过专业领域知识整合及分析。从中找出合理且有用的信息,经过相关部门针对该模型的评估后,再提供给相关决策单位加以运用。

  企业间的竞争模式,从传统的“红海策略”,即采取压低成本与价格的杀价流血竞争。到近来倡导以创新为核心竞争力的“蓝海策略”,不论哪一种策略模式,都是不断地从研发,制造,营销,客服或资源配置等运营的相关问题上。寻求问题的发生原因,并尝试找出解决方案,而运营阶段中,陆续积累的庞大数据,往往就是答案的隐身之处。这也是数据挖掘的目的。

  数据库仓库强大而实用,但有一个局限性。就是他实质上反映的过去的历史,由于数据仓库经常在特定周期或时间点进行加载和处理。因此他只是表示一个时间点上的快照。即使构建了实时或是近似实时的数据仓库,其数据仍然只表示当前和历史的数据。无法达到预测的需要。与传统的统计分析方法不同的是,数据挖掘不是让人提出假设。然后据此去找相关数据。而是让数据仓库确定数据相关性。并允许采用与以往不同的模式对数据进行分析。