标签:面试经验
复合事件处理可看作一种处理串流(Streaming)的数据库处理。在关系数据库中所处理的资料是有许多行(Row)的数据表(table),复合事件处理将事件串流当作是数据表来处理,事件类型里的属性相当于数据表的字段。对于政府和企业来讲,处理包含海量信息、图片的庞大数据,已是例行公事。但现在,这一模式正...
China Indicators提供中国经济指数参考。来源网址:https://tradingeconomics.com/china/indicators
文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本(text),与 讯息(message)的意义大致相同,指的是由一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。...
美国联邦储备银行是美国联邦储备系统所属的私营区域性金融机构。美联储数据统计研究中心提供其研究结果和数据。来源网址:https://www.federalreserve.gov/data.htm
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,...
文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。来源网址:https://b...
Bloomberg创建于1981年,是全球商业、金融信息和新闻资讯提供商,通过其强大的集信息、人物及观点为一体的动态网络为全球决策者带来关键优势。 彭博精于以创新的技术来快速、精准地传递数据、新闻和分析。Bloomberg-stock提供全球的股票指数参考,需要科学上网。来源网址:https://w...
文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航...
Commodity解释什么是商品,它们是如何交易的,以及什么驱动价格。来源网址:https://commodity.com/
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语...
Internet World Stats提供全球的互联网使用情况及人口统计。来源网址:https://www.internetworldstats.com/stats.htm
话题检测与跟踪(Topic Detection and Tracking)是一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。TDT(Topic Detection and Tracking,话题检测与跟踪)起源于早期面...
Statcounter GlobalStats提供浏览器使用率参考,统计数据是基于Statcounter收集的汇总数据,这些数据来自Statcounter网络中150多万个网站,样本每月超过50亿次页面浏览量。统计数据每天都在更新,但在发布后的45天内都要进行质量保证测试和修订。来源网址:https...
小世界网络模型是一类具有较短的平均路径长度又具有较高的聚类系数的网络的总称。通过调节一个参数可以从规则网络向随机网络过渡,该模型成为WS小世界模型。由于WS小世界模型构造算法中的随机化过程有可能破坏网络的连通性,Newman和Watts提出了NW小世界网络模型,该模型是通过用“随机化加边”取代WS小...
DATAJOBS网站的Big Data Knowledge Repo栏目提供数据科学家/分析专家的核心知识资源。来源网址:https://datajobs.com/data-science-repo
实体联系模型(Entity Relationship Model),是一种以直观的图示化方式描述实体(集)及其之间联系的语义模型,所以也称为实体—联系图(Entity Relationship Diagram,E-R图),它是一种十分有效的数据库概念模型描述工具,由P.P.Chen于1976年首先提...
Data Is Plural — Structured Archive电子表格跟踪了每周通讯《Data Is Plural》上发布的项目。这个电子表格跟踪数据是复数发布的项目,每周简报突出有用和有趣的数据集。你可以在data-is-plural.com上订阅时事通讯。查看该电子表格需要科学上网。来源...
网络是由若干节点和连接这些节点的链路构成,表示诸多对象及其相互联系。在1999年之前,人们一般认为网络的结构都是随机的。但随着Barabasi和Watts在1999年分别发现了网络的无标度和小世界特性并分别在世界著名的《科学》和《自然》杂志上发表了他们的发现之后,人们才认识到网络的复杂性。网络会借助...
OPEN DATA NETWORK发布并共享数据,查找并构建数据以及回答问题。来源网址:https://www.opendatanetwork.com/