大数据中的语义识别资料Word下载.docx

资源描述

大数据中的语义识别资料Word下载.docx

《大数据中的语义识别资料Word下载.docx》由会员分享，可在线阅读，更多相关《大数据中的语义识别资料Word下载.docx（13页珍藏版）》请在冰豆网上搜索。

大数据中的语义识别资料Word下载.docx

另外还有一些相似的情况，如要将16˚C的语义理解为16摄氏度。

令S为一个非结构化数据集，多个种类数据相结合的结果，S还可以看作是字符串的集合，其中的内容用分号隔开并且由列项表示其包含的内容，每一项记录S的一个数据架构。

我们定义的S并没有明确的结构，这会导致一个语义数据操作问题。

S可能包含不一致的内容，这种情况下需要回答三个疑问：

什么是字符串语义？

应当使用什么样的语言？

什么样的值是能够使用的，什么样的是不能使用的（即值的有效性和无效性）？

图1中给出了一个S的样本

图1：

数据源S的样本

可以看到数据源S中有几个列项组成，S被记为（Coli,i=1;

7）这种形式。

在S中，观察第四列，“Beijing”和“London”在语法和语义上都是有效的，但“pekin”和“Londres”在语法上是有效的，在语义上却是无效的。

COL2列中大多数都是显示的日期信息，因此其中的“13”会被认为无效的（语义上的）。

S中不仅有日期信息，还有其他的很多未知信息，这就证明我们需要理解更多的语义并纠正错误的数据。

2.元信息

定义：

meta>

元素可提供相关页面的元信息（meta-information），比如针对搜索引擎和更新频度的描述和关键词。

标签位于文档的头部，不包含任何内容。

标签的属性定义了与文档相关联的名称/值对。

meta是html语言head区的一个辅助性标签。

head>

metahttp-equiv="

content-Type"

content="

text/html;

charset=gb2312"

/head>

我们需要深入研究基于语义的新种类的大数据ETL（抽取，转换，加载）这样就能够进行数据分析，数据清理和数据扩充。

数据分析是数据处理过程的第一步（图2）是数据源用于确定数据质量问题的分析，而且是一种量的分析，包括了叙述性的分析，例如：

模式，表，域和数据源的定义。

图2：

数据质量管理工具

现在的数据分析工具提供了统计数据的分析，并没有解决数据语义方面的分析。

由此这里就介绍一下用于扩充分析过程的语义指示器。

对于语义数据处理，我们提出给每个数据源，一个错误报告，更新的日志和使用元信息的新语义结构。

错误报告包括数据源中的多种异常：

同一列中出现一个以上类别和语言，不一致的数据格式，副本和空值。

更新的日志是一个更新行为的集合，这个集合用于数据源，例如：

翻译后的语言，均化后的格式。

这些更新每次覆盖一列。

为了在各列间及时进行更新需要使用函数依赖的概念。

接下来将着重描述语义数据分析过程的细节，尤其是元信息，如图3

图3：

语义的数据分析过程

元信息有三个组件组成，Meta-Schema-Ontology（MSO），Meta-Repository（MR），MR是由数据词典，正则表达式和指示器列表组成。

2.1Meta-Schema-Ontology（元模式一体）

作为信息集，数据库可以使用不同的方法去描述，这个不同主要是概念和属性。

MSO是用来存储元结构中所有等价的描述的（图4）

图4：

MSO统一建模语言类图表

MSO是一个能够作为本体进行管理的知识集，本体是一种正式的语言，定义各项内容之间如何结合使用是一种语法。

MSO能够创建很多实例，如：

“person”“organization”和“Invoice”这三个概念，他们各自都有很多同义词，比方说人的同义词：

客户，大人，小孩等，“人”的概念被若干个属性（如：

姓名，住址，出生年月）定义，这就暗示人的每个同义词可以用相似的方式定义。

本体使用开放源protege工具来查看的。

（图5）

知识可以通过数据库的不同描述而得到演化，可以被表示一个元知识库。

图5：

Proté

gé

下的MSO实例

2.2元知识库（MR）

元知识库包含数据词典，正则表达式和指示器列表。

有效的字符串可以被归为一个类别，这些字符串可以使用多种语言，这样形成的这些类别的集合可以被视为数据词典。

例如，包含通常描述的机场，大学，餐馆和医院的名称字符串所组成的的类别，可以成为一个数据词典。

令catext为被扩展定义的类别的集合，catext={cati,i=1;

n},其中cati属于{国家，性别，网站，电话......}，对每个cati，子类别subcati={catij,j=1;

m}就能够定义了。

我们将数据词典定义为三类（类别，信息，语言）（图6）

图6：

数据词典样例

2.2.2正则表达式（RE）

通过使用正则表达式来定义一个类别Kati，从而起到检查字符串的语法和语义的作用，令Katint为此类别的集合。

则RE可以被定义为一个{类别，RE}的集合。

RE={Catregexi/Catregexi（Kati,Regexij）;

i=1...p,j=1...q}实例如图

图7：

正则表达式集合实例

2.2.3指示器

语义数据分析的研究是基于应用数据源的指示器集合，此集合由三种类型的指示器组成：

统计指示器{Istati,i=1;

p}，语法指示器（ISYN1,2）和语义指示器（ISEM1,2），如图8示：

图8：

指示器集合

3.语义数据分析过程

先赋予语义数据分析算法一些符号和定义。

每一个属于数据源S的列Ci，都有一个值Vi（i=1...n）集合，每一个Vi有一个数据类型，如{String,Number,Date,Boolean}。

定义1、值V的语法有效性：

如果v∈RE且v≈w∈DD则v是语义有效的。

定义2、值V的语法无效性：

如果v∉RE且v∉DD则v是语义无效的。

定义3、主类：

令Cati（v）为一个给定属性的语义正确值的数目，若Cati（v）>

Catj（v）,则Cati（v）是主类，“Numberofcategories”为检测到的类别数量。

定义4、值V的语义有效性：

如果v∈Cati，则V是语义有效的，且Cati是主类。

定义5、值V的语义无效性：

如果v∉Cati，则V是语义无效的，Cati是主类。

3.1算法分析

语义数据分析算法的原理是核查值是否属于元数据库，目的是确定V的语法和语义的有效性。

如图9示

图9：

语义数据分析算法

输入数据源s和一些元信息，算法返回一些表格（Tk,k=1,7），这些表格包含指示器结果，无效语义数据，有效语义数据，无效语法数据，有效语法数据和新的语义结构。

语义识别结构函数为每个正在使用RE或DD的数据找一个类别和语言。

接下来的三个步骤会阐述函数的原理。

第一步：

用以上的定义核查v在语义和语法上是否有效。

第二步：

分别处理语义无效值和语法无效值。

第三步：

用若干方法处理语法正确但语义错误的值，处理方式如：

均化，翻译和标准化。

不管在什么情况下，语法无效值都是很容易找到的，可使用正则表达式来进行判断，处理后的结果可以用来丰富数据词典，由于有可能一个列中有多种语言，因此不仅要选择主语言列而且要选择源数据的主语言，在语义语言函数中会展示这个原理。

函数的细节显示如下：

FunctionstatisticIndicators（ColumnC）

//returnstatisticalindicatorsresults

Begin

ForeachIdfromIdo//d=1..18

Add（Id（C）,T1c）

//statisticindicators:

totalnumberofvalues,numberofnull

values…

endfor

EndstatisticIndicators

------------------------------------------------------------------------------------------------------------------

FunctionsemanticLanguage（DataSourceS’）

//returnthedominantlanguage

ForeachLanguageifromT7（i=1..n）//T7isthesemanticstructure

ni:

=Countthenumberofoccurrences（Languagei）

Endfor

DominantLanguage:

=LanguagewhereMax（ni）

EndsemanticCategories

FunctionsemanticCategories（ColumnC）

//returnsyntacticandsemanticindicatorsresultsandsemanticstructure

ForeachvjfromCdo//j=1..m（mnumberoftuples）

Ifvj∈RE

thenadd（vj,Catj,Langj）//vj∈Catjandvj∈Langj

elseifvjcheckSpelling=true

//verifiessomeregularexpressionsforstrings

thenifvj≈w∈DD//wavaluefromDD

thenadd（vj,Catj’,Langj’）//vj∈Catj’

andvj∈Langj’;

j’≠j

elseadd（vj,CatUNKNOWN）

//vj∈UnknownCategory

add（vj,T3c）//vjisacandidatetoenrichDD

endif

elseadd（vj,T2c）

3.2分析结果

上面提到最终会返回几个表格，第一个表格包含指示器结果，对每一列都有一些统计摘要，无效语法值和有效语法值数量，类和语言的数量。

拼错的值将自动添加到语法无效表中，即第二个表。

第三个表存储不属于元知识库的值，这些值语法正确。

对于数据源中的每一列，都有至少两个类别，为了确定主类，就要选取占比较大的类别。

占比的计算是基于属于这个类别的正确值的数量。

如果两个类占比相同，那么就从数据源中选择另一个样本，并且用语义数据分析。

不属于主类别的值存储在第四个表中，作为语义无效类别值。

将不属于主语言的值存储在第五个表格中作为语义无效语言的值。

S的每一列最初都被视为一个字符串，目的是对它的语义进行认知（图10），主类别和语言用来为数据源定义一个语义结构。

图10：

S的语义结构

S中可能会包含相似的列，比如：

第6列的温度-1与第7列的温度-2。

若是两个列不仅属于相同的类别，而且内容也是相同的，则其中一列应该被删掉。

4.结论

大数据中的元数据少于传统数据库，当数据科学家想要分析这些数据的时候，就会遇到麻烦，数据质量管理工具的使用会帮助数据科学家识别数据类型（（integer,dates,strings）和数据语义（（Email,FirstName,Phone）。

当今正在发展的数据质量管理工具，会有助于基于语义的大数据ETL（分别代表提取，转换，加载）的新一代的发展。

帮助用户：

1.理解操作数据的更多定义。

在联合或加入操作的过程中，为完成语义数据合并有必要区分同义词和同音异义词。

现在普遍使用的工具都没有考虑语义方面，而只是考虑到了语法。

例如：

在数据结合过程中，用户可以选择加入两列语法等价但语义不同的数据，却并不会报错，说明这些工具是允许同义词和同音异义词的并存的。

（如图11示）

图11：

数据源s1和s2的合并

尽管有工具能够令s1和s2进行合并，但这在语义方面是无意义的。

在这种情况下，本文提到的数据质量管理工具就会向用户提醒这种不兼容的语义结合操作。

2.做清理工作，之前提到的均化和转化会产生一些副本或消除一些相似的元组。

此项研究所提出的方法之独创性是用到了数据本身和MSO的实例来推断数据的语义。

此外这种方法能够自动清除无结构的数据。

数据分析的结果是：

1.产生一个更容易理解的大数据语义内容的数据结构。

2.无效数据被纠正后生成数据更新的集合。

经过处理后的数据如图12所示：

图12：

目标数据

参考文献

[1]Aï

chaBenSalem1,2,FaouziBoufares1,SebastiaoCorreia2.SemanticRecognitionofaDataStructureinBig-Data[J].LaboratoryLIPN-UMR7030-CNRS,UniversityParis13.2014

[2]程国斌.基于指示词语义扩展的词义识别方法的研究[D].哈尔滨工程大学.2014年

[3]魏来.基于在线词表的folksonomy语义关联识别方法研究[J].图书情报工作处.2011年

[4]

乐小虬,杨崇俊.非受限文本中深层空间语义的识别方法[J].计算机工程.2010年

任课教师的评语

1.简要评述论文的学术水平，包括选题意义、文献资料的掌握、所用资料和实验结果和计算数据的可靠性等；

2.分析文章的创新之处；

3.指出论文存在的问题和不足；

4.论文格式是否符合要求，参考文献的引用是否规范。

成绩

任课教师签字

年月日

展开阅读全文