建模国赛B题.docx
《建模国赛B题.docx》由会员分享,可在线阅读,更多相关《建模国赛B题.docx(22页珍藏版)》请在冰豆网上搜索。
建模国赛B题
2017高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
B
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
参赛队员(打印并签名):
1.
2.
3.
指导教师或指导教师组负责人(打印并签名):
(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)
日期:
2017年9月17日
赛区评阅编号(由赛区组委会评阅前进行编号):
2017高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
“拍照赚钱”的任务定价
摘要
本文就企业做市场调查时采取的“拍照赚钱”模式的定价规律展开研究。
我们绘制了任务点在地图上的位置后,发现任务点围绕深圳、广州、佛山、东莞四个城市的中心点呈散射状分布,并根据城市具体情况及会员信息逐步建立更加适应实际情况的任务定价模型。
对于问题一,我们应用K—MEANS算法和聚类分析的思想以城市为主划分出四个区域,研究得出任务定价与距城市中心点的距离、人口密度、交通状况等因素呈现正相关,并建立了最小二乘法线性拟合模型得出广州市任务定价与距离的关系式:
。
最后根据收集到的信息分析出任务未完成的原因有:
定价不合理,交通不便、APP推广率不够高、不同城市的人面对兼职心理状态不同等原因。
对于问题二,我们筛选任务成功的点的经纬度以及定价数据建立多元回归模型,再将未完成任务点的经纬度数据带入模型求解其合理的定价。
回归模型的定价函数:
。
接下来建立模糊综合评价模型得出新的定价方案可以提高任务的完成度,更具有合理性。
对于问题三,我们将附件一中距离最近的三个任务点打包在一起,利用欧式距离算法算出三个任务点到其所对应的中心点距离的最小值。
其次,增加限定条件:
达到规定的信誉度额的用户才可以领取打包任务。
打包定价模型函数式为:
。
最终任务的完成度没有改变,而需要投入的成本减少了。
针对问题四,我们利用BDP数据分析平台对附件三中经纬度数据进行处理,发现任务点位于广州区域以及深圳区域,运用聚类分析对任务点进行分区,。
利用问题三的打包定价模型以及问题二的多元回归模型分别求出各任务点的定价。
之后运用模糊综合评价模型评价两个模型得到的结果,发现打包定价模型更具有优越性。
最后本文给出了误差分析并提出了改进方案,并讨论了本模型的优缺点。
关键词:
BDP最小二乘法线性拟合多元回归任务完成度模糊综合评价模型
一、问题重述
随着移动互联网时代的兴起,一定程度上更优于传统市场调查方式的“拍照赚钱”进入人们的视野。
这种基于移动互联网的自助式劳务众包平台,大大节省调查成本,确保了调查数据的可靠性,又缩短了市场调查的周期。
用户在APP上领取并完成需要的拍照任务,便可获得对应任务所标定的酬金。
而为了保证商品检查的成功,APP中的任务定价便尤为重要:
问题一:
根据附件一中包含任务位置、定价及完成情况的已结束项目的任务数据,探究任务的定价规律,分析任务未完成的原因。
问题二:
为附件一中的项目设计新的任务定价方案,并与原方案进行比较。
问题三:
在实际操作情况下,多个任务可能因为位置比较集中而造成用户的争相选取,考虑将这些任务打包发布。
由此对问题二中确立的定价模型进行修改,研究这种考虑对最终的任务完成情况产生的影响。
问题四:
对附件三中的新的检查项目任务数据给出任务的定价方案,并评价该方案的实施效果。
二、问题分析
从宏观上来看,问题一、二、三、四其核心问题均是对众包系统定价的研究,且相互之间又有一定的联系。
我们以众包系统的定价为起点做出对整个问题研究的思维导图。
2.1问题一的分析
为了更加直观的观察任务点的位置,我们利用BDP工具找出了各个任务点在地图上的位置,得到了各个任务的完成情况分布点图。
我们根据任务分布点的密集程度将全部的任务区域划分为以深圳市、广州市、佛山市以及东菀市为主的四个区域。
选取四个区域的中心点,画出每个区域内各点与中心点之间距离与价钱的关系线性图,通过拟合线性曲线,得出任务定价的变化规律为:
任务点距中心点距离由近至远依次增大。
根据分布点图我们发现未完成点具有一定的密集性,以深圳市、佛山市以及广州市的部分区域为代表,以人均收入水平、交通状况以及人均空余时间为纬度定量的研究该地区未完成的原因。
2.2问题二的分析
在问题一中我们已经得知价格合理性需要从距离、会员的位置、APP的推广状况以及潜在劳动力这四个维度的进行考虑,将附件一中已完成的点选取出来默认其价格的合理性,即就是以此为标准,分别在问题一中所划分的四个区域内进行回归分析,求出其新的定价规律。
建立模糊综合评价模型对新模型进行评价,比较之前的模型评价改进效果2.3问题三的分析
我们将附件一的数据将任务点重新进行打包分类,在四个区域内计算各任务点两两之间的距离,将距离最近的三个任务点打包在一起,利用欧式距离算法算出三个任务点到其所对应的中心点距离的最小值,求最小距离点与其余两点之间的距离之和加上最小距离,以此为新的距离。
此时APP的普及率并不发生变化。
利用在问题二中计算出的公式带入即可新任务点的价钱的制定,其次增加一个限定条件,设定一个信誉度额只有在这个信誉度额以内的人才可以选取任务。
2.4问题四的分析
我们利用BDP软件对附件三所给数据进行处理,对其所对应的任务点进行化区,发现任务点属于广州区域以及深圳区域。
利用问题三所定义的新的定价模型求出各任务点的定价与线性回归模型求出的定价进行比较。
三、模型假设
1.假设没有人跨城市做任务;
2.假设任务完成的任务点定价合理;
3.不考虑任务执行期限;
4.假设所有任务都在同一时间开始发放;
5.不考虑交通状况对任务完成的影响;
6.假设题设给出的任务都由同一平台提供;
四、符号说明
符号
含义
各任务点到城市中心的距离
任务点所在纬度
城市中心点纬度
任务点所在经度
城市中心点所在经度
任务点到城市中心点间的距离
C
F
H
ui
xi
lij
线性拟合待定系数
任务定价
会员位置
任务的完成率
潜在劳动力
随机干扰项
潜在劳动力,
APP的推广状况
线性回归方差
任一任务点
第i个指标第j级评语的隶属度
第i个目标权系数
深圳、广州、佛山及东菀的模糊矩阵
会员到中心点的距离
任意两任务点之间的距离
五、模型的建立与求解
5.1问题一
附件一给出的项目数据包括:
纬度、经度、定价以及任务的完成情况。
我们利用BDP数据分析平台找出任务点在地图上的位置,探究任务点的定价规律与任务点位置的关系,得到如图1的任务分布情况。
其中蓝点表示任务完成情况为“0”,即该任务未完成;相应的,绿点表示该任务完成。
图1任务点在地图上的分布点图
由分布图我们可以直接观察出任务点都分布在我国广东省境内,以深圳市、广州市、佛山市以及东菀市四个城市为主,且任务点围绕四个城市分布,具有一定的密集性。
在考虑任务的完成情况下,我们将上图划分为四个区域(具体划分方法见下文步骤2、3),确定各个区域的中心点,再求出各任务点距中心点的距离,利用MATLAB画出定价与距离的关系进行线性拟合,具体操作步骤如下:
第一步,城市中心点的确定。
在深圳市、广州市、佛山市及东菀市的城市中心分别确立一个点作为该城市的中心点。
利用K—MEANS算法原理计算出各城市中心点,其经纬度分别取为:
第二步,计算各任务点到每个城市中心的距离。
根据附件一所给出的任务点的经纬度数据求出各点距上述4个中心点的距离,具体的计算公式为:
其中
表示任务点到中心点的距离,
表示任务点所在的纬度,
表示中心
点所在的纬度,
表示任务点所在的经度,
:
表示中心点所在的经度。
将附件一中任务点经纬度数据及各城市中心点经纬度数据带入公式得出各个城市中心点到任务点的距离数据,绘制如下表格。
(正文中只截取了部分数据,全部距离数据见支撑材料)
表1任务点到城市中心点距离对比表格
任务号码
任务gps纬度
任务gps经度
距各城市距离/m
深圳
广州
佛山
东菀
A0001
113.9808368
7006.017
96042.84
103714.2
571337.75
A0002
113.9405252
17763.58
83993.58
93929.27
43173.28
A0003
113.957198
6304.736
93507.92
101036.1
55279.92
A0004
114.2445711
32838.74
116972.3
127925.5
70952.5
第三步,区域的划分。
比较任务点与各城市中心点之间的距离。
任务点距离哪个城市的中心点最近便划入该市区域内研究定价规律。
第四步:
线性拟合。
我们采用线性最小二乘法对距离和价格进行拟合,具体操作步骤如下:
其中
表示任务点到中心点间的距离;
表示待定系数;
表示任务的价格。
寻求
使
的值最小
选取
为该线性拟合曲线,利用MATLAB得到p1=0.0001433(0.0001149,0.0001716),p2=66.59(66.04,67.15)其中p1、p2括号为该变化范围,我们取均值进行计算。
所以任务点价格拟合函数为:
我们先以广州市为例,利用MATLAB软件绘制出广州市区域内各任务点与城市中心点的距离与定价变化的折线图,并绘制拟合曲线(如下图2)。
图2任务点定价随距离变化折线图
东莞与佛山的拟合曲线与广州市类似,而深圳与之不同的是:
中心点聚类不甚明显,定价主要沿铁路分布。
点的大小代表价格由高到低。
图3深圳市任务点定价分布图
定价规律:
广州市任务点的定价是以城市的中心向外逐渐增加。
虽然有个别点的价格突变,但大体上呈现上升趋势。
即在人口密度较大,交通较为便利的城市中心定价低,最低为65元;随着距离城市中心越来越远,任务定价也逐步上升,最高为85元。
此外在机场、公园、郊区附近这类偏远的地区,任务定价也在一定程度上进行提升。
此外,由深圳市的任务分布图还可以看出沿着铁路路线,公交车路线分布的任务点定价较低,交通不便利的山区、郊区等地定价高。
5.1.2任务未完成原因的分析
根据上文我们发现任务定价与距城市中心点距离呈正相关,再综合我们收集到的信息得出:
距离、会员的位置、APP的推广状况以及潜在劳动力对定价具有一定的影响力。
接下来分析深圳、广州以及佛山完成率较低的原因。
会员的位置:
通过附录2得到的会员的经纬度即为会员的位置。
会员的疏密程度会影响到该地任务的完成状况;
APP的推广状况:
以任务完成率衡量。
APP的普及率会直接影响该任务的完成情况;
潜在劳动力:
通过对以日结算的低门槛兼职数据(浏览量、申请量以及需求量)的收集,以衡量当地潜在劳动力的水平。
潜在劳动力大提升价格效果明显,相反潜在劳动力小提升价格并不会有明显的效果;
表2四个城市的潜在劳动力情况表
浏览量
申请量
需求量
广州市
294914
9264
6963
佛山市
53133
1699
12022
深圳市
222020
7045
3674
东莞市
281518
8788
6800
表3APP的推广状况表
广州市
佛山市
深圳市
东莞市
任务完成率
0.5993
0.6379
0.3281
0.9884
以下为会员位置总体状况图
由上面的信息我们可以分析出任务未完成的原因有:
1.不同城市的人面对兼职的心理状态不同。
佛山市的APP推广度高于深圳及广州,但该区域内的人对兼职信息不感兴趣,致使任务完成率低。
2.APP推广率不够高,已有的用户时间精力有限,无法完成全部任务。
广州以及深圳潜在劳动力状况良好,但APP的使用并不普及致使任务完成点较少。
从而也反面的证明了指标的选取对于价格的合理性具有一定的影响作用。
3.任务点位置偏僻,交通不便利。
用户认为花费时间和金钱去完成任务不值得,任务点定价不够合理。
4.工作忙碌,空余时间较少,没有时间精力。
或者用户认为价格距离自己预期差太多,不屑于做。
5.2问题二的建立与求解
在问题一的分析中,我们已经得出任务点距城市中心点的距离、会员的位置、APP的推广状况以及潜在劳动力对合理定价的制定具有影响明显,现在我们就这四个因素建立多元线性回归模型,制定出合理的定价方案。
假设某地任务完成便可看作为该地定价合理,只取已经完成任务的点的经纬度以及定价数据建立模,再将未完成任务点的经纬度数据带入模型求解合理的定价。
之后为了分析新的定价方案对任务完成度的影响,我们建立模糊综合评价模型对新的定价方案进行评价,再与问题一最小二乘法线性拟合所求的定价方案进行比较,具体步骤如下:
第一步,设定新的定价方案。
在问题一分区域的基础上,确定各个区域再估计定价随距离、会员的位置、APP的推广状况以及潜在劳动力的变化方程为:
其中
d:
任务点到中心点的距离
C:
会员的位置
F:
APP的推广状况用区域任务的完成率来代替
H:
潜在劳动力
:
随机干扰项
做如下辅助性回归(ui为残差)
由于假设里包涵了异方差的情况,可以证明从辅助回归算得
(n为样本容量)逐渐服从辅助回归中回归元个数的
分布即就是:
(df=4为自由度水平)
若上式中
的值值超过选定水平的
的临界值,则说明该存在异方差,否则不存在异方差即就是:
(i=1,2....n)
(i=1,2....n)
通过whit得出
故存在异方差
利用whit给的异方差效正方程带入数据,在带入数据时默认任务完成点为价格匹配程度最高,筛选出附录1中的完成点分区进行计算,由于数据较多这里仅给出数据来源。
图表2:
潜在劳动力状况与图表3:
APP推广状况在问题一中已经插入过;任务点到中心的的距离表与会员到中心点的距离表数据见支撑材料。
我们用MATLAB软件编程将成功任务点的数据带入多元线性回归模型中,求解的出新的定价规律为:
第二步,建立模糊综合评价模型。
并与原方案进行比较:
列出模糊矩阵
其中
表示第i个指标第j级评语的隶属度。
对m个目标进行综合模糊评价时,设第i个目标权系数为
,满足
综合模糊判断矩阵
:
在第一步中我们已经知道距离、会员的位置、APP的推广状况以及潜在劳动力在定价方程中所对应的系数分别为(0.007326,0.00072,0.00043,0.32)。
即
将
以四个区域为基准进行分块,其中
其中
分别表示深圳市、广州市、佛山市以及东菀市的模糊矩阵,数字分别代表各区的标号。
分别表示在该区域内会员的个数。
分别为各任务点到中心点的距离;
表示会员到中心点的距离;
当
表示潜在劳动力
表示APP的推广状况
利用附表一中的数据得到问题二的多元回归定价模型的判断矩阵值
用同样的方法可以得到问题一中的线性拟合定价模型所得到的判断矩阵值
很明显
中各数值的和很明显大于
各数值的和,即新的定价方案较原来的定价方案更为合理有效。
5.3问题三的建立与求解
在问题二中我们已经求出价格随距离、会员的位置、APP的推广状况以及潜在劳动力的数值变化的表达式,而问题三中任务的打包只会对定价规律计算式中的距离造成影响,而会员的位置、APP的推广状况以及潜在劳动力并不会随任务点的打包发生变化,所以距离的选取即是该问题的核心。
其次由于任务点的集中打包对威客客户点个人能力的要求也会上升,所以在执行任务的人的信誉度上做要求,即增加限定条件,只有满足某个信誉度额的用户才能获取打包任务。
具体的操作步骤如下:
第一步,距离的选取。
1)打包方式的选取:
求出附件一中同一个区域内所有点的距离(具体数据见支撑材料)。
取
确定两点
以
为基准展开,找到距
最近的两个点
对比
取最小点与所
组成的为一组记为一个任务点,依此类推则可以得
到最终所划分过后的任务点的个数。
2)距离的计算:
取任意一组任务点
,算取其到中心点的最小距离
,考虑新的任务打包其成本必须低于原来的成本,且在威客客户端对新定价满意即就是新的定价要高于原来三个点中任意一个任务点的定价,所以对其距离进行调整,令距离为距中心点最小距离加上最小距离点到其余两点间的距离
其中
,由三角形的特性可知该距离的选取具有合理性。
如上图最短距离为
,因为
所以
由问题二我们得到的定价规律为:
即距离与价格存在正相关,所以以上距离的选取具有合理性即就是最终定价大于其中任意一任务点的定价,最终公式为:
(2)限定条件:
结合附表2所给的的会员信息对会员进行分类
对附表2进行数据处理得到会员信誉度的最小值为0.0001最大值为67997.3868。
将其划分为8个等级如下表:
表4会员信誉度等级划分表
等级
H
G
F
E
D
C
B
A
信誉值
0
8500
8500
17000
17000
25500
25500
34000
34000
42500
42500
51000
51000
59500
59500
68000
在打包完成后对于离散点没有等级的限制,即低等级用户可以在第一轮任务选取时只显示离散任务点,用户可以通过做离散点的任务提升自己的信誉值进而提升自己的等级。
而对于已经打包的任务点只有在F等级及以上才可以选取该任务,通过筛选得出会员数与所调整后的任务数量进行比较,发现会员数量远远大于任务点数量,所以并不担心任务供过于求的局面。
即
综合以上可以得出该模型为:
5.4问题四的建立和求解
给出定价方案并评估效果如何
1.将地区打包好
2.由数据知,在剔除掉低信誉值的会员后,打包任务个数任然小于会员数目,故在将任务打包时,优先给出距离较近的任务提供给高信誉值的用户,并相应的减少价格,再将偏远地区以及打包三点任务距离较远的任务交给其他信誉程度的用户,通过减少任务数并增加可完成任务人数来增加偏远地区的任务完成率并相应降低价格。
且通过这种会员信誉值优先选择的制度,能促进用户良好行为的发展,增强平台的发展能力。
3.任务的完成时间很大程度上决定了每件任务的价位,及用户在单位时间内所能赚取的佣金数,我们以单位时间赚钱佣金数为指标衡量,影响其的有用户信誉值所产生的期望值,接远距离单的人与单数的比值,价钱将影响其转化率,我们将价钱控制在一定的合理度,使得出资能保持一个较低值而又不至于使得任务完成率低于一个高水平值。
p0=(k1*log(W)+k2*L+k3*e^(p1/p2))*t/(t+L/k4)
W信誉值
L完成任务所需路程
t完成三个任务所需的时间/小时
p1任务数
p2用户数
p0单位时间价格
通过多元线性拟合,我们得到k1k2k3k4分别为
0.00628731.2256726.782630.0234581
七、模型的评价
7.1模型的优点
1.模型考察因素合理多样,符合实际情况,图形美观清晰。
问题三的多元回归模型考虑指标不仅包括距城市中心点的距离、会员的位置以及APP的推广状况可直接或间接从附件一和附件二中提取出来因素,还包括从网上收集到的重要因素:
潜在劳动力。
2.算法简单,地域针对性强。
问题一和问题二中用到的最小二乘法线性拟合和多元回归算法清晰易懂,且对不同的城市进行了分区域计算,对不同的城市针对性更强,更符合不同
7.2模型的缺点
1.没有考虑会员任务开始预定时间对模型的影响。
2.所有的模型数据来源仅限于广东省,地域性过强,推广程度不高,不具有广泛性。
八、参考文献
[1]吴瑞杰,孙鹏,孙昱.分布式任务计划动态调整模型及算法.《系统工程与电子技术》,2007,39
(2):
322-328
[2]林素芬.众包商业模式特殊性的理论诠释.长春大学学报,2013,23(5):
544-546
[3]张晓峒.《应用数量经济学》.机械出版社,2009
[4]异方差的white检验及处理方法[2015-9-11]
[5]宋天舒,童咏昕,王立斌等.空间众包环境下的3类对象在线任务分配.软件学报,2017,28(3):
611-630
[6]孙信昕.众包环境下的任务分配技术研究(硕士学位论文).扬州大学,2016
[7]ArnoldJ,K?
chelP.EvolutionaryOptimizationofaMulti-locationInventoryModelwithLateralTransshipments[C]//ProceedingsofNinthInternationalWorkingSeminaronProductionEconomics.Lynkoping:
UniversityofLynkoping,1996:
401-412.
[8]EsterM,KriegelHP,SanderJXuX.Adensity-basedalgorithmfordiscoveringclustersinlargespatialdatabases[C]//Proc.1996Int.Conf.KnowledgeDiscoveryandDataMining(KDD’96),Portland,Oregon,USA,Aug,1996:
226-231.
[9]王惠文,叶明.多元线性回归模型的聚类分析方法研究.系统仿真学报,2009,21(22):
7048-7059
九、附录
9.1.1问题一绘图代码
%以Sx开头的文件均为预处理文件在对应代码中所用到的参数Sx系列时,需要手动将Sx类的文本数据导入到matlab的数据表中
%使用matlab导入附件1
>>fori=1:
835
ifSx(i,6)>20000
break
end
end
>>disp(i)
>>c=polyfit(a,b,2);%进行拟合,c为2次拟合后的系数
>>d=polyval(c,a,1);
>>plot(a,d,'r')
>>holdon
>>plot(a,b,'g')
%各市任务完成率运算
[Min,index]=min(Sx(:
6:
9),[],2);
Gd0=0;%