阿里云
云栖社区2017年度颁奖盛典
发表主题 回复主题
  • 286阅读
  • 0回复

[干货分享]数据同步华丽上位,大数据离线处理高枕无忧

发帖
2293
云币
2457
— 本帖被 仙游 执行加亮操作(2017-09-06) —

数据时代,业务量不断增长,大批量的数据离线同步已成了不可获缺的工具。

数据集成是开源DataX的服务化版本,支持400种异构数据源之间的数据同步,支持作业级别和数据源级别的流控、分布式并发运行以及脏数据阈值处理,是大数据处理中不可缺失的数据同步工具。

而越是使用越频繁的产品,更容易成为用户关注的焦点。

尤其在操作界面上,如果逻辑层次分配不够清晰,也会带来非常大的工作量。

以次做了如下优化:

1、重复报错的显示进行了优化

2、界面的视觉交互,进行了优化,获取信息更便捷

3、依据用户的使用场景,字段映射忽略的源端与目的端的字段大小写,提高效率

4、在用户容易出错的地方给予相应提示:如新增的字段格式未识别,映射关系没有连线的情况

5、一键建表后,动帮助用户选择刚建好的的表,提高工作效率

6、针对很多用户找不到数据集成的情况,在数据开发套件首页,增加了数据集成的入口

7、运行日志,增加了右键复制的功能

文档在使用中做为问题量化的重灾区,必不可少。

针对网络问题,将用户的数据源划分为阿里产品数据源、ECS自建数据源、本地自建的有公网IP的数据源、本地自建的无公网IP的数据源,分别提供不同的数据同步策略;特别是针对本地IDC机房数据上云:

1、提供安全加密的agent同步方案,目前已经在产品化过程中;

2、针对用户的大批量同步需求,提供批量的任务配置、管理,一键化同步过程,提升用户同步数据的效率;

3、数据集成升级下一代,将会和Dataworks(数据工场)的数据地图产品紧密结合,不仅提供数据的物理移动,也提供元数据的同步,同步的元数据展现在数据地图之上,方便用户先盘点、了解数据,再进一步决定移动哪些物理数据;

4、数据集成将新增客户端App、html网站日志数据一键采集至用户自己的大数据中心,用户可以基于这部分日志数据,与用户的其他数据结合进行商业分析。

       以上两大部分内容正是产品团队&用户体验团队重点梳理出来,进行用户走访,与用户进行深入沟通交流,整理出的上百条产品建议,以此进行了一系列的优化,通过产品界面引导,文档说明,以及在数据源文档中增加通过数据集成导入导出的说明,极大的方便了用户进入最佳实践,触达用户的效率提升,进而提升了用户使用数据集成产品的效率。

但以上问题优化后的结果,是否能达到用户的满意,是否真的符合用户的使用场景,这就需要用户一起参与其中进行验证。也更希望用户能在使用后,把相关的使用体验通过聆听平台 提交上来,以便于产品进行更加符合用户使用场景的优化。

同时我们也希望这是一段文字的描述,我们更希望有场景,比如操作截图,或者是操作视频上传,更能切实的体现问题。

如果您也想与其它用户一起交流相关使用经验,我们也特地为大家建立了数据集成交流钉钉群,可随时与其它小伙伴交流与分享经验,说不定还能找到志同道合的人。

[ 此帖被仙游在2017-09-07 17:59重新编辑 ]
不负责邮箱业务,相关问题请通过工单,或邮箱反馈入口进行反馈。
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容
 
验证问题: ECS是阿里云提供的什么服务? 正确答案:云服务器
上一个 下一个