hbase的ttl

博客分类：

hbase

Time To Live (TTL) ColumnFamilies can set a TTL length in seconds, and HBase will automatically delete rows once the expiration time is reached. This applies to all versions of a row - even the current one. The TTL time encoded in the HBase for the row is specified in UTC. See HColumnD ...

2013-07-02 15:20
浏览 611
评论(0)
分类:互联网

数据仓库之数据质量管理

博客分类：

数据质量数据仓库

数据质量数据仓库

公司今年的重点是数据仓库的数据质量建设，这块一直是数据仓库领域一个比较蛋疼的问题，因为数据仓库上层对接很多业务系统，业务系统的脏数据，业务系统变更，都会直接影响数据仓库的数据质量。我想这块将作为我今年的工作重点！！！这块大家有没有一些经验！我们一起探讨！！

2013-03-26 13:34
浏览 1638
评论(0)
分类:互联网

java 深浅拷贝 clone

博客分类：

java

java clone 深浅拷贝

完全转载，今天在做一个类似于队列的业务，有一个进程不停的读取，写到容器内，另外一个方法循环的将容器内的数据写入到hdfs上面。本来是可以使用队列的，但是想想，运用list也可以实现，就不整那么麻烦的东西了！ � ...

2012-12-05 02:02
浏览 1306
评论(0)
分类:编程语言

oracle hints pq_distribute

博客分类：

oracle

oracle hints pq_distribute

今天遇到一个oracle报表查询优化的问题，需要用hints固定执行join的执行计划，已经有3年没怎么用oracle开发了，当时的优化思路还记得，但是hints怎么用确实是忘记了！搜索到了这篇文章，自己几年前看过的，还是这么有用！！于是就记录下来，免得自己以后忘记了，在到处找： http://www.remote-dba.net/t_op_sql_query_hint.htm 基本场景如下，有一张主的事实表，每天的新增数据在几百万条，该表做了按天的分区，另外有一张日期的维表，2张表做关联，用户查询的时候最长周期是查询一周的数据，最短是查询一天的数据。主 ...

2012-12-03 11:54
浏览 1056
评论(0)
分类:数据库

RHEL 5.5（kernel2.6.18）对NTFS分区的读取支持

博客分类：

linux

linux kernel mount ntfs

前天转载了一篇也是关于redhat读取ntfs分区数据的文章，本来想照着去试试的，但是文章太长了，自己实在没有耐心看完下去，于是就在网上找了些其他的文章，找到了一个短小精悍，非常简单的方法来搞定这个问题！！哈哈！！本人刚才经过5分钟，搞定了这个问题，现场实验没有问题！！下面就转载给大家看看。 RHEL 5.5（kernel2.6.18）对NTFS分区的读取支持非通过编译内核的方式 1.首先进入http://sourceforge.net/projects/linux-ntfs/files/下载对应的rpm包。因为没有与5.5版的RHEL内核对应 ...

2012-12-02 17:54
浏览 1494
评论(0)
分类:操作系统

linux下mount windows分区【转载】

博客分类：

linux

linux mount

今天需要用redhat读取移动硬盘里面ntfs格式的文件，发现还有点麻烦，于是网上找了些资料，看到这个不错，感觉还不错的，就cp下，晚上在按照这个方法操作下试试：目前网上有很多介绍在linux下mount windows NTFS的文章,说的都是重新编译内核,加入对NTFS分区的支持.但是对于一个刚刚接触linux的新手来说,又是何其痛苦的一件事,我给大家介绍一种简单的方法. 1.首先确定你的linux kernel版本是什么(RedhatArray.0默认的kernel版本是2.4.20-8 )#> rpm -qa|grep kernel会显示类式的如下信息:kerne ...

2012-11-30 17:08
浏览 1735
评论(0)
分类:操作系统

heritrix3.1 TLD list unavailable

博客分类：

heritrix

heritrix

今天按照上面转载的文档搭建了一下heritirx3.1的环境，基本上还是成功的，可以成功的运行，但是在运行的时候报了一个错误，错误如下：严重: TLD list unavailable java.lang.NullPointerException at java.io.Reader.<init>(Reader.java:61) at java.io.InputStreamReader.<init>(InputStreamReader.java:55) at org.archive.util.ArchiveUtils.<clinit> ...

2012-11-29 13:21
浏览 1373
评论(0)
分类:开源软件

linux修改字符集

linux

本篇文章是cp的，非本人原创，只是今天突然遇到了一个字符集的问题，搜索了下，于是在这里cp下，方便自己以后好找！！！在这里感谢下原创的作者！！ Linux下修改字符集 locale -a 查询系统支持的字符集 export LANG=zh_CN.gbk设定字符集一般来说要设置 Linux 系统的环境变量只需要在 /etc/profile (全局) 或者 ~/.bashrc (单个用户) 即可。但是对于 LANG 变量来说，有时候你即使在所有这些初始化脚本里面 export 过了，LANG 的值还是纹丝不动。实际上，你需要去修改 /etc/s ...

2012-11-28 16:21
浏览 840
评论(0)
分类:操作系统

heritrix自定义爬虫

博客分类：

heritrix

heritrix3.1

heritrix1.14.4 升级到3.1 ，发现改变还是很大的，原来的核心类org.archive.crawler.postprocessor.FrontierScheduler不存在了， org.archive.crawler.extractor.Extractor改变很大，增加了shouldProcess的方法， org.archive.modules.extractor.Link类也由原来的静态成员变量改为了实例化类！！目前暂时还不知道自定义爬虫，3.1该如何实现，现在发现比较麻烦，迁移过去的代码也出现了很多问题！看来只有明天去找一些洋文资料来看看了！！ ...

2012-11-28 14:03
浏览 909
评论(0)
分类:开源软件

搭建heritrix3.1【转载】

博客分类：

heritrix

heritrix3.1

由于本人正在准备将heritrix1.14升级到3.1 ，觉得这篇文章挺有用的，于是就cp一下，记录下来，非本人所原创，下面是原创的文章：网上已经有几篇Heritrix 1.14版本的Eclipse搭建的文章，说的比较详细。本人下载了Heritrix 3.1，该版本相对Heritrix 1.14版本变化已经较大，在研究Heritrix零星的几个文档以后终于把环境搭建成功了，并把过程记录下来，希望对大家有所帮助。 Heritrix 3.1需要jdk1.6或以上版本。本人用的Eclipse是3.7 JEE版本（非必须条件）。操作步骤如下： 1、下载Herit ...

2012-11-27 01:42
浏览 2507
评论(0)
分类:开源软件

heritrix 如何解决简单的表单验证功能

博客分类：

heritrix

heritrix

目前我的heritrix遇到了很多信息需要表单验证，我看基本上中文的资料非常少，我从网上找了这些英文资料，是解决在heritrix的使用过程中，如何解决简单的表单验证的功能！！！链接如下： https://webarchive.jira.com/wiki/display/Heritrix/RFC2617+%28BASIC+and+DIGEST+Auth%29 后续我会贴出我的使用效果！！！该帖子会持续更新！！

2012-11-27 00:41
浏览 692
评论(0)
分类:开源软件

庆祝下开博客了！

博客分类：

非技术沙发

非常惭愧！在it行业工作了将近6年，没开过博客！没写过什么东西！！！从06年开始进入计算机行业，非常的偶然，自己从前从来没想过会从事这个行业！大学一直到毕业最后一年，本人连系统都不会安装！鬼使神差的进入了计算机行业！发掘了下自己的潜力！目前在互联网行业里混口饭吃，主要从事数据仓库，分布式计算，大数据数据处理方面的工作，今年开始，开始使用了流式计算storm！！做一些简单的实时数据流处理！！目前自己除了从事本职工作外，在研究一个行业内的垂直搜索引擎！发现在爬虫这块！国内的资料非常少！于是开了这个博客！会主要写一些heritrix，storm，大数据处理方面的东西跟大家一起 ...

2012-11-26 23:53
浏览 642
评论(1)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase的ttl

数据仓库之数据质量管理

java 深浅拷贝 clone

oracle hints pq_distribute

RHEL 5.5（kernel2.6.18）对NTFS分区的读取支持

linux下mount windows分区【转载】

heritrix3.1 TLD list unavailable

linux修改字符集

heritrix自定义爬虫

搭建heritrix3.1【转载】

heritrix 如何解决简单的表单验证功能

庆祝下开博客了！

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>