序幕
然而,我在一个 100Mb 文件上测试 md5、adler32 和 crc32 时的一个重要发现是,奇怪的是它们花费了相同的时间。这只能意味着我猜的两件事之一,在 Android 设备上,文件系统是瓶颈,它不能足够快地提供算法,或者我在实现 JNI 时犯了一个基本错误,后者是我可以接受的。
使用 MD5 对图像、mp3 和 10Mb 以下的文件等小文件进行哈希处理需要几秒钟 算法。
我的问题是我的文件大小超过 100-700MB。
我的要求是下载的文件需要与原始源文件相匹配。
我做了一些测试,为一个大小为 100Mb 的文件制作 MD5 哈希值。
在 HTC Desire Android v2.2 设备上,我同时运行 jni native 测试和
java MessageDigest.getInstance("MD5"); 测试。
两次测试都计算了同一个文件的MD5,并且两次测试运行的时间长度相同,都是1-2分钟的近似值。我关闭了调试。
我的理解是 Native 测试会更快。
在上述设备上,我怎样才能将哈希时间缩短到 10-15 秒,100MB。
这样做的代价当然是碰撞准确性,但我可以接受哈希值不相同的百万分之一。
更新
我不是 C 大师,但这是我的 MD5 测试 C 代码。这个的速度并不比 Java MessageDigest 快多少。感觉就像我在 Android 主 UI 线程上运行一样。
#include <android/log.h>
#include <stdio.h>
#include <sys/types.h>
#include <time.h>
#include <string.h>
#include <inttypes.h>
#include <jni.h>
#include <stdlib.h>
/* typedef a 32 bit type */
typedef unsigned long int UINT4;
/* Data structure for MD5 (Message Digest) computation */
typedef struct {
UINT4 i[2]; /* number of _bits_ handled mod 2^64 */
UINT4 buf[4]; /* scratch buffer */
unsigned char in[64]; /* input buffer */
unsigned char digest[16]; /* actual digest after MD5Final call */
} MD5_CTX;
void MD5Init ();
void MD5Update ();
void MD5Final ();
/* forward declaration */
static void Transform ();
static unsigned char PADDING[64] = {
0x80, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00
};
/* F, G and H are basic MD5 functions: selection, majority, parity */
#define F(x, y, z) (((x) & (y)) | ((~x) & (z)))
#define G(x, y, z) (((x) & (z)) | ((y) & (~z)))
#define H(x, y, z) ((x) ^ (y) ^ (z))
#define I(x, y, z) ((y) ^ ((x) | (~z)))
/* ROTATE_LEFT rotates x left n bits */
#define ROTATE_LEFT(x, n) (((x) << (n)) | ((x) >> (32-(n))))
/* FF, GG, HH, and II transformations for rounds 1, 2, 3, and 4 */
/* Rotation is separate from addition to prevent recomputation */
#define FF(a, b, c, d, x, s, ac) \
{(a) += F ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#define GG(a, b, c, d, x, s, ac) \
{(a) += G ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#define HH(a, b, c, d, x, s, ac) \
{(a) += H ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#define II(a, b, c, d, x, s, ac) \
{(a) += I ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
void MD5Init (mdContext)
MD5_CTX *mdContext;
{
mdContext->i[0] = mdContext->i[1] = (UINT4)0;
/* Load magic initialization constants.
*/
mdContext->buf[0] = (UINT4)0x67452301;
mdContext->buf[1] = (UINT4)0xefcdab89;
mdContext->buf[2] = (UINT4)0x98badcfe;
mdContext->buf[3] = (UINT4)0x10325476;
}
void MD5Update (mdContext, inBuf, inLen)
MD5_CTX *mdContext;
unsigned char *inBuf;
unsigned int inLen;
{
UINT4 in[16];
int mdi;
unsigned int i, ii;
/* compute number of bytes mod 64 */
mdi = (int)((mdContext->i[0] >> 3) & 0x3F);
/* update number of bits */
if ((mdContext->i[0] + ((UINT4)inLen << 3)) < mdContext->i[0])
mdContext->i[1]++;
mdContext->i[0] += ((UINT4)inLen << 3);
mdContext->i[1] += ((UINT4)inLen >> 29);
while (inLen--) {
/* add new character to buffer, increment mdi */
mdContext->in[mdi++] = *inBuf++;
/* transform if necessary */
if (mdi == 0x40) {
for (i = 0, ii = 0; i < 16; i++, ii += 4)
in[i] = (((UINT4)mdContext->in[ii+3]) << 24) |
(((UINT4)mdContext->in[ii+2]) << 16) |
(((UINT4)mdContext->in[ii+1]) << 8) |
((UINT4)mdContext->in[ii]);
Transform (mdContext->buf, in);
mdi = 0;
}
}
}
void MD5Final (mdContext)
MD5_CTX *mdContext;
{
UINT4 in[16];
int mdi;
unsigned int i, ii;
unsigned int padLen;
/* save number of bits */
in[14] = mdContext->i[0];
in[15] = mdContext->i[1];
/* compute number of bytes mod 64 */
mdi = (int)((mdContext->i[0] >> 3) & 0x3F);
/* pad out to 56 mod 64 */
padLen = (mdi < 56) ? (56 - mdi) : (120 - mdi);
MD5Update (mdContext, PADDING, padLen);
/* append length in bits and transform */
for (i = 0, ii = 0; i < 14; i++, ii += 4)
in[i] = (((UINT4)mdContext->in[ii+3]) << 24) |
(((UINT4)mdContext->in[ii+2]) << 16) |
(((UINT4)mdContext->in[ii+1]) << 8) |
((UINT4)mdContext->in[ii]);
Transform (mdContext->buf, in);
/* store buffer in digest */
for (i = 0, ii = 0; i < 4; i++, ii += 4) {
mdContext->digest[ii] = (unsigned char)(mdContext->buf[i] & 0xFF);
mdContext->digest[ii+1] =
(unsigned char)((mdContext->buf[i] >> 8) & 0xFF);
mdContext->digest[ii+2] =
(unsigned char)((mdContext->buf[i] >> 16) & 0xFF);
mdContext->digest[ii+3] =
(unsigned char)((mdContext->buf[i] >> 24) & 0xFF);
}
}
/* Basic MD5 step. Transform buf based on in.
*/
static void Transform (buf, in)
UINT4 *buf;
UINT4 *in;
{
UINT4 a = buf[0], b = buf[1], c = buf[2], d = buf[3];
/* Round 1 */
#define S11 7
#define S12 12
#define S13 17
#define S14 22
FF ( a, b, c, d, in[ 0], S11, 3614090360u); /* 1 */
FF ( d, a, b, c, in[ 1], S12, 3905402710u); /* 2 */
FF ( c, d, a, b, in[ 2], S13, 606105819u); /* 3 */
FF ( b, c, d, a, in[ 3], S14, 3250441966u); /* 4 */
FF ( a, b, c, d, in[ 4], S11, 4118548399u); /* 5 */
FF ( d, a, b, c, in[ 5], S12, 1200080426u); /* 6 */
FF ( c, d, a, b, in[ 6], S13, 2821735955u); /* 7 */
FF ( b, c, d, a, in[ 7], S14, 4249261313u); /* 8 */
FF ( a, b, c, d, in[ 8], S11, 1770035416u); /* 9 */
FF ( d, a, b, c, in[ 9], S12, 2336552879u); /* 10 */
FF ( c, d, a, b, in[10], S13, 4294925233u); /* 11 */
FF ( b, c, d, a, in[11], S14, 2304563134u); /* 12 */
FF ( a, b, c, d, in[12], S11, 1804603682u); /* 13 */
FF ( d, a, b, c, in[13], S12, 4254626195u); /* 14 */
FF ( c, d, a, b, in[14], S13, 2792965006u); /* 15 */
FF ( b, c, d, a, in[15], S14, 1236535329u); /* 16 */
/* Round 2 */
#define S21 5
#define S22 9
#define S23 14
#define S24 20
GG ( a, b, c, d, in[ 1], S21, 4129170786u); /* 17 */
GG ( d, a, b, c, in[ 6], S22, 3225465664u); /* 18 */
GG ( c, d, a, b, in[11], S23, 643717713u); /* 19 */
GG ( b, c, d, a, in[ 0], S24, 3921069994u); /* 20 */
GG ( a, b, c, d, in[ 5], S21, 3593408605u); /* 21 */
GG ( d, a, b, c, in[10], S22, 38016083u); /* 22 */
GG ( c, d, a, b, in[15], S23, 3634488961u); /* 23 */
GG ( b, c, d, a, in[ 4], S24, 3889429448u); /* 24 */
GG ( a, b, c, d, in[ 9], S21, 568446438u); /* 25 */
GG ( d, a, b, c, in[14], S22, 3275163606u); /* 26 */
GG ( c, d, a, b, in[ 3], S23, 4107603335u); /* 27 */
GG ( b, c, d, a, in[ 8], S24, 1163531501u); /* 28 */
GG ( a, b, c, d, in[13], S21, 2850285829u); /* 29 */
GG ( d, a, b, c, in[ 2], S22, 4243563512u); /* 30 */
GG ( c, d, a, b, in[ 7], S23, 1735328473u); /* 31 */
GG ( b, c, d, a, in[12], S24, 2368359562u); /* 32 */
/* Round 3 */
#define S31 4
#define S32 11
#define S33 16
#define S34 23
HH ( a, b, c, d, in[ 5], S31, 4294588738u); /* 33 */
HH ( d, a, b, c, in[ 8], S32, 2272392833u); /* 34 */
HH ( c, d, a, b, in[11], S33, 1839030562u); /* 35 */
HH ( b, c, d, a, in[14], S34, 4259657740u); /* 36 */
HH ( a, b, c, d, in[ 1], S31, 2763975236u); /* 37 */
HH ( d, a, b, c, in[ 4], S32, 1272893353u); /* 38 */
HH ( c, d, a, b, in[ 7], S33, 4139469664u); /* 39 */
HH ( b, c, d, a, in[10], S34, 3200236656u); /* 40 */
HH ( a, b, c, d, in[13], S31, 681279174u); /* 41 */
HH ( d, a, b, c, in[ 0], S32, 3936430074u); /* 42 */
HH ( c, d, a, b, in[ 3], S33, 3572445317u); /* 43 */
HH ( b, c, d, a, in[ 6], S34, 76029189u); /* 44 */
HH ( a, b, c, d, in[ 9], S31, 3654602809u); /* 45 */
HH ( d, a, b, c, in[12], S32, 3873151461u); /* 46 */
HH ( c, d, a, b, in[15], S33, 530742520u); /* 47 */
HH ( b, c, d, a, in[ 2], S34, 3299628645u); /* 48 */
/* Round 4 */
#define S41 6
#define S42 10
#define S43 15
#define S44 21
II ( a, b, c, d, in[ 0], S41, 4096336452u); /* 49 */
II ( d, a, b, c, in[ 7], S42, 1126891415u); /* 50 */
II ( c, d, a, b, in[14], S43, 2878612391u); /* 51 */
II ( b, c, d, a, in[ 5], S44, 4237533241u); /* 52 */
II ( a, b, c, d, in[12], S41, 1700485571u); /* 53 */
II ( d, a, b, c, in[ 3], S42, 2399980690u); /* 54 */
II ( c, d, a, b, in[10], S43, 4293915773u); /* 55 */
II ( b, c, d, a, in[ 1], S44, 2240044497u); /* 56 */
II ( a, b, c, d, in[ 8], S41, 1873313359u); /* 57 */
II ( d, a, b, c, in[15], S42, 4264355552u); /* 58 */
II ( c, d, a, b, in[ 6], S43, 2734768916u); /* 59 */
II ( b, c, d, a, in[13], S44, 1309151649u); /* 60 */
II ( a, b, c, d, in[ 4], S41, 4149444226u); /* 61 */
II ( d, a, b, c, in[11], S42, 3174756917u); /* 62 */
II ( c, d, a, b, in[ 2], S43, 718787259u); /* 63 */
II ( b, c, d, a, in[ 9], S44, 3951481745u); /* 64 */
buf[0] += a;
buf[1] += b;
buf[2] += c;
buf[3] += d;
}
JNIEXPORT jstring
Java_com_carlsberg_IntentServiceSendFiles_gethash( JNIEnv* env, jobject thiz ,
jstring filename)
{
const char *fi = (*env)->GetStringUTFChars(env,filename, 0);
FILE *inFile = fopen (fi, "rb");
MD5_CTX mdContext;
int bytes;
unsigned char data[1024];
if (inFile == NULL) {
printf ("%s can't be opened.\n",fi);
return;
}
MD5Init (&mdContext);
while ((bytes = fread (data, 1, 1024, inFile)) != 0)
MD5Update (&mdContext, data, bytes);
MD5Final (&mdContext);
fclose (inFile);
char tempValue[33]; // 32 hex digits + 0-terminator
int i;
// convert to hex
for (i = 0; i < 16; ++i)
sprintf(tempValue + 2*i, "%02x", (unsigned char)mdContext.digest[i]);
return (*env)->NewStringUTF(env,tempValue );
}
最佳答案
Android 使用BouncyCastle对于在 java 中实现其所有摘要算法的 crytpoapi。所以你是对的,当它完全本地化时应该会更快。当您有知识和时间(以及需要)在 native 代码中使用它们时,它会(根据您的测量)更快一点。
你还应该使用 TCP 或其他协议(protocol)来确保数据正确到达(我猜你已经使用 TCP 而不是 UDP,因为你使用 FTP)
在这种情况下我会做的是:
我会创建 2 个新线程(除了执行一些花哨的进度条打印的 UI 线程之外),第一个线程负责下载,第二个线程负责散列。
下载线程现在会通知散列线程有关新到达的 block 。这些 block 可能是 10MB 左右。所以散列线程只处理 10MB 的 block ,这应该是合理的快速并且还应该保留尽早注意到文件中断的能力。使用这种方法,您还可以检测下载何时中断,并可以重新下载第一个中断 block 的文件。当然,在这可以工作之前,您必须创建一个 block 列表并将其传输到客户端。
您还可以在此处使用适合检测传输中断的非常快速的散列算法(当您使用 TCP 时不应该出现这种情况,它保证数据在发送时正确到达)。
再次阅读我的文字后,这感觉有点像洪流(基于 block ,散列以查看是否一切正确,能够重新传输...)。
加分项:使用 native 代码执行,因此速度稍快。
关于android - 如何在移动设备上获得大文件的快速文件哈希算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9270819/
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits
我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题
对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
我的代码目前看起来像这样numbers=[1,2,3,4,5]defpop_threepop=[]3.times{pop有没有办法在一行中完成pop_three方法中的内容?我基本上想做类似numbers.slice(0,3)的事情,但要删除切片中的数组项。嗯...嗯,我想我刚刚意识到我可以试试slice! 最佳答案 是numbers.pop(3)或者numbers.shift(3)如果你想要另一边。 关于ruby-多次弹出/移动ruby数组,我们在StackOverflow上找到一