CUDA - supercomputer in every family

MAIMONIDES --- --- 10:46:15 30.9.2013

Za poslední rok 4 návštěvy. Inu, jestli se někdo nevyjádří jinak, klub smažu či předám.

3MARIE --- --- 22:45:01 5.4.2010

DAVIDOWITCH: ta GTX480 taky nevypada spatne. na amazonu uz jako preorder. numuzu se dockat !

http://www.amazon.com/PNY-1536MB-PCI-Express-Graphics-VCGGTX480XPB/dp/B003CFAVUO/ref=br_lf_m_1000493801_1_2_ttl?ie=UTF8&m=ATVPDKIKX0DER&s=electronics&pf_rd_p=1257213822&pf_rd_s=center-2&pf_rd_t=1401&pf_rd_i=1000493801&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=0V0CVGDKB2M0PJAV27Q0

3MARIE --- --- 13:38:06 24.3.2010

pristi Matlab bude mit CUDU nejspis implementovanou v nekterej funkcich (FFT, matrix operations). je to nevyhnutelny.

DAVIDOWITCH --- --- 22:57:38 23.3.2010

1 odpověď

tohle je uplne jina granularita nez na ktery to znam ja.
Nevim co delas v ty smycce, ale predpokladam ze to bude rozbity do vic kernelu (dost mozna o dost vic kernelu) a slo by to pekne uzonglovat s datama..
Ale je to tak zakapotovany ze to nikdy nikdo neudela.
Takze sorry, mels pravdu, pro tohle proste chces vic pameti a nic moc neresit. Me nejak nedoslo ze se CUDA uz realne pouziva uz v matlabu a takovejch vecech.

3MARIE --- --- 17:26:30 23.3.2010

ja tam prave neposilam uplne vsechno. pro kazdou cast GPU loopu tam poslu pouze relevantni vektor dat.

DAVIDOWITCH --- --- 14:51:24 23.3.2010

Aha.. sorry.
Ja pisu primo v C/C++ primo na CUDA, nepouzivam nic nad tim.
Tam bude spousta magie mezi tim.

warp je 32 threadu (cuda threadu), pulwarp je pak 16. Je to asi nejmensi jednotka co ma smysl pouzivat najednou. Jak funguje Jacket nemam nejmensi tuseni, ale je dost dobre mozny ze tady bude clovek realne limitovanej pameti protoze to bude mit tendence poslat uplne vsechno na GPUcko a pak nad tim operovat, misto toho aby tam posilal jen to co realne potrebuje.

3MARIE --- --- 14:43:41 23.3.2010

co je pulwarp ?

ten muj algoritmus (neparalelizovane) bezi asi takhle:


for i = 1:30
  for j = 1:40
    //operace, ktera nejspis potrebuje nekolik desitek mega pameti
  end
end

v jacketu (matlab) jsem to paralelizoval takhle

for i = 1:30
  gfor j = 1:20
    //operace  
  gend
  gfor j = 21:40
    //operace
  gend
end

bezi mi to 10-15x rychlej nez na dual core stroji a v accelereyes tvrdi, ze to je tak optimum co clovek muze z jacketu vytahnout, takze jsem dal nezkoumal. jakej speedup to dava tobe ? pouzivas primo .cu nebo taky nejakej plugin ?

v tom mym algoritmu kdybych dal tu vnitrni loop celou gfor j = 1:40, tak mi to zarve ze mam malo pameti, proto to delam nadvakrat. gfor je paralelni verze for.

DAVIDOWITCH --- --- 7:59:02 23.3.2010

takze na ty gtx285ce nemas pustenej ani celej pulwarp?
Tak to bych zkousel asi paralelizovat jinak (nebo sem to nepochopil)

3MARIE --- --- 1:13:25 23.3.2010

DAVIDOWITCH: bezi mi na tom analyza fazovych zavislosti lokalnich mozkovych potencialu. v podstate se zkouma zavislost amplitudy na fazi signalu ve frekvencnich pasmech, sirokych 2-5 Hz v rozmezi 0-200Hz. Kazde okno signalu je dlouhe treba 10sekund, pri 1000 Hz samplovaci frekvenci je to 10.000 samplu (16 bit resolution). u kazdeho okna se dela statisticky surrogate test (200 random shuffle serii), tzn. kdyz chci porovnat 2 ruzna pasma, potrebuju nekolikrat 200 * 10.000 samplu do pameti (jeden thread) - na gx285 se mi podari tehle paralelnich threadu pustit asi 15 (GFOR v Jacketu).

DAVIDOWITCH --- --- 15:40:04 22.3.2010

1 odpověď

3MARIE: Errr.. coze? Ne?
Pocet paralelnich threadu je omezenej:
1) Kolik mas SM
2) Kolik zere 1 thread registru
3) Kolik zere 1 block shared memory
4-5) Maximalnima limitama ma thread/blok
6) Mozna taky maximalni pameti na grafice.

Ta uloha by musela potrebovat takovy absurdni mnozstvi per-thread lokalni/globalni pameti, ze ti dojde pamet na karte driv nez narazis na cokoliv z bodu 1-5.
Takova typicka aplikace ma 256 threadu/block, 16 registru/thread, => na 1.3 4 bloky/SM. Na GTX285 je 30SM, takze ti najednou bezi rekneme 30k threadu (me vetsinou spis 15k nebo 8k).
Pri 1GB pameti mas 32kB dat na thread, nez te zacne omezovat bod #6. (A spis 64 nebo 128).
Co na tom prosimte pocitas, ze ti je tohle malo?

3MARIE --- --- 15:10:13 22.3.2010

1 odpověď

cim vic pameti, tim vic paralelnich threadu muzes pustit, takze by to melo bejt rychlejsi.

DAVIDOWITCH --- --- 9:14:00 22.3.2010

Nevejdes se do pameti GTXek?

3MARIE --- --- 7:52:20 22.3.2010

ted by to akorat chtelo jeste tu teslu ;)

DAVIDOWITCH --- --- 1:48:40 22.3.2010

CUDA 3.0 final je venku
http://developer.nvidia.com/object/cuda_3_0_downloads.html
a je tam popis Compute capability 2.0 (tj. fermi)

3MARIE --- --- 1:39:40 5.3.2010

za 19.000$ muzes mit 1U computer, se 4 CUDA GPU, 24GB a 2.5 teraflops. uiiiiiiiiiiiii

ICE --- --- 23:52:00 4.3.2010

3MARIE: hmm pekny! :).. jakpak by na tom asi bezel pyrit. :D

3MARIE --- --- 7:01:29 4.3.2010

1 odpověď

tak novy tesly by mely byt behem dvou mesicu
http://www.coolcomputing.com/article.php?sid=3401

C2050 (520GFlops, 3GB) pujde za 2500$. nemuzu se dockat.

DEJV --- --- 22:21:06 26.1.2010

Javascript na GPU:
http://ajaxian.com/archives/javascript-running-on-the-gpu

3MARIE --- --- 20:17:53 25.1.2010

prislo z mathworks dneska

The MathWorks is planning to release multiple betas for enabling GPU computing directly from MATLAB. We expect the first beta release (Beta-1) to be available at the end of January 2010 and expect it to run for 8-10 weeks. We expect the second beta release (Beta-2) to be available in May 2010. Prior to the release of the software, we will contact participants with information about how to obtain the software and the capabilities included in it.

3MARIE --- --- 14:34:15 17.1.2010

tak sem nastartoval jacket 1.2.2 na matlabu 2009b a GX285. dema bezi v cajku, ale zatim z toho nemuzu vymacknout co potrebuju kvuli limitovanymu supportu matlabovskejch funkci v paralelnich GFOR loopech. Kazdopadne sem zkusil nasvindlovat data tak aby to GFOR vzala a vidim speedup 15-20x. Colon operator uvnitr GFOR by pry mel byt ve verzi 1.2.3, tak sem zvedavej.

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo


pamatuj si mě
registrace
ztracené heslo?