CUDA - supercomputer in every family

DAVIDOWITCH --- --- 14:51:24 23.3.2010

Aha.. sorry.
Ja pisu primo v C/C++ primo na CUDA, nepouzivam nic nad tim.
Tam bude spousta magie mezi tim.

warp je 32 threadu (cuda threadu), pulwarp je pak 16. Je to asi nejmensi jednotka co ma smysl pouzivat najednou. Jak funguje Jacket nemam nejmensi tuseni, ale je dost dobre mozny ze tady bude clovek realne limitovanej pameti protoze to bude mit tendence poslat uplne vsechno na GPUcko a pak nad tim operovat, misto toho aby tam posilal jen to co realne potrebuje.

3MARIE --- --- 14:43:41 23.3.2010

co je pulwarp ?

ten muj algoritmus (neparalelizovane) bezi asi takhle:


for i = 1:30
  for j = 1:40
    //operace, ktera nejspis potrebuje nekolik desitek mega pameti
  end
end

v jacketu (matlab) jsem to paralelizoval takhle

for i = 1:30
  gfor j = 1:20
    //operace  
  gend
  gfor j = 21:40
    //operace
  gend
end

bezi mi to 10-15x rychlej nez na dual core stroji a v accelereyes tvrdi, ze to je tak optimum co clovek muze z jacketu vytahnout, takze jsem dal nezkoumal. jakej speedup to dava tobe ? pouzivas primo .cu nebo taky nejakej plugin ?

v tom mym algoritmu kdybych dal tu vnitrni loop celou gfor j = 1:40, tak mi to zarve ze mam malo pameti, proto to delam nadvakrat. gfor je paralelni verze for.

DAVIDOWITCH --- --- 7:59:02 23.3.2010

takze na ty gtx285ce nemas pustenej ani celej pulwarp?
Tak to bych zkousel asi paralelizovat jinak (nebo sem to nepochopil)

3MARIE --- --- 1:13:25 23.3.2010

DAVIDOWITCH: bezi mi na tom analyza fazovych zavislosti lokalnich mozkovych potencialu. v podstate se zkouma zavislost amplitudy na fazi signalu ve frekvencnich pasmech, sirokych 2-5 Hz v rozmezi 0-200Hz. Kazde okno signalu je dlouhe treba 10sekund, pri 1000 Hz samplovaci frekvenci je to 10.000 samplu (16 bit resolution). u kazdeho okna se dela statisticky surrogate test (200 random shuffle serii), tzn. kdyz chci porovnat 2 ruzna pasma, potrebuju nekolikrat 200 * 10.000 samplu do pameti (jeden thread) - na gx285 se mi podari tehle paralelnich threadu pustit asi 15 (GFOR v Jacketu).

DAVIDOWITCH --- --- 15:40:04 22.3.2010

1 odpověď

3MARIE: Errr.. coze? Ne?
Pocet paralelnich threadu je omezenej:
1) Kolik mas SM
2) Kolik zere 1 thread registru
3) Kolik zere 1 block shared memory
4-5) Maximalnima limitama ma thread/blok
6) Mozna taky maximalni pameti na grafice.

Ta uloha by musela potrebovat takovy absurdni mnozstvi per-thread lokalni/globalni pameti, ze ti dojde pamet na karte driv nez narazis na cokoliv z bodu 1-5.
Takova typicka aplikace ma 256 threadu/block, 16 registru/thread, => na 1.3 4 bloky/SM. Na GTX285 je 30SM, takze ti najednou bezi rekneme 30k threadu (me vetsinou spis 15k nebo 8k).
Pri 1GB pameti mas 32kB dat na thread, nez te zacne omezovat bod #6. (A spis 64 nebo 128).
Co na tom prosimte pocitas, ze ti je tohle malo?

3MARIE --- --- 15:10:13 22.3.2010

1 odpověď

cim vic pameti, tim vic paralelnich threadu muzes pustit, takze by to melo bejt rychlejsi.

DAVIDOWITCH --- --- 9:14:00 22.3.2010

Nevejdes se do pameti GTXek?

3MARIE --- --- 7:52:20 22.3.2010

ted by to akorat chtelo jeste tu teslu ;)

DAVIDOWITCH --- --- 1:48:40 22.3.2010

CUDA 3.0 final je venku
http://developer.nvidia.com/object/cuda_3_0_downloads.html
a je tam popis Compute capability 2.0 (tj. fermi)

3MARIE --- --- 1:39:40 5.3.2010

za 19.000$ muzes mit 1U computer, se 4 CUDA GPU, 24GB a 2.5 teraflops. uiiiiiiiiiiiii

ICE --- --- 23:52:00 4.3.2010

3MARIE: hmm pekny! :).. jakpak by na tom asi bezel pyrit. :D

3MARIE --- --- 7:01:29 4.3.2010

1 odpověď

tak novy tesly by mely byt behem dvou mesicu
http://www.coolcomputing.com/article.php?sid=3401

C2050 (520GFlops, 3GB) pujde za 2500$. nemuzu se dockat.

DEJV --- --- 22:21:06 26.1.2010

Javascript na GPU:
http://ajaxian.com/archives/javascript-running-on-the-gpu

3MARIE --- --- 20:17:53 25.1.2010

prislo z mathworks dneska

The MathWorks is planning to release multiple betas for enabling GPU computing directly from MATLAB. We expect the first beta release (Beta-1) to be available at the end of January 2010 and expect it to run for 8-10 weeks. We expect the second beta release (Beta-2) to be available in May 2010. Prior to the release of the software, we will contact participants with information about how to obtain the software and the capabilities included in it.

3MARIE --- --- 14:34:15 17.1.2010

tak sem nastartoval jacket 1.2.2 na matlabu 2009b a GX285. dema bezi v cajku, ale zatim z toho nemuzu vymacknout co potrebuju kvuli limitovanymu supportu matlabovskejch funkci v paralelnich GFOR loopech. Kazdopadne sem zkusil nasvindlovat data tak aby to GFOR vzala a vidim speedup 15-20x. Colon operator uvnitr GFOR by pry mel byt ve verzi 1.2.3, tak sem zvedavej.

ICE --- --- 19:57:08 8.11.2009

DEJV: napriklad (uz skoro mrtvou) demoscenu by to mohlo posunout zas o krucek dal.. .)

3MARIE --- --- 19:46:08 29.10.2009

nevim, jestli se tady objevil Jacket http://www.accelereyes.com/
je to vlastne CUDA akcelerator pro Matlab. Ted by mela byt venku kratce nova verze, kterou se chystam otestovat...

DEJV --- --- 17:43:01 29.10.2009

1 odpověď

Napsal jste v tom uz nekdo nejakou realnou vec?

Ja jsem se zatim dostal jen k tem zakladnim vecem typu ALife, videl jsem nejake implementace v oboru vypocetni chemie, ale celkem by me zajimalo jestli to tady nekdo pouziva v nejakych aplikovanych neakademickych oblastech.

LITTLELI --- --- 14:09:49 20.7.2009

Úvod do technologie CUDA - Root.cz
http://www.root.cz/clanky/uvod-do-technologie-cuda/

LITTLELI --- --- 11:47:26 4.2.2009

neni to sice CUDA ale OpenCL, ale to snad nevadi :)
http://youtube.com/watch?v=mcU89Td53Gg

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo


pamatuj si mě
registrace
ztracené heslo?