Semmihez nem életbevágó, mert mindent meg lehet csinálni x86 és x87-es utasításokkal, uOps fusion miatt (nagyon) néha még a 256 bites vektor ALU-kat is kihasználja a proci.
Viszont az AVX-nek van egy nagyon nagy javítása, ami nem kapcsolódik a 256 bites regiszterekhez; a SSE utasítások is kaptak egy új, rövidebb kódolást, amitől kisebb a kód -> kisebb az L1I cache-en a nyomás -> gyorsabb kód, még ha nem is használsz új AVX utasítást. Annó még játszottam vele, Ivy Bridge-en SSE - VSSE (AVX letilva) között néhol 10% különbség tud lenni (és akár 20%-al kevesebb byte a kód).