Steputenko Ilya, P3212.
@andrew. С разрешения практика, сдаю вариант на интризинках без asm-кода. С использованием AVX512, реализация на 100 итерациях отрабатывает в ~2,4 раза быстрее. Закоментированная реализация на SSE работает медленнее скалярного из-за тысячи распаковок векторов.
UPD: добавлено SSE, незначительно быстрее наивного.