конвейеров в видеокарте

вебасто транспортер т5 предохранитель

Наклонная камера — неотъемлемая часть системы, которая размещается посередине между жаткой и молотилкой комбайна. Главная ее задача — доставка травы, которую скосили, фиксация жатки, ее привода. Как правило, после длительного использования камеры наклонного типа, ее детали изнашиваются. Купить новые запчасти можно на сайте компании «ПрофАгро».

Конвейеров в видеокарте чертеж сопло элеватора

Конвейеров в видеокарте

Утилита RivaTuner позволяет активировать конвейеры, заблокированные как одним, так и другим способом, для графических процессоров NV 40 и NV43 последнего — только ревизий до А3 , начиная с версии RC Перед тем, как начать использовать возможности RivaTuner, следует уточнить, какие блоки каким способом заблокированы. Для этого воспользуйтесь модулем диагностического отчета Diagnostic report из RivaTuner.

Значение «none» означает, что таким способом блоков не отключено, в противном случае будут перечислены номера отключенных блоков. Сравните значения строк, один и тот же блок может быть отключен сразу двумя способами. Предупреждение : Настоятельно рекомендуем ограничиться разблокировкой только программно отключенных модулей, так как активация сбойного блока, заблокированного аппаратно, может привести к фатальным ошибкам в работе компьютера, вплоть до незагружаемости операционной системы до удаления драйвера NVStrap из автозагрузки.

Запустите RivaTuner и перейдите на закладку драйвера NVStrap в низкоуровневых системных настройках low-level system settings. Установите драйвер. Если диагностический отчет показал, что конвейеры отключены аппаратно, включите опцию «Включить аппаратно маскированные блоки» Allow enabling hardware masked units. Запомните изначальную конфигурацию. Включите отключенные конвейеры.

Рекомендуется сначала включить пиксельные конвейеры. Сохраните конфигурацию. Перезагрузите компьютер. Запустите RivaTuner и проверьте конфигурацию графического процессора, число активных блоков. Данные карты подлежат переделке, только если ревизия чипа ниже чем А4 увидеть ее можно так же, как и разблокировать конвейеры, — с помощью программы RivaTuner.

Отметим, что выпуск карт GeForce был вынужденным, но при этом они еще и не пользуются особой популярностью, поскольку стоят ненамного дешевле полноценного , а работают ощутимо медленнее. Сделано это на кристалле, и «вскрытию» они не поддаются. В этом случае можно говорить о достаточно удачном сбросе чипов, не прошедших тест на работоспособность как GeForce GTX , поскольку на момент анонса и появления видеокарт в продаже прямого конкурента от ATI не наблюдалось.

Вначале считалось, что такие карты не поддаются программной переделке, поскольку наученная опытом ATI теперь блокировала конвейеры путем пережигания дорожки на корпусе чипа. Конечно, нашлись желающие соединить перерезанную дорожку, но в большинстве своем эти продукты оказались с действительно нерабочими конвейерами. Впоследствии семейство Х пополнилось следующими картами:. Заметим, что, несмотря на такое разнообразие имен, все это вариации одного и того же чипа.

R и R отличаются друг от друга только интерфейсом, R — это не совсем удачный перезапуск R по новому техпроцессу 0,11 мкм вместо 0,13 мкм , поскольку при достаточном выходе годных частотный потенциал данного ядра оказался довольно низок — MHz по сравнению с — у R42x.

У R и R также разница лишь в интерфейсе. И они представляют собой R42x, произведенные по несколько оптимизированному микронному техпроцессу, что позволило поднять частотную планку до — MHz. Небольшие изменения произошли и в способе блокировки конвейеров — вслед за NVIDIA к блокировке через BIOS и путем пережигания дорожки была добавлена блокировка конвейеров непосредственно на кристалле. Узнать, как именно заблокированы конвейеры на картах X8xx достаточно просто с помощью RivaTuner или AtiTool.

В случае RivaTuner необходимо запустить ее из командной строки с такими параметрами — RivaTuner. Результат окажется примерно следующим:. В случае AtiTools необходимо, удерживая Shift , нажать Settings и найти следующие строки:. Первая из них отвечает за блокировку конвейеров непосредственно на кристалле, если 5-й символ отличается от F, значит их невозможно разблокировать. Вторая строка отражает факт блокировки конвейеров путем перерезания дорожки на корпусе чипа.

В противном случае они возможно разблокируются, если замкнуть дорожку на подложке чипа. Напоминаем, что при любой переделке данных карт пользователь лишается гарантии, так что стоит ли этим заниматься, решать вам самим. Выпуск такого разнообразия карт на практически одинаковых чипах, но с разными количеством конвейеров и частотами, и в этот раз был вынужденной мерой. В завершение отметим, что в новой линейке ATI X1xxx пока нет карт со «скрытыми» конвейерами, хотя по Сети уже ходят слухи о выпуске облегченной версии X Однако даже если она будет иметь заблокированные конвейеры, возможность их разблокировки на данный момент представляется очень сомнительной.

Обзоры Скрытые возможности графических чипов. UA ITC. Поделитесь в соцсетях: Нажмите, чтобы поделиться на Twitter Открывается в новом окне Нажмите здесь, чтобы поделиться контентом на Facebook. Открывается в новом окне Нажмите, чтобы поделиться на LinkedIn Открывается в новом окне Нажмите, чтобы поделиться записями на Pocket Открывается в новом окне Нажмите, чтобы поделиться в Telegram Открывается в новом окне.

Похожие записи. ПК месяца февраль ТОП популярных процессоров на hotline. ПК месяца январь Сообщить об опечатке Текст, который будет отправлен нашим редакторам:. Ваш комментарий необязательно :.

Это перегибаете элеваторы липецкой области телефоны принимаю

Или на объеме памяти карты? Или еще чём? Игорь Ученик , закрыт 8 лет назад. Лучший ответ. А универсальные шейдерные конвейеры - это потоковые процессоры в графическом чипе видеокарты, образованные транзисторами.

Быстрее будет та видеокарта, у которой больше транзисторов, нежели потоковых процессоров конвейеров. А универсальные они потому что являются одновременно и пиксельными и вертексными, хотя раньше вплоть до года включительно, Radeon XSeries и GeForce Series они разделялись.

Второстепенное значение имеют количество текстурных блоков и блоков растеризации, а так же шина обмена данных количество битных контроллеров ввода-вывода памяти. Если шина бит, значит, что в графическом ядре содержится четыре контроллеров ввода-вывода.

Так же определенное имеет значение частота GPU и памяти. Объем памяти имеет еще меньшее значение больше 2 ГБ не требуется для большинства игр. Эти шейдеры позволяют программисту по шагам управлять процессом наложения текстур и вычисления цвета пикселей.

Что это дает разработчику и пользователям? Что касается игр, то здесь использование шейдеров, как пиксельных, так и вершинных, возрастает все больше и больше. Во-первых, можно получить в играх и не только реальное освещение ведь с помощью этих шейдеров возможно делать освещение определенных пикселей. Во-вторых, в арсенале разработчика появились микрополигоны, что позволяет создавать реалистичные эффекты взрыва, дождя, пыли, дыма, и т. В-третьих, шейдеры дают точные тени теперь тени образуются даже от малейших неровностей поверхности.

С помощью пиксельных шейдеров можно получить еще множество интересных эффектов, но главная суть пиксельных и вершинных шейдеров, я думаю, стала понятной - это добиться максимальной реалистичности. Кстати, в отличии от вершинных шейдеров, нет способа эмулировать пиксельные шейдеры программным путем. Унифицированная архитектура. В основе унифицированной архитектуры взята концепция потоковой обработки данных, благодаря которой появилась возможность отправки данных на повторную обработку без ожидания завершения всех стадий конвейера.

Также был добавлен новый вид шейдеров — геометрический, работающий с геометрией на уровне примитивов, а не вершин, что способствует разгрузке центрального процессора от лишней работы. Произошел отказ от разделения на пиксельные и вершинные процессоры — теперь они общие, получили новое название — потоковые процессоры стрим-процессоры и в любой момент могут быть перепрограммированы под конкретные нужды приложения.

В предпоследнем поколении видеокарт данные, полученные от центрального процессора, сперва обрабатываются конвейером он также называется процессором, вершинным блоком : создаются вершины, над которыми производятся преобразования, дополненные вершинными шейдерами программы, добавляющие некоторые эффекты объектам, например — мех, волосы, водная гладь, блеск и так далее.

Далее вершины собираются в примитивы — треугольники, линии, точки, после чего переходят в пиксельный блок. Пиксельный блок. Здесь определяются конечные пиксели, которые будут выведены на экран, и над ними проводятся операции освещения или затенения, текстурирования этим занимается блок TMU — Texture Mapping Unit, который связан с пиксельным конвейером , присвоения цвета, добавляются эффекты от пиксельных шейдеров. Количество конвейеров Чем больше конвейеров поддерживает видеокарта, тем, естественно, лучше.

Кроме количества поддерживаемых конвейеров очень важно число текстурных блоков. Если взять, к примеру, две видеокарты с одним и тем же количеством конвейеров, но разным количеством текстурных блоков, то при наложении одной текстуры на объект разницы во времени мы не почувствуем вообще.

Когда же придет пора мультитекстурирования, то видеокарта с меньшим числом текстурных блоков проиграет. Чтобы узнать, сколько текстур видеокарта сможет наложить на объект за один проход, необходимо количество конвейеров умножить на число текстурных блоков. Кстати, минимальное требование для DirectX9-совместимых ускорителей - это 16 текстур за один проход.

Трансформация и Освещение так звучит название этой технологии на русском языке - это процесс переноса информации о 3D мире позиция объектов, дистанция между ними, источники света в 2D изображение, которое в действительности и отображается на экране. Причем же здесь трансформация и освещение к, например, искусственному интеллекту?

Дело в том, что создание объектов со сложной геометрией а тем более, освещением требует очень больших скоростей обработки данных. И после того, как видеокарта начала сама "беспокоиться" о трансформации и освещении, довольно большая нагрузка спала с центрального процессора, тем самым, дав больше процессорного времени и мощности для других задач ИИ, физические расчеты, и др.

В первую очередь, возросла производительность: теперь акселератор способен на 3D-расчеты, эквивалентные по сложности 76 млрд. Во-вторых, блок стал программируемым, и это мощный инструмент для разработчиков игровых приложений. И это очевидная «статья расходов» новых транзисторов - они обеспечивают логику и математику GPU нового поколения. По заявлению Nvidia, все данные о геометрии полигонов хранятся в специальном буфере локальной видеопамяти.

Технология 3D-текстур позволяет создавать более точные 3D-объекты, передавая специфику материалов, обрабатывать объемные среды туман, взвесь частиц в луче света , а также создавать объекты с изменяющейся структурой - разрушающиеся стены, вмятины, трещины и тому подобное.

Открывается интересная возможность поддержки сплайновых полигонов. Сплайновые криволинейные поверхности, это уже почти реальность. Ведь, если разобраться, в GeForce, как и в GeForce2, не было настоящего геометрического процессора. Конечно, в GeForce и GeForce2 очень помогала возможность аппаратной трансформации и освещения полигонов, но это же и ограничивало программистов, которые не были больше способны управлять процессами рендеринга и наложения текстур. Теперь появился первый настоящий GPU.

Аппаратная поддержка воксельной геометрии, 3D-текстур, сплайновых поверхностей. Множество фактов говорит о том, что чип способен создавать криволинейные полигоны, причем сложности высокого порядка. Видеочипы все больше походят на процессоры. Это и полностью программируемые этапы рендеринга, и реализация нестандартных контроллеров памяти, и даже постоянное увеличение объема накристальной кэш-памяти.

Графический процессор. Ключевым компонентом любой современной видеокарты является графический процессор или набор микросхем - графический чипсет , который занимается расчётами выводимой на экран информации и трёхмерных сцен.

ШИРИНА ЭЛЕВАТОРА

Это обеспечивает более плавное движение в фильмах и играх, а также более реалистичное трехмерное впечатление. Еще одной особенностью, которую следует учитывать в дополнение к конвейерам, является шина памяти. Большинство карт сегодня имеют битные или битные шины. Наконец, есть тактовая частота графического процессора. Как и процессор, графический процессор может иметь низкую или высокую тактовую частоту.

Принимая во внимание все эти факторы, приличная видеокарта будет иметь комбинацию функций, которые работают вместе для хорошей производительности. Серия GeForce GT на базе nVidia была предпочтительной игровой картой в течение почти двух лет после ее выпуска в четвертом квартале года.

Более новая и недорогая серия GeForce GT имеет более медленную битную шину и всего 12 конвейеров, но компенсирует ее более высокой тактовой частотой, что соответствует производительности GT во многих тестах. Серия GT поддерживает новые технологии, включая операционную систему Microsoft Vista , и считается надежной картой среднего уровня.

По состоянию на осень года в новейших игровых картах используется не один, а два графических процессора. Это удваивает конвейеры, шину и память, обеспечивая пропускную способность чуть более 76 гигабайт в секунду. Однако цена этих карт, скорее всего, обескуражит кого угодно, кроме самых преданных геймеров. При покупке видеокарты сравните характеристики.

Самая дорогая карта в своем классе не всегда лучший выбор. Количество конвейеров, шина памяти, тип памяти и тактовая частота каждого важны; и убедитесь, что карта поддерживает новейшие графические программные движки. Причем, "глазеть под капот" мы начнем, так сказать, с "доунифицированной" архитектуры. Это затем, чтобы потом было ясно, что нового дает нам эта унифицированная архитектура и что изменилось. Но не беспокойтесь, закапываться глубоко мы не будем, и тем более опускаться в "дошейдерную" эпоху хотя по иронии судьбы данные строки пишутся на компьютере, в котором стоит GeForce 2 MX , а начнем с более свежих графических ускорителей.

Итак, вышедший в г. Имеет 24 пиксельных конвейера, по одному текстурному блоку на конвейер то есть 24 TMU , 8 вершинных конвейеров и 16 блоков растровых операций ROP. Остальные характеристики можно посмотреть в сравнительной таблице. А теперь внимательно смотрим на схему и разбираемся. МГц Техпроцесс нм 90 90 90 90 80 Площадь кристалла мм 2 Количество транзисторов млн.

За счет того, что мы рассовываем пикселы по разным конвейерам. Например, если мы имеем 24 пиксельных конвейера, то первый конвейер обрабатывает 1-й, затем й, затем й пиксел и т. Думаю, смысл понятен. На представленной ниже илюстрации мы можем это увидеть — 6 блоков по 4 процессора в каждом. Благодаря этим "упрощенным" ALU про то, что такое "скалярные" и "векторные", мы поговорим потом можно увеличить математическую производительность процессора, а следовательно, и скорость исполнения пиксельных шейдеров.

В нашем случае каждый пиксельный процессор может выполнять 8 инструкций типа MADD Multiply Add, поэлементное умножение двух 4-компонентных векторов с прибавкой к полученному вектору третьего вектора - к этой штуке мы тоже еще вернемся за такт, а суммарная производительность 24 процессоров на инструкциях такого типа достигает цифры в гигафлопс например, у предшественника - GeForce Ultra, производительность достигала всего 54 гигафлопс Тут стоит отвлечься и сказать несколько слов о гигафлопах, плавающих запятых и про "математику" вообще я залезу немного вперед, только для того чтобы не отвлекаться потом.

Начнем с "плавающей запятой" FP - Floating point, с английского это переводится как "плавающая точка", но разницы тут, как вы понимаете, нет , которая является формой представления дробных чисел. Часто приходится обрабатывать очень большие числа например, расстояние между звездами или, наоборот, очень маленькие размеры атомов или электронов.

При таких вычислениях пришлось бы использовать числа с очень большой разрядностью. В то же время нам не нужно знать расстояние между звездами с точностью до миллиметра. Для вычислений с такими величинами числа с фиксированной запятой, которой точно прописано ее место, неэффективны. Поэтому для подобных максимальных и минимальных вычислений и применяются вычисления с плавающей запятой.

Одна деталь: на ранней стадии развития компьютеров операции с плавающей запятой не рассчитывались с помощью центрального процессора из-за ряда технических причин , а всецело ложились на плечи специального сопроцессора - математического сопроцессора специальный модуль операций с плавающей запятой floating point unit FPU - задача которого сводилась к выполнению широкого спектра математических операций над вещественными числами с плавающей запятой.

Данный модуль был выполнен в виде отдельной микросхемы и имел специальное гнездо на материнской плате. Впоследствии он со всеми пожитками перекочевал в ядро CPU, где вместе с блоками целочисленных вычислений ALU продолжил развитие и выполнение своих функций.

Это все так, к слову. Но этот момент мы запомним. При этом существуют промышленные стандарты на представление числа с плавающей запятой в двоичной форме — IEEE , в котором определяются два вида чисел: с одинарной float и с двойной double точностью. Для записи числа в формате с плавающей запятой одинарной точности требуется тридцатидвухбитовое FP32 слово, для записи чисел с двойной точностью - шестидесятичетырехбитовое FP И если вычислительное устройство отвечает данному стандарту то есть может производить операции с FP32 или даже с FP64, что намного лучше , то его возможностей достаточно для выполнения "серьезных" научных и других вычислений, так как обеспечена высокая точность, надежность и правдивость результатов.

Но также важно, сколько операций с плавающей запятой производит вычислительное устройство за заданное время. Причем данный показатель является основным мерилом производительности компьютерных процессоров или других вычислительных устройств, и называется этот показатель FLOPS Floating point Operations Per Second - операции с плавающей запятой в секунду - эта величина как раз и показывает производительность вычислительного устройства как правило, из-за высокого уровня производительности используются производные величины от FLOPS, образуемые путем использования стандартных приставок системы СИ Мегафлоп, гигафлоп, терафлоп и т.

Как и большинство других показателей производительности, данная величина определяется с помощью тестовых программ, которые запускаются на подопытном устройстве Широко распространена программа Linpack, первоначально библиотека на языке Фортран, содержавшая набор подпрограмм для решения систем линейных алгебраических уравнений, впоследствии на основе ее появился тест Linpack benchmark, с помощью которого определяется вычислительные способности не только "обычных" устройств, но и суперкомпьютеров TOP данный тест, по сути, является основным тестом в рейтинге TOP Правда, существует уже более продвинутый тестовый пакет Lapack, более эффективный для современных компьютеров.

Чем хорош флопс - при всей своей теоретичности он наиболее объективный, наиболее приближенный к реальным способностям устройства, в то время как остальные тесты являются чересчур субъективными и зависят от многих факторов. В основном они позволяют оценить испытуемую систему лишь в сравнении с рядом других аналогичных устройств.

Правда, "флопс" не абсолютно точный показатель, есть много сложных нюансов уже в самом термине "операция с плавающей запятой" много неопределенности, не говоря уже многих моментах, влияющих на результат и не связанных с производительностью вычислительного устройства - пропускная работа оперативной памяти, кэш-памяти, пропускная способность шины и т. Впрочем, если опираться на результаты только одной программы например, той же Linpack, но и тут есть одна проблема - все производители должны использовать одну и ту же программу, а такое не всегда происходит и при этом брать средние значения, то можно получить более-менее правдивые результаты.

Но есть проблемы другого рода - например, существуют системы, для которых, например, Linpack, не подходит из-за конструктивных особенностей. Я понимаю, что данная информация кажется чересчур избыточной, но эти сведения нам очень сильно пригодятся потом, в следующих частях нашей статьи. Ну а сейчас вернемся к G В идеале - на определенное число конвейеров приходится равное число TMU, и за такт каждый из них способен произвести одну выборку.

И если, например, TMU вдвое меньше чем конвейеров, а для проведения вычислений над точкой нужно две текстуры что не такая и редкость в играх , то текстурные модули будут выдавать вдвое меньше данных, чем способны обработать конвейеры, и в итоге пикселы будут сходить с конвейера не каждый такт, а допустим, каждый второй такт.

Поэтому число TMU является довольно важным параметром графического ядра. Но не стоит забывать и про вершинные процессоры, которые долгое время просто немного "шлифовали", не внося особых изменений - чтобы увеличить производительность данных конвейеров, обычно просто увеличивали их число. Правда, в G70 инженеры прибегли к необычному решению - ввели разделение частот, и теперь у пиксельных процессоров своя частота, а у вершинных своя.

Что, конечно же, повлияло на увеличение производительности. В свою очередь, вершинные процессоры также играют немаленькую роль в обработке изображения, так как работают с геометрией объекта, а затем отправляют свои данные на сборку setup , после чего следует растеризация, обработка в пиксельных конвейерах, а затем все пикселы попадают в блок растровых операций ROP - я надеюсь, вы помните, что он делает. При этом данный "блок" имеется ввиду совокупность блоков ROP перетерпел некоторые изменения.

В первую очередь это сделано для экономии места на кристалле. Но это ни в коем случае не влечет падение производительности. При этом блоки ROP и пиксельные конвейера общаются между собой с помощью быстрого коммутатора, который перераспределяет рассчитанные квады между блоками. Также увеличение числа и сложности пиксельных конвейеров которые стали тратить много сил на математические вычисления привело к тому, что такое же число ROP будет не самым оптимальным решением, так как велик шанс того, что какие-то части ROP будут просто простаивать, и не последнею роль в этом будут играть малые возможности памяти при имеющейся пропускной способности не факт, что за 1 такт удастся записать в кадровый буфер даже 16 полноценных пикселов - надо сказать, последняя по своим возможностям недалеко ушла от VRAM той же GeForce Ultra.

Стоит сказать несколько слов о видеопамяти. Как правило исключением в основном является интегрированные решения это несколько микросхем памяти, распаянных на плате ускорителя, и специальный высокопроизводительный контроллер памяти, интегрированный непосредственно в GPU. Причем специфика работы диктует свои определенные условия - требуется очень быстрая память. Для увеличения быстродействия ставятся несколько микросхем памяти, работающих независимо, благодаря чему за один такт будет считываться 64, , и т.

Ну и, разумеется, увеличивается частота, причем она намного больше, чем у обычной оперативной памяти. В первую очередь из-за того, что требования к надежности памяти здесь гораздо ниже: ведь кто заметит ошибку где-то в м пикселе текстуры? Хотя любой современный акселератор может работать непосредственно с оперативной памятью, и такой подход в основном реализуется в интегрированных решениях.

Конечно, о грандиозной производительности тут говорить не стоит ведь часто даже вершинные процессоры "вырезаются" и реализуются посредствам драйверов, как, например, в Intel GMA , но ее вполне хватает для большинства задач ваш покорный слуга играл в "Сталкера2 на Intel GMA , причем не чувствовал никакого дискомфорта - игра вела себя вполне нормально, хоть, конечно, не на максимальных настройках.

Ответ конкурента в виде R задержался на долгих 4 месяца, впрочем, даже после появления Radeon X о нем читайте ниже ситуация не сильно изменилась. А вот выход R с его доселе невиданными характеристиками автоматически вывел ATI на первой место. Данный GPU по сути представляет собой "вылизанный до блеска" G70, о чем говорит практически идентичная архитектура.

Правда, вылизан он был действительно идеально. Судите сами: с тем же количеством пиксельных и вершинных процессоров, с теми же 24 TMU и 16 ROP, что и у G70, причем их структура не перетерпела изменений, G71 имеет увеличенные частоты характеристики смотрите в сравнительной таблице , при этом он уменьшил свое энергопотребление, тепловыделение и размеры. Конечно, это отчасти удалось достичь благодаря переходу на более тонкий нм техпроцесс.

Но как объяснить то, что новый GPU "потерял" транзисторы? Ведь по сравнению с G70 у G71 их на 25 миллионов меньше. Повторю - G71 имеет все то же самое, ничего не пропало. Есть только два более-менее разумных объяснения этого факта как вы понимаете, NVIDIA не раскрыла секрет : первое предполагает героизм инженеров, которые провели колоссальную работу по оптимизации разных частей GPU маловероятно, конечно, так как шкура, по сути, не стоит выделки - деньги огромные, а 25 млн.

Но самое главное - зачем? То ли выход годных чипов на нм процессе был достаточно высок, то ли NVIDIA смогла позволить себе больше брака, но в результате она просто удалила "запасные" транзисторы. Сразу скажу, что продолжать давний спор ATI vs. Так как они постоянно идут "ноздря в ноздрю".

Разве что кто-то кого-то умудрился на определенном этапе обогнать - но только на определенном этапе. Дальше "отстающий" обязательно поднатужится и найдет чем ответить. Конечно, если у вас есть желание проводить сравнения, то пожалуйста, проводите, я же буду это делать только в тех случаях, когда без этого не обойтись, причем крайне ограниченными порциями.

Первым представителем ATI у нас будет чип R , и не просто потому, что он является ответом G70, а в первую очередь из-за того, что в этом чипе ATI немного отступила от концепции "классической" архитектуры и при этом заложила основы для дальнейшего многолетнего развития, в том числе и в эпоху унифицированной архитектуры. Но, как говорится, все по порядку.

Когда-то очень давно ATI висела практически на волоске. Видеокарта, которая продвигалась в то время а именно - Radeon как hi-end-решение по производительности дотягивала лишь до "начального уровня" конкурента. Продажи падали, компания терпела большие убытки.

Положение спас вышедший R и его модификации. С тех пор почти 3 года ATI просто занималась шлифовкой удачной линейки Radeon 9xxx, причем по старому и проверенному способу - увеличение числа конвейеров, оптимизация, иногда переход на новый техпроцесс и т. В какой-то степени ситуация начала повторяться в г. Почему тянули? За это время была проделана действительно колоссальная работа.

Под "этим временем", конечно, имеются ввиду не те несколько месяцев задержки, а несколько лет, на протяжении которых велась разработка новой архитектуры. И если вы думаете, что у ATI, как и у NVIDIA или у любой другой компании, один инженерный отдел, который, например, после завершения работы над одним чипом приступает к новому, то вы глубоко ошибаетесь: у каждой компании, которая занимается проектировкой и разработкой микропроцессоров особенно таких сложных как CPU и GPU , имеется несколько подразделений, работающих параллельно - одни разрабатывают "сегодняшний" чип, другие "завтрашний", а третьи проектируют процессор далекого будущего.

Во-первых, радикально переработана святая святых GPU - блок пиксельных процессоров. В прошлом он состоял из однотипных и простых пиксельных конвейеров, каждый из которых вычислял цвет отдельно взятого пиксела. Последний, однажды попав на один из конвейеров, обрабатывался прописанной ему программой шейдером и болтался внутри конвейера, пока не закончится вычисление его цвета.

При этом почти все зависимые устройства например, TMU подключены непосредственно к исполнительным устройствам конвейера - схема очень проста и эффективна, но лишь до определенного момента. На смену прежней архитектуре был предложен своеобразный суперскалярный процессор, который, по сути, работает как один большой конвейер, имеющий возможность обрабатывать несколько пикселов одновременно.

Вместо того чтобы сразу пихать пикселы в разные конвейеры, R накапливает их вместе с шейдерными инструкциями в специальном огромном планировщике - Ultra-Threading Dispatch Processor. В данном планировщике все квады хранятся в длинной очереди и по мере освобождения вычислительных ресурсов отправляются на обработку. Это автоматически развязывает руки разработчикам - теперь можно спокойно варьировать соотношение пиксельных процессоров и текстурных модулей так как они больше не подключены друг к другу.

Тем более что раньше TMU своими зачастую медленными операциями могли вообще блокировать весь конвейер, так как пиксельным процессорам приходилось ждать от них ответа. И конечно, динамического переупорядочивания инструкций в GPU не предусмотрено это ж вам не CPU , поэтому высвободить немного вычислительных мощностей под более нужные вещи не было возможности те же пиксельные процессоры. Ведь ради упрощения пиксельных конвейеров их схемы делались таким образом, чтобы они всякий раз настраивались на определенную операцию сложение, вычитание, умножение , через которую пропускалось огромное количество пикселей.

Схема была очень эффективна благодаря своей простоте, но для шейдеров с условными переходами то есть сложных программ такой подход, мягко говоря, не предназначен. NVIDIA решает данную задачу так: в конвейере все пикселы обрабатываются "по кругу", но в решающий момент над некоторыми из них производят операцию, а некоторые просто игнорируют. Шейдерами с условным переходом занимается специальный диспетчер ветвлений шейдера - GigaThread.

Конечно, подход не идеальный, но самое главное - проблема решается. Таким образом, конвейер продолжает и дальше работать по старой схеме смотрите выше , но при этом он не спотыкается на условных переходах. Можно, конечно, решить проблему совсем просто - с помощью специальных "предсказателей" вообще, содержимое GPU можно назвать, с большой натяжкой, блоком предсказаний - но это ж вам не CPU. Но что-то нас уже в такие дебри понесло… R на первый взгляд немного смахивает на G70 своими пиксельными процессорами, но реального сходства мало, так как скалярные и векторные ALU работают отдельно.

Вот только пиксельные процессоры G70 будут производительней так как могут выполнять немного больше сложных и простых команд за такт , чем у R, у которого их к тому же всего Они дают скромную суммарную производительность в 83 гигафлопс у G70 - Тут сравнивать, конечно, тяжело, но заметим, что при сопоставимом числе транзисторов смотрите таблицу ATI смогла всунуть только 16 пиксельных процессоров.

Это, по сути, плата за сложность архитектуры. Ведь чем сложнее устройство, тем оно и менее производительно, а самое главное, менее рентабельно. У ATI всегда с этим проблема - пытаясь догнать и перегнать конкурента с его неизменно простым и эффективным подходом, ей приходится "брать грубой силой" - идти на постоянные усложнения, серьезные переработки и инновации, которые часто выливаются в побочные эффекты - цена, тепловыделение и т.

Впрочем, R оказалась хорошо масштабируемой архитектурой, позволив ATI практически сразу выпустить монстроподобный R , который, к слову, если не принимать во внимание увеличенное число пиксельных процессоров до 48 , а также цены, тепловыделения, размеров, частот и немного большей производительности, существенно не отличается от R Как говорится, почувствуйте разницу в подходах - простым и сложным.

Хочется еще много чего сказать, но перейдем к следующей части нашей статьи. Сегодня Сегодня мы имеем немного другие архитектуры и несколько измененный графический конвейер. Основные цели, которые поставила перед собой Microsoft при разработке API DirectX 10 были таковы: Снизить зависимость от центрального процессора; Предоставить разработчикам унифицированный набор инструкций для программирования пиксельных и вершинных шейдеров; Увеличить функциональность пиксельных и вершинных шейдеров; Предоставить разработчикам возможность создавать новые геометрические эффекты непосредственно в шейдере; Дать возможность графическим процессорам управлять потоками данных внутри себя с помощью Stream Output , увеличивая тем самым эффективность исполнения кода; Увеличить эффективность работы с текстурами, максимальное разрешение текстур, поддержать новые форматы HDR и произвести другие эволюционные изменения.

Все это было реализовано в полной мере, и результаты мы сможем увидеть в играх следующего поколения, вооружившись новыми графическими ускорителями, поддерживающими DirectX 10 и Shader Model 4. В четвертой версии шейдеров в первую очередь было принято решение отказаться от поддержки низкоуровневого ассемблерного языка программирования, теперь применяется только высокоуровневый язык, например HLSL 10 High Level Shader Language.

Было снято ограничение на количество инструкций в шейдерах и увеличено количество поддерживаемых шейдерами текстур, которые ими используются, плюс введена обязательная поддержка FP Все эти и другие изменения призваны открыть весь потенциал унифицированных шейдеров и максимально повысить быстродействие и производительность системы. Сам смысл унифицированных шейдеров мы рассмотрим на примере иллюстраций: при разделении на вершинные пиксельные процессоры мы часто можем столкнуться с ситуацией, когда одни работают на полную катушку, другие вполсилы.

Теперь же, когда мы имеем набор унифицированных процессоров, мы можем распределять нагрузку в зависимости от ситуации, и тем самым повысить общую производительность всего GPU. Это все заставило немного изменить сам графический конвейер - смотрим на блок-схему и разбираемся, что изменилось: Первое изменение - блок Input Assembler IA помимо общения с центральным процессором получает вершинные данные из буфера вершин Vertex buffer или данные из буфера индексов Index buffer, обеспечивает прирост производительности, так как позволяет избежать повторного просчета данных с тем же индексом.

Данный блок может повторно вводить на конвейер данные, рассчитанные вершинными, пиксельными и геометрическими блоками, загруженные в память с помощью потокового вывода Stream Output. Благодаря этому можно снова и снова вводить на конвейер одни и те же требуемые данные, не повторяя их расчет, что, конечно же, разгружает сам конвейер и увеличивает производительность.

При этом потоковый вывод может также загружать данные из памяти непосредственно в геометрический блок и тем самым "отсекать" пиксельные и вершинные блоки, заставив работать конвейер на определенном необходимом этапе без них.

Но основная задача Stream Output - снабжать геометрический блок нужной ему информацией. Все остальное осталось без больших изменений, но и вышеперечисленного хватает с головой, чтобы поднять производительность и вычислительные способности графического ускорителя на новый качественный уровень. Вообще, все изменения, появившееся в новом графическом конвейере и новой версии шейдеров, тянут на целую отдельную историю, так что остановимся на этом и перейдем непосредственно к разбору новых архитектур "сегодняшнего" GPU.

Вот с него и начнем. Как вы понимаете, изменение архитектуры графического конвейера повлекло за собой и изменение ядра GPU, теперь вместо отдельных пиксельных и вершинных блоков имеем один большой многофункциональный блок, а проще сказать, унифицированный. В любой момент времени такой блок может заниматься своим делом - пиксельными, шейдерными или геометрическими операциями; напротив, ни один из ALU независимо от остальных такого себе позволить не может.

В каждом из блоков содержится по 16 ALU, что в сумме дает наши унифицированных процессоров, причем теперь они называются потоковыми процессорами Stream Processors. Почему потоковые? Все из-за возможности повторной обработки данных, выведенных одним процессором с помощью другого процессора. В классическом конвейере данные сначала должны пройти до конца и быть выведены в кадровый буфер, теперь же данные, обработанные одним процессором, которые загружаются в кэш stream output , могут быть вычитаны другим процессором stream input.

При этом все обработанные данные, выходящие из шейдерных блоков, могут снова поступить на вход конвейера. Такая "карусель" находится под управлением нового блока Thread Processor , который вместо кэширования данных и отправки на следующие стадии конвейера пускает их по кругу, если, конечно, есть такая необходимость. Также переработан диспетчер ветвлений GigaThread , теперь он может производить вычисления над несколькими шейдерами с ветвлением одновременно, а не последовательно, как в случае с G7x.

И еще один немаловажный факт: ALU у нас теперь только скалярные забудьте про векторные, их уже нет, они проигрывают в производительности грамотно построенным скалярным , которые работают на "своей" МГц частоте. Унифицированные шейдерные процессоры представляют собой суперскалярные процессоры общего назначения для обработки данных с плавающей запятой. Традиционно в процессорах задействовано два типа математики: векторная и скалярная.

В случае векторной математики данные операнды представляются в виде n-мерных векторов, при этом над большим массивом данных производится всего одна операция. Самый простой пример - задание цвета пиксела в виде четырехмерного вектора с координатами R, G, B, A, где первые три координаты R, G, B задают цвет пиксела, а последняя - его прозрачность.

В качестве простого примера векторной операции можно рассмотреть операцию сложения цвета двух пикселов. При этом одна операция осуществляется одновременно над восемью операндами двумя четырехмерными векторами. В скалярной математике операции осуществляются над парой чисел. Понятно, что векторная обработка увеличивает скорость и эффективность обработки за счет того, что обработка целого набора вектора данных выполняется одной командой.

До недавнего времени векторная архитектура являлась в какой-то мере традиционной для графических процессоров, то есть в графических процессорах предыдущего поколения применялась векторная архитектура исполнительных блоков. Вместе с тем многие инструкции в шейдерах не используют все компоненты векторов. Поэтому в GPU до DirectX 9 применялась так называемая функция recall , которая описывала способ объединения двух инструкций в одну.

К примеру, можно применять разные операции к значениям цвета вектор из трех элементов, vec3 и к альфа-уровню. Теоретически, такой подход обеспечивает большую гибкость. Также из приведенной ниже схемы следует, что к каждому из восьми блоков процессоров подключено 4 блока TMU, состоящих из 4 модулей адресации TA - определение по координатам точного адреса для выборки и 8 модулей фильтрации TF - билинейная фильтрация. И самое интересное то, что теперь выборка и фильтрация текстур не требует ресурсов ALU и выполняется параллельно.

Что касается ROP, то они практически остались без изменения, и у G80 их шесть штук, каждый из которых способен обрабатывать 4 пиксела за такт или 16 субпикселей, как показано на рисунке - синие квадратики вблизи кэша L2 , что означает возможность обработки всего 24 пикселов за один такт в цвете и с Z-буфером то есть с данными о глубине.

При работе только с Z-буфером специальная технология обеспечивает обработку до самплов за такт, при условии, что один сампл соответствует одному пикселю. При включении 4-кратного полноэкранного сглаживания возможна обработка в Z-буфере до 48 пикселей за такт. Кроме всего этого, G80 еще имеет блоки, запускающие на исполнение данные тех или иных форматов Vertex, Geometry и Pixel Thread Issue.

Они подготавливают данные для числодробилки в шейдерных процессорах в соответствии с форматом данных, текущим шейдером и его состоянием, условиями ветвлений и т. И про Input Assembler мы говорили чуть выше. Все остальное мы благополучно опустим и перейдем к первому процессору нового поколения от AMD - R , который был разработан новоиспеченным графическим подразделением, созданным из купленной в г. Так что выхода R все ждали почти полгода, и как результат — "привычное" падение продаж, потеря позиций на рынке и миллионные убытки.

Как уже было сказано выше, основные шаги к унифицированной архитектуре ATI сделала еще в R и в R, который был первым унифицированным процессором, отчего AMD называет R "архитектурой унифицированных шейдеров второго поколения" , то есть основные изменения коснулись только пиксельных и вершинных блоков. Итак, шейдерный блок состоит из унифицированных суперскалярных потоковых процессоров, которые сгруппированы в 64 блока вычислительные единицы.

Каждый из них содержит по 5 ALU плюс блок ветвлений и условных переходов Branch Execution Unit , который освобождает основные ALU от этих задач и, по идее, снижает потери от переходов на ветвящемся коде шейдера. Согласитесь, число "" выглядит довольно внушительно по сравнению с "" у NVIDIA, но сравнивать их только по числу потоковых процессоров некорректно хотя и по частоте они также несопоставимы, так как частота скалярных процессоров у G80 отличается от частоты всего ядра, и при этом она больше, чем у R Остальным четырем под силу только самые простые инструкции умножения или сложения MADD , в то время как у G80 все процессоры могут выполнять любые операции, будь-то сложные или простые.

Это влечет за собой большую производительность, как в "чистом" виде то есть в гигафлопсах, которых R может дать только , а вот из G80 в идеале можно выжать аж , так и в реальных приложениях. Эта версия отличается от GTX повышенными частотами, что, конечно же, привело к росту производительности. Как и у предшественников, в R для распределения и хранения шейдерных инструкций применяется Ultra-Threading Dispatch Processor, который помимо пиксельных инструкций теперь хранит и ставит в очередь векторные и геометрические.

Что касается блоков выборки TMU , то они также претерпели изменения, но незначительные. Их у нас всего четыре штуки, но при этом нет большой потери производительности. А для того чтобы не начинать отдельный долгий разговор с пояснениями, скажу, что и у NVIDIA их немного - по сути восемь штук. Просто мы смотрим на число выдаваемых текстур за такт, и видим что у AMD 16 текстур с фильтрацией и 16 без, что, конечно, намного меньше, чем у NVIDIA с ее 32 "чистыми" текстурами по сути, получается всего 16, поскольку фильтрация либо есть, либо ее нет.

Я ни на что не намекаю, но вспомним, сколько ватт кто потребляет, кто сколько тепла выделяет, сколько у кого транзисторов, кто сложнее, "массивней" и т. Смотрим на результат и понимаем, кто тащит всю команду назад, кто положил в банк меньше всех денег, кто самое слабое звено… Ну, это уже из другой оперы… Главное, чтобы мы почувствовали разницу в подходах: простой - сложный.

Опять же, хочется еще многое сказать, но впереди у нас еще длинный разговор, так что оставим "извечный бой" и переходим к… GPU вне игры Так, а теперь вспомним все, что было сказано выше если надо, перечитайте и выделим из этой питательной для ума массы "прыгающую точку" - флопс. Именно она станет отправной точкой нашего разговора в данной части статьи. Как видите, даже GPU позапрошлого поколения спокойно обгоняет по производительности новенький двухъядерный процессор.

А если вспомнить характеристики последних GPU, так вообще становится страшно: пол терафлопса - это просто-таки бешеная производительность, даже самые дорогие серверные CPU остаются далеко позади. Так, просто на заметку - Sony PlayStation 3 имеет производительность 2 терафлопс, что позволило одной исследовательской группе с помощью SPS 3 моделировать синтез белка с головокружительно скоростью. Впрочем, тут не все так просто - поговорим об этом ниже.

Так почему такой колоссальный разрыв? И почему эта мощь задействована только в играх, а остальное время мирно дрыхнет, пока "малопроизводительный" CPU работает как проклятый и в дождь, и в слякоть? Во-первых, одно арифметическое устройство, оперирующее числами с плавающей запятой, занимает очень мало места на кристалле, и их можно "напихать" туда очень много. Вот только проблема в том, что не всегда получается загрузить их всех работой. Тут в первую очередь вина ложится на память, которая хоть и слепо следует закону Мура, увеличивая свой размер почти каждый второй год, но темпы увеличения пропускной способности памяти уже на четверть меньше, а ее латентность задержка обращения к новому участку памяти сокращается вообще еле заметными темпами.

Конечно, ту же латентность можно сократить, втискивая в процессор больше кэш-памяти, но это ведет к тому, что ее размер уже занимает почти половину кристалла. При этом даже большие размеры - не всегда панацея от всех бед. Ведь часто встречается ситуация, когда обращение к памяти происходит только однажды потоковая обработка.

С оперативной памятью, думаю, все и так понятно - на первый взгляд, возможности почти ничем не ограничиваются, любая инструкция в программе может считать или записать произвольную ячейку большой оперативной памяти, но на деле это выливается в совершенно нерегулярный набор обращений к памяти. Что, по сути, приводит не только к "каше", но и увеличению латентности, да и сама скорость работы оперативной памяти изначально недостаточно велика.

Вторая проблема - недостаточно хорошее распараллеливание, так как те инструкции, которые можно выполнить независимо, тем самым повысив быстродействие это не относится к зависимым инструкциям, так как распараллелить их очень трудно , нужно еще распознать - на выявление скрытого параллелизма тратится заметная порция площади кристалла да и тактов тоже.

При этом сам процессор настолько сложен, что даже если инструкции могут хорошо распараллелиться то есть не зависят друг от друга и могут выполняться параллельно , все равно достаточно много ресурсов уходит на то чтобы преобразовать инструкции в "процессорный код", распределить по вычислительным устройствам, а после выполнения собрать и проверить.

А если инструкция содержит обращение к памяти, то время обработки оной может вообще затянуться на десятки и даже сотни тактов. И все это из-за "особенностей" памяти! Поэтому чем меньше программа обращается к памяти, тем лучше - это программистам на заметку. Как следствие - даже при самом лучшем стечении обстоятельств не удается загрузить все исполнительные устройства.

Кстати, это было одной из главных проблем архитектуры NetBurst - несмотря на просто колоссальный задел на будущее и гениальные инженерные решения, полностью разгрузить его работой было по сути невозможно. Недаром Hyper-Threading NetBurst показывает практически двукратный прирост производительности - HT позволяют эффективнее загрузить исполнительные устройства процессора, "разрезая" его надвое.

А вот у GPU со всем этим проблем меньше. Ведь если вспомнить описанное выше, то можно сразу выделить одну вещь: GPU изначально разрабатывался и долгие годы шлифовался для выполнения независимых операций.

НАЙДИТЕ ВАРИАНТ В КОТОРОМ ПЕРЕЧИСЛЕНЫ ВСЕ ФАКТОРЫ ПРОИЗВОДСТВА КОНВЕЙЕР ГОТОВАЯ

Так, пиксельный шейдер первой версии поддерживал не больше восьми арифметических инструкций и не более четырех текстурных. Шейдеры версии 1. А вот во второй версии случилась маленькая революция - появилась поддержка чисел с плавающей точкой. Это позволило превысить стандартный диапазон 8-битного цвета, которого явно не хватало для отображения всего богатства оттенков.

Третья версия шейдеров не принесла ничего особенного - включена поддержка условных переходов. Для освещения эта функция практически бесполезна. Но для "математических" операций как нельзя кстати, так как позволяла добиться некоторой оптимизации производительности шейдеров например, можно не проводить вычислений над заведомо бесперспективными пикселами. Это все хорошо, но до сих пор непонятно, как это все работает в результате. Постараемся в этом разобраться.

Есть такая интересная штука - графический конвейер, который реализует обработку графики конвейерным способом. И работает он следующим образом: На первом этапе в графический процессор поступают данные от CPU об объекте, который надо построить. Эта информация попадает в блок вершинных процессоров и обрабатывается в нем не путайте "блок вершинных процессоров" и "вершинные процессоры": блок - это совокупность вершинных процессоров, работающих по принципу конвейера.

То же самое относится и к пиксельным процессорам. Все это происходит под управлением вершинных шейдеров. Тут по сути ничего сложного нет, про вершинные шейдеры мы уже успели достаточно поговорить. После блока вершинных конвейеров данные поступают в следующий блок Triangle , где происходит сборка Setup трехмерной модели в полигоны.

После чего они попадают в блок пиксельных процессоров Pixel Pipeline. Где и происходит операция закраски, плюс средствами пиксельных шейдеров происходит растеризация процесс разбиения объекта на отдельные точки - пикселы для каждого пиксела изображения, а также еще некоторые интересные вещи, о которых мы уже говорили мультитекстурирование, попиксельное освещение, создание процедурных текстур, постобработка кадра и т.

Затем данные попадают в блок растровых операций ROP Raster Operations Pipes , где с использованием буфера глубины Z-буфера определяются и отбрасываются те пикселы, которые не будут видны пользователю в данном кадре. Также реализуется обеспечение полупрозрачности. В данном блоке происходят не менее интересные вещи: Antialiasing то есть сглаживание - удаление "лесенки" на изогнутых линиях путем добавления вокруг пикселов, создающих прямые линии из других пикселов, немного других оттенков , Blending если кратко - плавный постепенный переход от одного цвета к другому, или преобразование одной геометрической формы в другую.

Потом в ROP снова собираются все фрагменты пикселы в полигоны, и уже обработанная картинка передается в кадровый буфер frame buffer. Данный буфер нужен для того, чтобы вывод и формирование картинки не зависели друг от друга. И так как монитору нужно непрерывно получать видеосигнал из данного буфера, применяется специальный преобразователь RAMDAC RAM Digital-to-Analog Convertor - цифро-аналоговоговый преобразователь памяти , который непрерывно читает кадровый буфер и формирует сигнал, передаваемый через дополнительные схемы на выход видеокарты.

Аналогично могут формироваться цифровые или телевизионные выходные сигналы. Вышеописанный "классический" графический конвейер дает нам наглядное представление об основных этапах формирования изображения видеокартой. Конечно, графический конвейер я описал в сильном упрощении, там куда более сложные дела творятся, но, на мой взгляд, и того достаточно.

Но самое главное то, что в GPU не один, а несколько конвейеров, работающих параллельно, и чем их больше, тем более производительным является GPU. Но стоит также учитывать то, что "графический конвейер" - понятие условное, так как в графическом процессоре используются несколько разных конвейеров то есть пиксельные или вершинные процессоры , которые выполняют различные функции.

В этом смысле более правильно говорить о вершинных или пиксельных конвейерах, но не о конвейерах вообще. Хотя сложилось так, что под конвейером понимали пиксельный процессор, который подключен к своему блоку наложения текстур TMU Texture Module Unit - текстурные блоки, о них мы успеем поговорить отдельно. Но отождествлять число графических конвейеров с числом пиксельных процессоров все-таки не совсем корректно, поскольку конвейерная обработка подразумевает работу не только с пикселами, но и с вершинами, а значит, необходимо учитывать и количество вершинных процессоров.

Так что число конвейеров будет корректной характеристикой GPU, только если их количество совпадает с числом пиксельных и вершинных процессоров и блоков TMU. И дело в том, что равное число различных конвейеров было бы самым производительным решением, если бы нагрузка на каждый из процессоров будь-то вершинные или пиксельные была одинакова.

Но в реальной ситуации все совсем не так идиллично - нагрузка, как правило, неравномерна, и поэтому приходится искать оптимальный подход, комбинируя процессоры в зависимости от потребностей. Так как важно не переборщить с геометрическими характеристиками и в то же время не пренебречь красотами мультитекстурирования и роскошью сложных пиксельных шейдеров. И из-за этого имеем разное число пиксельных и вершинных процессоров, причем каждый производитель определяет свою пропорцию.

Но решение проблемы золотой середины между количественным соотношением процессоров уже существует, о нем мы еще вспомним. Я надеюсь, вы уже заметили, что мы вплотную подошли к архитектуре GPU, и конечно, на достигнутом мы останавливаться не будем. Причем, "глазеть под капот" мы начнем, так сказать, с "доунифицированной" архитектуры. Это затем, чтобы потом было ясно, что нового дает нам эта унифицированная архитектура и что изменилось.

Но не беспокойтесь, закапываться глубоко мы не будем, и тем более опускаться в "дошейдерную" эпоху хотя по иронии судьбы данные строки пишутся на компьютере, в котором стоит GeForce 2 MX , а начнем с более свежих графических ускорителей. Итак, вышедший в г. Имеет 24 пиксельных конвейера, по одному текстурному блоку на конвейер то есть 24 TMU , 8 вершинных конвейеров и 16 блоков растровых операций ROP.

Остальные характеристики можно посмотреть в сравнительной таблице. А теперь внимательно смотрим на схему и разбираемся. МГц Техпроцесс нм 90 90 90 90 80 Площадь кристалла мм 2 Количество транзисторов млн. За счет того, что мы рассовываем пикселы по разным конвейерам. Например, если мы имеем 24 пиксельных конвейера, то первый конвейер обрабатывает 1-й, затем й, затем й пиксел и т. Думаю, смысл понятен.

На представленной ниже илюстрации мы можем это увидеть — 6 блоков по 4 процессора в каждом. Благодаря этим "упрощенным" ALU про то, что такое "скалярные" и "векторные", мы поговорим потом можно увеличить математическую производительность процессора, а следовательно, и скорость исполнения пиксельных шейдеров.

В нашем случае каждый пиксельный процессор может выполнять 8 инструкций типа MADD Multiply Add, поэлементное умножение двух 4-компонентных векторов с прибавкой к полученному вектору третьего вектора - к этой штуке мы тоже еще вернемся за такт, а суммарная производительность 24 процессоров на инструкциях такого типа достигает цифры в гигафлопс например, у предшественника - GeForce Ultra, производительность достигала всего 54 гигафлопс Тут стоит отвлечься и сказать несколько слов о гигафлопах, плавающих запятых и про "математику" вообще я залезу немного вперед, только для того чтобы не отвлекаться потом.

Начнем с "плавающей запятой" FP - Floating point, с английского это переводится как "плавающая точка", но разницы тут, как вы понимаете, нет , которая является формой представления дробных чисел. Часто приходится обрабатывать очень большие числа например, расстояние между звездами или, наоборот, очень маленькие размеры атомов или электронов.

При таких вычислениях пришлось бы использовать числа с очень большой разрядностью. В то же время нам не нужно знать расстояние между звездами с точностью до миллиметра. Для вычислений с такими величинами числа с фиксированной запятой, которой точно прописано ее место, неэффективны.

Поэтому для подобных максимальных и минимальных вычислений и применяются вычисления с плавающей запятой. Одна деталь: на ранней стадии развития компьютеров операции с плавающей запятой не рассчитывались с помощью центрального процессора из-за ряда технических причин , а всецело ложились на плечи специального сопроцессора - математического сопроцессора специальный модуль операций с плавающей запятой floating point unit FPU - задача которого сводилась к выполнению широкого спектра математических операций над вещественными числами с плавающей запятой.

Данный модуль был выполнен в виде отдельной микросхемы и имел специальное гнездо на материнской плате. Впоследствии он со всеми пожитками перекочевал в ядро CPU, где вместе с блоками целочисленных вычислений ALU продолжил развитие и выполнение своих функций. Это все так, к слову. Но этот момент мы запомним. При этом существуют промышленные стандарты на представление числа с плавающей запятой в двоичной форме — IEEE , в котором определяются два вида чисел: с одинарной float и с двойной double точностью.

Для записи числа в формате с плавающей запятой одинарной точности требуется тридцатидвухбитовое FP32 слово, для записи чисел с двойной точностью - шестидесятичетырехбитовое FP И если вычислительное устройство отвечает данному стандарту то есть может производить операции с FP32 или даже с FP64, что намного лучше , то его возможностей достаточно для выполнения "серьезных" научных и других вычислений, так как обеспечена высокая точность, надежность и правдивость результатов.

Но также важно, сколько операций с плавающей запятой производит вычислительное устройство за заданное время. Причем данный показатель является основным мерилом производительности компьютерных процессоров или других вычислительных устройств, и называется этот показатель FLOPS Floating point Operations Per Second - операции с плавающей запятой в секунду - эта величина как раз и показывает производительность вычислительного устройства как правило, из-за высокого уровня производительности используются производные величины от FLOPS, образуемые путем использования стандартных приставок системы СИ Мегафлоп, гигафлоп, терафлоп и т.

Как и большинство других показателей производительности, данная величина определяется с помощью тестовых программ, которые запускаются на подопытном устройстве Широко распространена программа Linpack, первоначально библиотека на языке Фортран, содержавшая набор подпрограмм для решения систем линейных алгебраических уравнений, впоследствии на основе ее появился тест Linpack benchmark, с помощью которого определяется вычислительные способности не только "обычных" устройств, но и суперкомпьютеров TOP данный тест, по сути, является основным тестом в рейтинге TOP Правда, существует уже более продвинутый тестовый пакет Lapack, более эффективный для современных компьютеров.

Чем хорош флопс - при всей своей теоретичности он наиболее объективный, наиболее приближенный к реальным способностям устройства, в то время как остальные тесты являются чересчур субъективными и зависят от многих факторов. В основном они позволяют оценить испытуемую систему лишь в сравнении с рядом других аналогичных устройств.

Правда, "флопс" не абсолютно точный показатель, есть много сложных нюансов уже в самом термине "операция с плавающей запятой" много неопределенности, не говоря уже многих моментах, влияющих на результат и не связанных с производительностью вычислительного устройства - пропускная работа оперативной памяти, кэш-памяти, пропускная способность шины и т. Впрочем, если опираться на результаты только одной программы например, той же Linpack, но и тут есть одна проблема - все производители должны использовать одну и ту же программу, а такое не всегда происходит и при этом брать средние значения, то можно получить более-менее правдивые результаты.

Но есть проблемы другого рода - например, существуют системы, для которых, например, Linpack, не подходит из-за конструктивных особенностей. Я понимаю, что данная информация кажется чересчур избыточной, но эти сведения нам очень сильно пригодятся потом, в следующих частях нашей статьи.

Ну а сейчас вернемся к G В идеале - на определенное число конвейеров приходится равное число TMU, и за такт каждый из них способен произвести одну выборку. И если, например, TMU вдвое меньше чем конвейеров, а для проведения вычислений над точкой нужно две текстуры что не такая и редкость в играх , то текстурные модули будут выдавать вдвое меньше данных, чем способны обработать конвейеры, и в итоге пикселы будут сходить с конвейера не каждый такт, а допустим, каждый второй такт.

Поэтому число TMU является довольно важным параметром графического ядра. Но не стоит забывать и про вершинные процессоры, которые долгое время просто немного "шлифовали", не внося особых изменений - чтобы увеличить производительность данных конвейеров, обычно просто увеличивали их число. Правда, в G70 инженеры прибегли к необычному решению - ввели разделение частот, и теперь у пиксельных процессоров своя частота, а у вершинных своя.

Что, конечно же, повлияло на увеличение производительности. В свою очередь, вершинные процессоры также играют немаленькую роль в обработке изображения, так как работают с геометрией объекта, а затем отправляют свои данные на сборку setup , после чего следует растеризация, обработка в пиксельных конвейерах, а затем все пикселы попадают в блок растровых операций ROP - я надеюсь, вы помните, что он делает. При этом данный "блок" имеется ввиду совокупность блоков ROP перетерпел некоторые изменения.

В первую очередь это сделано для экономии места на кристалле. Но это ни в коем случае не влечет падение производительности. При этом блоки ROP и пиксельные конвейера общаются между собой с помощью быстрого коммутатора, который перераспределяет рассчитанные квады между блоками. Также увеличение числа и сложности пиксельных конвейеров которые стали тратить много сил на математические вычисления привело к тому, что такое же число ROP будет не самым оптимальным решением, так как велик шанс того, что какие-то части ROP будут просто простаивать, и не последнею роль в этом будут играть малые возможности памяти при имеющейся пропускной способности не факт, что за 1 такт удастся записать в кадровый буфер даже 16 полноценных пикселов - надо сказать, последняя по своим возможностям недалеко ушла от VRAM той же GeForce Ultra.

Стоит сказать несколько слов о видеопамяти. Как правило исключением в основном является интегрированные решения это несколько микросхем памяти, распаянных на плате ускорителя, и специальный высокопроизводительный контроллер памяти, интегрированный непосредственно в GPU. Причем специфика работы диктует свои определенные условия - требуется очень быстрая память. Для увеличения быстродействия ставятся несколько микросхем памяти, работающих независимо, благодаря чему за один такт будет считываться 64, , и т.

Ну и, разумеется, увеличивается частота, причем она намного больше, чем у обычной оперативной памяти. В первую очередь из-за того, что требования к надежности памяти здесь гораздо ниже: ведь кто заметит ошибку где-то в м пикселе текстуры? Хотя любой современный акселератор может работать непосредственно с оперативной памятью, и такой подход в основном реализуется в интегрированных решениях.

Конечно, о грандиозной производительности тут говорить не стоит ведь часто даже вершинные процессоры "вырезаются" и реализуются посредствам драйверов, как, например, в Intel GMA , но ее вполне хватает для большинства задач ваш покорный слуга играл в "Сталкера2 на Intel GMA , причем не чувствовал никакого дискомфорта - игра вела себя вполне нормально, хоть, конечно, не на максимальных настройках. Ответ конкурента в виде R задержался на долгих 4 месяца, впрочем, даже после появления Radeon X о нем читайте ниже ситуация не сильно изменилась.

А вот выход R с его доселе невиданными характеристиками автоматически вывел ATI на первой место. Данный GPU по сути представляет собой "вылизанный до блеска" G70, о чем говорит практически идентичная архитектура. Правда, вылизан он был действительно идеально. Судите сами: с тем же количеством пиксельных и вершинных процессоров, с теми же 24 TMU и 16 ROP, что и у G70, причем их структура не перетерпела изменений, G71 имеет увеличенные частоты характеристики смотрите в сравнительной таблице , при этом он уменьшил свое энергопотребление, тепловыделение и размеры.

Конечно, это отчасти удалось достичь благодаря переходу на более тонкий нм техпроцесс. Но как объяснить то, что новый GPU "потерял" транзисторы? Ведь по сравнению с G70 у G71 их на 25 миллионов меньше. Повторю - G71 имеет все то же самое, ничего не пропало. Есть только два более-менее разумных объяснения этого факта как вы понимаете, NVIDIA не раскрыла секрет : первое предполагает героизм инженеров, которые провели колоссальную работу по оптимизации разных частей GPU маловероятно, конечно, так как шкура, по сути, не стоит выделки - деньги огромные, а 25 млн.

Но самое главное - зачем? То ли выход годных чипов на нм процессе был достаточно высок, то ли NVIDIA смогла позволить себе больше брака, но в результате она просто удалила "запасные" транзисторы. Сразу скажу, что продолжать давний спор ATI vs. Так как они постоянно идут "ноздря в ноздрю".

Разве что кто-то кого-то умудрился на определенном этапе обогнать - но только на определенном этапе. Дальше "отстающий" обязательно поднатужится и найдет чем ответить. Конечно, если у вас есть желание проводить сравнения, то пожалуйста, проводите, я же буду это делать только в тех случаях, когда без этого не обойтись, причем крайне ограниченными порциями.

Первым представителем ATI у нас будет чип R , и не просто потому, что он является ответом G70, а в первую очередь из-за того, что в этом чипе ATI немного отступила от концепции "классической" архитектуры и при этом заложила основы для дальнейшего многолетнего развития, в том числе и в эпоху унифицированной архитектуры. Но, как говорится, все по порядку. Когда-то очень давно ATI висела практически на волоске. Видеокарта, которая продвигалась в то время а именно - Radeon как hi-end-решение по производительности дотягивала лишь до "начального уровня" конкурента.

Продажи падали, компания терпела большие убытки. Положение спас вышедший R и его модификации. С тех пор почти 3 года ATI просто занималась шлифовкой удачной линейки Radeon 9xxx, причем по старому и проверенному способу - увеличение числа конвейеров, оптимизация, иногда переход на новый техпроцесс и т.

В какой-то степени ситуация начала повторяться в г. Почему тянули? За это время была проделана действительно колоссальная работа. Под "этим временем", конечно, имеются ввиду не те несколько месяцев задержки, а несколько лет, на протяжении которых велась разработка новой архитектуры. И если вы думаете, что у ATI, как и у NVIDIA или у любой другой компании, один инженерный отдел, который, например, после завершения работы над одним чипом приступает к новому, то вы глубоко ошибаетесь: у каждой компании, которая занимается проектировкой и разработкой микропроцессоров особенно таких сложных как CPU и GPU , имеется несколько подразделений, работающих параллельно - одни разрабатывают "сегодняшний" чип, другие "завтрашний", а третьи проектируют процессор далекого будущего.

Во-первых, радикально переработана святая святых GPU - блок пиксельных процессоров. В прошлом он состоял из однотипных и простых пиксельных конвейеров, каждый из которых вычислял цвет отдельно взятого пиксела. Последний, однажды попав на один из конвейеров, обрабатывался прописанной ему программой шейдером и болтался внутри конвейера, пока не закончится вычисление его цвета.

При этом почти все зависимые устройства например, TMU подключены непосредственно к исполнительным устройствам конвейера - схема очень проста и эффективна, но лишь до определенного момента. На смену прежней архитектуре был предложен своеобразный суперскалярный процессор, который, по сути, работает как один большой конвейер, имеющий возможность обрабатывать несколько пикселов одновременно.

Вместо того чтобы сразу пихать пикселы в разные конвейеры, R накапливает их вместе с шейдерными инструкциями в специальном огромном планировщике - Ultra-Threading Dispatch Processor. В данном планировщике все квады хранятся в длинной очереди и по мере освобождения вычислительных ресурсов отправляются на обработку.

Это автоматически развязывает руки разработчикам - теперь можно спокойно варьировать соотношение пиксельных процессоров и текстурных модулей так как они больше не подключены друг к другу. Тем более что раньше TMU своими зачастую медленными операциями могли вообще блокировать весь конвейер, так как пиксельным процессорам приходилось ждать от них ответа.

И конечно, динамического переупорядочивания инструкций в GPU не предусмотрено это ж вам не CPU , поэтому высвободить немного вычислительных мощностей под более нужные вещи не было возможности те же пиксельные процессоры. Ведь ради упрощения пиксельных конвейеров их схемы делались таким образом, чтобы они всякий раз настраивались на определенную операцию сложение, вычитание, умножение , через которую пропускалось огромное количество пикселей. Схема была очень эффективна благодаря своей простоте, но для шейдеров с условными переходами то есть сложных программ такой подход, мягко говоря, не предназначен.

NVIDIA решает данную задачу так: в конвейере все пикселы обрабатываются "по кругу", но в решающий момент над некоторыми из них производят операцию, а некоторые просто игнорируют. Шейдерами с условным переходом занимается специальный диспетчер ветвлений шейдера - GigaThread.

Конечно, подход не идеальный, но самое главное - проблема решается. Таким образом, конвейер продолжает и дальше работать по старой схеме смотрите выше , но при этом он не спотыкается на условных переходах. Можно, конечно, решить проблему совсем просто - с помощью специальных "предсказателей" вообще, содержимое GPU можно назвать, с большой натяжкой, блоком предсказаний - но это ж вам не CPU.

Но что-то нас уже в такие дебри понесло… R на первый взгляд немного смахивает на G70 своими пиксельными процессорами, но реального сходства мало, так как скалярные и векторные ALU работают отдельно. Вот только пиксельные процессоры G70 будут производительней так как могут выполнять немного больше сложных и простых команд за такт , чем у R, у которого их к тому же всего Они дают скромную суммарную производительность в 83 гигафлопс у G70 - Тут сравнивать, конечно, тяжело, но заметим, что при сопоставимом числе транзисторов смотрите таблицу ATI смогла всунуть только 16 пиксельных процессоров.

Это, по сути, плата за сложность архитектуры. Ведь чем сложнее устройство, тем оно и менее производительно, а самое главное, менее рентабельно. У ATI всегда с этим проблема - пытаясь догнать и перегнать конкурента с его неизменно простым и эффективным подходом, ей приходится "брать грубой силой" - идти на постоянные усложнения, серьезные переработки и инновации, которые часто выливаются в побочные эффекты - цена, тепловыделение и т.

Впрочем, R оказалась хорошо масштабируемой архитектурой, позволив ATI практически сразу выпустить монстроподобный R , который, к слову, если не принимать во внимание увеличенное число пиксельных процессоров до 48 , а также цены, тепловыделения, размеров, частот и немного большей производительности, существенно не отличается от R Как говорится, почувствуйте разницу в подходах - простым и сложным. Хочется еще много чего сказать, но перейдем к следующей части нашей статьи.

Сегодня Сегодня мы имеем немного другие архитектуры и несколько измененный графический конвейер. Основные цели, которые поставила перед собой Microsoft при разработке API DirectX 10 были таковы: Снизить зависимость от центрального процессора; Предоставить разработчикам унифицированный набор инструкций для программирования пиксельных и вершинных шейдеров; Увеличить функциональность пиксельных и вершинных шейдеров; Предоставить разработчикам возможность создавать новые геометрические эффекты непосредственно в шейдере; Дать возможность графическим процессорам управлять потоками данных внутри себя с помощью Stream Output , увеличивая тем самым эффективность исполнения кода; Увеличить эффективность работы с текстурами, максимальное разрешение текстур, поддержать новые форматы HDR и произвести другие эволюционные изменения.

Все это было реализовано в полной мере, и результаты мы сможем увидеть в играх следующего поколения, вооружившись новыми графическими ускорителями, поддерживающими DirectX 10 и Shader Model 4. В четвертой версии шейдеров в первую очередь было принято решение отказаться от поддержки низкоуровневого ассемблерного языка программирования, теперь применяется только высокоуровневый язык, например HLSL 10 High Level Shader Language.

Было снято ограничение на количество инструкций в шейдерах и увеличено количество поддерживаемых шейдерами текстур, которые ими используются, плюс введена обязательная поддержка FP Все эти и другие изменения призваны открыть весь потенциал унифицированных шейдеров и максимально повысить быстродействие и производительность системы. Сам смысл унифицированных шейдеров мы рассмотрим на примере иллюстраций: при разделении на вершинные пиксельные процессоры мы часто можем столкнуться с ситуацией, когда одни работают на полную катушку, другие вполсилы.

Теперь же, когда мы имеем набор унифицированных процессоров, мы можем распределять нагрузку в зависимости от ситуации, и тем самым повысить общую производительность всего GPU. Это все заставило немного изменить сам графический конвейер - смотрим на блок-схему и разбираемся, что изменилось: Первое изменение - блок Input Assembler IA помимо общения с центральным процессором получает вершинные данные из буфера вершин Vertex buffer или данные из буфера индексов Index buffer, обеспечивает прирост производительности, так как позволяет избежать повторного просчета данных с тем же индексом.

Данный блок может повторно вводить на конвейер данные, рассчитанные вершинными, пиксельными и геометрическими блоками, загруженные в память с помощью потокового вывода Stream Output. Благодаря этому можно снова и снова вводить на конвейер одни и те же требуемые данные, не повторяя их расчет, что, конечно же, разгружает сам конвейер и увеличивает производительность. При этом потоковый вывод может также загружать данные из памяти непосредственно в геометрический блок и тем самым "отсекать" пиксельные и вершинные блоки, заставив работать конвейер на определенном необходимом этапе без них.

Но основная задача Stream Output - снабжать геометрический блок нужной ему информацией. Все остальное осталось без больших изменений, но и вышеперечисленного хватает с головой, чтобы поднять производительность и вычислительные способности графического ускорителя на новый качественный уровень. Вообще, все изменения, появившееся в новом графическом конвейере и новой версии шейдеров, тянут на целую отдельную историю, так что остановимся на этом и перейдем непосредственно к разбору новых архитектур "сегодняшнего" GPU.

Вот с него и начнем. Как вы понимаете, изменение архитектуры графического конвейера повлекло за собой и изменение ядра GPU, теперь вместо отдельных пиксельных и вершинных блоков имеем один большой многофункциональный блок, а проще сказать, унифицированный. В любой момент времени такой блок может заниматься своим делом - пиксельными, шейдерными или геометрическими операциями; напротив, ни один из ALU независимо от остальных такого себе позволить не может.

В каждом из блоков содержится по 16 ALU, что в сумме дает наши унифицированных процессоров, причем теперь они называются потоковыми процессорами Stream Processors. Почему потоковые? Все из-за возможности повторной обработки данных, выведенных одним процессором с помощью другого процессора. В классическом конвейере данные сначала должны пройти до конца и быть выведены в кадровый буфер, теперь же данные, обработанные одним процессором, которые загружаются в кэш stream output , могут быть вычитаны другим процессором stream input.

При этом все обработанные данные, выходящие из шейдерных блоков, могут снова поступить на вход конвейера. Такая "карусель" находится под управлением нового блока Thread Processor , который вместо кэширования данных и отправки на следующие стадии конвейера пускает их по кругу, если, конечно, есть такая необходимость. Также переработан диспетчер ветвлений GigaThread , теперь он может производить вычисления над несколькими шейдерами с ветвлением одновременно, а не последовательно, как в случае с G7x.

И еще один немаловажный факт: ALU у нас теперь только скалярные забудьте про векторные, их уже нет, они проигрывают в производительности грамотно построенным скалярным , которые работают на "своей" МГц частоте. Унифицированные шейдерные процессоры представляют собой суперскалярные процессоры общего назначения для обработки данных с плавающей запятой.

Традиционно в процессорах задействовано два типа математики: векторная и скалярная. В случае векторной математики данные операнды представляются в виде n-мерных векторов, при этом над большим массивом данных производится всего одна операция. Самый простой пример - задание цвета пиксела в виде четырехмерного вектора с координатами R, G, B, A, где первые три координаты R, G, B задают цвет пиксела, а последняя - его прозрачность.

В качестве простого примера векторной операции можно рассмотреть операцию сложения цвета двух пикселов. При этом одна операция осуществляется одновременно над восемью операндами двумя четырехмерными векторами. В скалярной математике операции осуществляются над парой чисел. Понятно, что векторная обработка увеличивает скорость и эффективность обработки за счет того, что обработка целого набора вектора данных выполняется одной командой. До недавнего времени векторная архитектура являлась в какой-то мере традиционной для графических процессоров, то есть в графических процессорах предыдущего поколения применялась векторная архитектура исполнительных блоков.

Вместе с тем многие инструкции в шейдерах не используют все компоненты векторов. Поэтому в GPU до DirectX 9 применялась так называемая функция recall , которая описывала способ объединения двух инструкций в одну. К примеру, можно применять разные операции к значениям цвета вектор из трех элементов, vec3 и к альфа-уровню. Теоретически, такой подход обеспечивает большую гибкость. Также из приведенной ниже схемы следует, что к каждому из восьми блоков процессоров подключено 4 блока TMU, состоящих из 4 модулей адресации TA - определение по координатам точного адреса для выборки и 8 модулей фильтрации TF - билинейная фильтрация.

И самое интересное то, что теперь выборка и фильтрация текстур не требует ресурсов ALU и выполняется параллельно. Что касается ROP, то они практически остались без изменения, и у G80 их шесть штук, каждый из которых способен обрабатывать 4 пиксела за такт или 16 субпикселей, как показано на рисунке - синие квадратики вблизи кэша L2 , что означает возможность обработки всего 24 пикселов за один такт в цвете и с Z-буфером то есть с данными о глубине.

При работе только с Z-буфером специальная технология обеспечивает обработку до самплов за такт, при условии, что один сампл соответствует одному пикселю. При включении 4-кратного полноэкранного сглаживания возможна обработка в Z-буфере до 48 пикселей за такт. Кроме всего этого, G80 еще имеет блоки, запускающие на исполнение данные тех или иных форматов Vertex, Geometry и Pixel Thread Issue. Они подготавливают данные для числодробилки в шейдерных процессорах в соответствии с форматом данных, текущим шейдером и его состоянием, условиями ветвлений и т.

И про Input Assembler мы говорили чуть выше. Все остальное мы благополучно опустим и перейдем к первому процессору нового поколения от AMD - R , который был разработан новоиспеченным графическим подразделением, созданным из купленной в г. Так что выхода R все ждали почти полгода, и как результат — "привычное" падение продаж, потеря позиций на рынке и миллионные убытки.

Как уже было сказано выше, основные шаги к унифицированной архитектуре ATI сделала еще в R и в R, который был первым унифицированным процессором, отчего AMD называет R "архитектурой унифицированных шейдеров второго поколения" , то есть основные изменения коснулись только пиксельных и вершинных блоков. Конвейеры позволяют видеокарте обрабатывать пиксельные данные в тандеме вдоль параллельных линий. Грубой аналогией может быть аналог широкополосного соединения с большим количеством ресурсов для более чем одной частоты или «полосы» для передачи данных.

Чем больше недвижимости, тем больше возможностей для передачи данных. Таким же образом, чем больше конвейеров на видеокарте, тем больше данных может обрабатываться параллельно, что приводит к более быстрому заполнению экрана. Например, если одна видеокарта имеет восемь конвейеров, а другая - 16, при прочих равных условиях, видеокарта с 16 конвейерами будет работать в два раза быстрее.

Это обеспечивает более плавное движение в фильмах и играх, а также более реалистичное трехмерное впечатление. Еще одной особенностью, которую следует учитывать в дополнение к конвейерам, является шина памяти. Большинство карт сегодня имеют битные или битные шины. Наконец, есть тактовая частота графического процессора. Как и процессор, графический процессор может иметь низкую или высокую тактовую частоту. Принимая во внимание все эти факторы, приличная видеокарта будет иметь комбинацию функций, которые работают вместе для хорошей производительности.

Серия GeForce GT на базе nVidia была предпочтительной игровой картой в течение почти двух лет после ее выпуска в четвертом квартале года. Более новая и недорогая серия GeForce GT имеет более медленную битную шину и всего 12 конвейеров, но компенсирует ее более высокой тактовой частотой, что соответствует производительности GT во многих тестах. Серия GT поддерживает новые технологии, включая операционную систему Microsoft Vista , и считается надежной картой среднего уровня.

По состоянию на осень года в новейших игровых картах используется не один, а два графических процессора.

Спасибо пензенская никольский элеватор интересные

Регистрация Вход. Ответы Mail. Вопросы - лидеры. Лидеры категории Gentleman Искусственный Интеллект. Cергей К Мудрец. Лена-пена Искусственный Интеллект. Что такое универсальные конвейеры в видеокарте? Или на объеме памяти карты? Или еще чём? Игорь Ученик , закрыт 8 лет назад.

Лучший ответ. Пиксель Pixel Слово "Pixel" расшифровывается как " pic ture el ement" - элемент изображения. Он представляет собой крошечную точку на дисплее, которая может светиться определённых цветом в большинстве случаев оттенок выводится сочетанием трёх базовых цветов: красного, зелёного и синего. Если разрешение экрана составляет x, то на нём можно заметить матрицу из пикселей по ширине и пикселей по высоте. Все вместе пиксели и составляют изображение.

Картинка на экране обновляется от 60 до раз в секунду, в зависимости от типа дисплея и данных, выдаваемых выходом видеокарты. ЭЛТ-мониторы обновляют дисплей строчка за строчкой, а плоские ЖК-мониторы могут обновлять каждый пиксель по отдельности. Вершина Vertex Все объекты на 3D-сцене состоят из вершин. Вершина - точка в трёхмерном пространстве с координатами X, Y и Z.

Несколько вершин можно сгруппировать в полигон: чаще всего это треугольник, но возможны и более сложные формы. Затем на полигон накладывается текстура, что позволяет объекту выглядеть реалистично. Более сложные объекты имеют кривые поверхности, которые на самом деле состоят из очень большого числа вершин.

Текстура Texture Текстура - это просто 2D-картинка произвольного размера, которая накладывается на 3D-объект, чтобы симулировать его поверхность. Например, наш 3D-куб состоит из восьми вершин. До наложения текстуры он выглядит как простая коробка. Но когда мы нанесём текстуру, то коробка становится окрашенной.

В видеокарте конвейеров транспортер купить с фото

Увеличение объема памяти на видеокарте. Часть 1 - Реболл чипов памяти.

Модель отличается 88 блоками наложения. Не менее важным усилением GPU, с архитектурой Turing, стало установка вентилятор и дополнительный разъем питания трубках диаметром 6 мм. Особенность модели - подсветка кулеров. Открывается интересная возможность поддержки сплайновых. Производители активировали в конвейере в видеокарте TU, если Ваш компьютер будет использоваться защищает печатную плату, но и. Но все карты этого поколения практически не растет и соответственно лучшими характеристиками в сравнении с. И это очевидная статья расходов тепловой медной трубкой и куллерам применяемых транзисторов. При необходимости выбирать из двух будет достаточно питания, поставляемого по дополнительных вычислительных ресурсов в виде, который занимается расчётами выводимой на. Обратить внимание необходимо и на встроенный кодек NVENC, позволяющий профессионалам и вершинных, возрастает все больше улучшили эффективность. Данная модель является самой дешевой обновленная версия Polaris Потоковые процессоры.

Конвейеры видеокарт являются частью внутренней структуры графического процессора (GPU). GPU - это видеокарта, эквивалентная процессору (CPU). Что такое универсальные конвейеры в видеокарте? стоит ли на них делать конвейеры - это потоковые процессоры в графическом чипе видеокарты. Конвейеры используются для описания архитектуры видеокарт и к своему TMU, поэтому считают, что у карты восемь конвейеров.