Jump to content

какой проц Core i7-980 или i7-2600K лучше для обработки прерываний от сетевухи E1G44


Recommended Posts

У меня в топовых soft-router-ах именно по 6 RDIMM 1G.

И ты говоришь про скорость? Бесплатно лишил себя 8% скорости памяти :)

Link to post
Share on other sites
  • Replies 145
  • Created
  • Last Reply

Top Posters In This Topic

Top Posters In This Topic

Popular Posts

A ще краще поставте FreeBSD. Така машина може до 2 Гбіт. жувати.

+1

Блин, вот зачем вы его трогали? По теме: стоит Q9550 + E1G44ET, жует около 1.5 гигов, не жужжит. Нагрузка 4-х CPU ~ 40%. Особого тюнинга нет (все вроде общеизвестное), есть даже кое-какой conntrack

У меня в топовых soft-router-ах именно по 6 RDIMM 1G.

И ты говоришь про скорость? Бесплатно лишил себя 8% скорости памяти :)

 

"Скорость", а на самом деле пропускная способность интерфейса модуля памяти (memory bandwidth) - это не латентность. Да, я жертвую пропускной способностью в пользу уменьшения латентности для маршрутизаторов.

Link to post
Share on other sites

У меня в топовых soft-router-ах именно по 6 RDIMM 1G.

И ты говоришь про скорость? Бесплатно лишил себя 8% скорости памяти :)

"Скорость", а на самом деле пропускная способность интерфейса модуля памяти (memory bandwidth) - это не латентность. Да, я жертвую пропускной способностью в пользу уменьшения латентности для маршрутизаторов.

В корне не верно. Пропускная способность ниже на 8.5% как в статье, а латентность выше, и вероятно на куда большую величину.

Link to post
Share on other sites

В корне не верно. Пропускная способность ниже на 8.5% как в статье, а латентность выше, и вероятно на куда большую величину.

 

А латентность ниже, как в статье:

Therefore, for two or more DIMMs per channel, RDIMMs will have lower latency.

 

Латентность - это грубо говоря фаза. К примеру в свое время у GDDR3 для G80 латентность достигала 200-300 тактов при случайных обращениях к памяти. При последовательном чтении 2-3 такта! Поэтому данные приходлось предоставлять так, что бы чтения в цикле ишли последовательно дабы не рвался конвейер и "346 Gflop" этого процессора не простаивали, а вычислительный конвейер был постоянно загружен данными. При этом пропускной способности GDDR3 на то время были не достижимы для DDR2.

Link to post
Share on other sites

В корне не верно. Пропускная способность ниже на 8.5% как в статье, а латентность выше, и вероятно на куда большую величину.

 

А латентность ниже, как в статье:

Therefore, for two or more DIMMs per channel, RDIMMs will have lower latency.

 

Латентность - это грубо говоря фаза. К примеру в свое время у GDDR3 для G80 латентность достигала 200-300 тактов при случайных обращениях к памяти. При последовательном чтении 2-3 такта! Поэтому данные приходлось предоставлять так, что бы чтения в цикле ишли последовательно дабы не рвался конвейер и "346 Gflop" этого процессора не простаивали, а вычислительный конвейер был постоянно загружен данными. При этом пропускной способности GDDR3 на то время были не достижимы для DDR2.

Правильно, потому и я просил прочитать статью полностью.. При 2 модулях на канал латентность ниже а пропускная способность RDIMM будет выше чем UDIMM. Но ниже чем для 1 модуля UDIMM :) Так что ты заплатил деньги за снижение скорости своих топ-роутеров.

 

Раз ересь прогрессирует(300 тактов для GDDR3 это что-то новое), проведем краткий ликбез. Производительность памяти прямо пропорциональна пропускной способности и так тобой любимой латентности.

Вопрос на внимательность. Где латентность будет ниже, у pc133, ddr400, ddr2-800 или ddr3-1066 как в случае твоих софт-роутеров, и во сколько раз?

И почему P4 с ddr400 таки маршрутизирует медленнее в разы?

Link to post
Share on other sites

В корне не верно. Пропускная способность ниже на 8.5% как в статье, а латентность выше, и вероятно на куда большую величину.

 

А латентность ниже, как в статье:

Therefore, for two or more DIMMs per channel, RDIMMs will have lower latency.

 

Латентность - это грубо говоря фаза. К примеру в свое время у GDDR3 для G80 латентность достигала 200-300 тактов при случайных обращениях к памяти. При последовательном чтении 2-3 такта! Поэтому данные приходлось предоставлять так, что бы чтения в цикле ишли последовательно дабы не рвался конвейер и "346 Gflop" этого процессора не простаивали, а вычислительный конвейер был постоянно загружен данными. При этом пропускной способности GDDR3 на то время были не достижимы для DDR2.

Правильно, потому и я просил прочитать статью полностью.. При 2 модулях на канал латентность ниже а пропускная способность RDIMM будет выше чем UDIMM. Но ниже чем для 1 модуля UDIMM :) Так что ты заплатил деньги за снижение скорости своих топ-роутеров.

 

Раз ересь прогрессирует(300 тактов для GDDR3 это что-то новое), проведем краткий ликбез. Производительность памяти прямо пропорциональна пропускной способности и так тобой любимой латентности.

Вопрос на внимательность. Где латентность будет ниже, у pc133, ddr400, ddr2-800 или ddr3-1066 как в случае твоих софт-роутеров, и во сколько раз?

И почему P4 с ddr400 таки маршрутизирует медленнее в разы?

 

Бред полнейший.

 

Global memory additional 200 to 300 clock cycles

of memory latency

http://www.eecis.udel.edu/~mpellegr/eleg662-09s/li.pdf

 

Аналогичная информация есть в официальных мануалах по CUDA версии 0.8-1. Просто сейчас не под рукой.

 

 

Да, представьте себе латентность при последовательном доступе и произвольном будет различной. Пропускная способность определяется при последовательном чтении/записи. Ну и что? А в реальной то жизни доступ произвольный, софт под последовательное чтение/запись никто не оптимизирует!

Link to post
Share on other sites

Латентность - это грубо говоря фаза.

Это очень грубо говоря. Там может сантехник говорить, а не надежда и будущее нашего телекома..

 

Латентность не более чем время, затрачиваемое на выборку нужных данных. И возникает она благодаря тому что физически чипы памяти работают на граничных частотах порядка 200Мгц, а все дальнейшие усовершенствования направлены лишь на расширение шины чипов.

Link to post
Share on other sites

Global memory additional 200 to 300 clock cycles

of memory latency

http://www.eecis.udel.edu/~mpellegr/eleg662-09s/li.pdf

 

Аналогичная информация есть в официальных мануалах по CUDA версии 0.8-1. Просто сейчас не под рукой.

А не смущает надпись CUDA memory model? Какое отношение эта писанина имеет вообще к работе памяти?

Link to post
Share on other sites

Латентность - это грубо говоря фаза.

Это очень грубо говоря. Там может сантехник говорить, а не надежда и будущее нашего телекома..

 

Латентность не более чем время, затрачиваемое на выборку нужных данных. И возникает она благодаря тому что физически чипы памяти работают на граничных частотах порядка 200Мгц, а все дальнейшие усовершенствования направлены лишь на расширение шины чипов.

 

Да то что я пишу уже бы понял сантехник. А вы никак не поймете. Латентность - то время (в циклах) ожидания между запросом процессора на получение ячейки с информацией из памяти и временем, когда оперативная память сделает первую ячейку доступной для чтения. Это фаза. Все последующие ячейки в этой строке или столбце в зависимости от структуры памяти уйдут соотв. без задержки! Именно так и меряют пропускную способность - при последовательном чтении из памяти. При произвольном доступе - латентность будет возникать при доступе к каждой ячейке.

 

Это всеравно, что вы скажите, что время отклика (задержка/латентность) определяет/влияет на пропускную способность линии связи. Вы бредите!

 

А не смущает надпись CUDA memory model? Какое отношение эта писанина имеет вообще к работе памяти?

 

Непосредственное.

Link to post
Share on other sites

Латентность - это грубо говоря фаза.

Это очень грубо говоря. Там может сантехник говорить, а не надежда и будущее нашего телекома..

 

Латентность не более чем время, затрачиваемое на выборку нужных данных. И возникает она благодаря тому что физически чипы памяти работают на граничных частотах порядка 200Мгц, а все дальнейшие усовершенствования направлены лишь на расширение шины чипов.

 

Да то что я пишу уже бы понял сантехник. А вы никак не поймете. Латентность - это время затрачиваемая то время (в циклах) ожидания между запросом процессора на получение ячейки с информацией из памяти и временем, когда оперативная память сделает первую ячейку доступной для чтения. Это фаза. Все последующие ячейки в этой строке или столбце в зависимости от структуры памяти уйдут соотв. без задержки! Именно так и меряют пропускную способность. При произвольном доступе - латентность будет возникать при доступе к каждой ячейке.

Вот то уже ближе к телу. Еще мой вопрос по латентности pc133, ddr400, ddr800 и ваших ddr3-1066 остался.

Link to post
Share on other sites

Вот то уже ближе к телу. Еще мой вопрос по латентности pc133, ddr400, ddr800 и ваших ddr3-1066 остался.

 

Этот вопрос останется вам на самоподготовку. Только для начала разберитесь для себя от куда берутся эти самые 400, 800, 1066 и что означают эти цифры.

Link to post
Share on other sites

Вот то уже ближе к телу. Еще мой вопрос по латентности pc133, ddr400, ddr800 и ваших ddr3-1066 остался.

Этот вопрос останется вам на самоподготовку. Только для начала разберитесь для себя от куда берутся эти самые 400, 800, 1066.

Обидно считать стало или действительно не понимаете?

Постом выше начал описывать что есть эти ddr, неужели надо разжевать еще и как широкая шина с частотой 200мгц превращается в стандартные 64 бит и частотой 2-4-8х?

Link to post
Share on other sites

Обидно считать стало или действительно не понимаете?

Постом выше начал описывать что есть эти ddr, неужели надо разжевать еще и как широкая шина с частотой 200мгц превращается в стандартные 64 бит и частотой 2-4-8х?

 

Разжовывайте, описуйте шум леса, никогда в нем не побывав... делайте все что угодно. У меня есть возможность тестировать UDIMM и RDIMM на миллионах pps в топовых конфигурациях серверов с лучшими Ethernet контроллерами. Лучшую производительность показали 6хRDIMM для двух процессоров серии Xeon 55xx/56xx. Я их и использую и всем рекомендую. Еще раз намекну, что задаче - задаче рознь. Есть задачи вычислительные, а есть задачи интенсивной обработки прерываний, есть синтетические тесты выполняющие последовательное чтение-запись, есть произвольный доступ...

Link to post
Share on other sites

Что рисовать? что при сохранении значения в стек оно попадет сначала в кеш, который write-back? Или что при вызове прерывания кеш не переключается в write-through и не отключается?

 

Это ваша сексуальная фантазия?

Нет, ваша:

Ну вот давайте распишем сохранение одного регистра в стек. Что там у вас с латентностью? 1 такт, да?

 

 

Так, на будущее. Количество прерываний слабо коррелирует с пропускной способностью.

Так, на будущее. Средний размер пакета типичного soho траффика - в районе 800-1000 байт. 800 мбит обеспечивает где-то 100 кппс. Т.е. - при отсутствии interrupt moderation 100000 прерываний в секунду.

 

У меня средний размер пакетов 80-90байт. Такого траффика 2-3Г "в каждую сторону"

80-90 байт? При том, что 40 байт - только заголовок пакета? У вас что, основной объем траффика - ACK-пакеты и короткие ICMP? Это что получается, для 3 гбит в каждую сторону у вас 8 Мппс в сумме???

 

Латентность памяти зависит не столько от таймингов, сколько от типа используемой памяти.

Открою вам огромный секрет: латентность - это и есть те самые тайминги. В чем измеряется - в наносекундах или в тактах шины, или в попугаях - другой вопрос. И полная латентность подсистемы памяти состоит как из латентности модулей памяти, так и из латентности контроллера памяти/контроллера FSB(если таковой имеется)/etc.

То, что разные типы памяти имеют разные тайминги - вы однако открытия не сделали.

Link to post
Share on other sites

80-90 байт? При том, что 40 байт - только заголовок пакета? У вас что, основной объем траффика - ACK-пакеты и короткие ICMP? Это что получается, для 3 гбит в каждую сторону у вас 8 Мппс в сумме???

 

Да, представьте себе что есть такие задачи 80-90 байт c пейлоадом/udp/ip/ethernet. Да, представьте себе до 3-4Мппс на софтроутере.

 

 

Открою вам огромный секрет: латентность - это и есть те самые тайминги. В чем измеряется - в наносекундах или в тактах шины, или в попугаях - другой вопрос. И полная латентность подсистемы памяти состоит как из латентности модулей памяти, так и из латентности контроллера памяти/контроллера FSB(если таковой имеется)/etc.

То, что разные типы памяти имеют разные тайминги - вы однако открытия не сделали.

 

О, ну вы дальше продвинулись чем кайот с конвейером.

Link to post
Share on other sites

Обидно считать стало или действительно не понимаете?

Постом выше начал описывать что есть эти ddr, неужели надо разжевать еще и как широкая шина с частотой 200мгц превращается в стандартные 64 бит и частотой 2-4-8х?

У меня есть возможность тестировать UDIMM и RDIMM на миллионах pps в топовых конфигурациях серверов с лучшими Ethernet контроллерами. Лучшую производительность показали 6хRDIMM для двух процессоров серии Xeon 55xx/56xx. Я их и использую и всем рекомендую. Еще раз намекну, что задаче - задаче рознь. Есть задачи вычислительные, а есть задачи интенсивной обработки прерываний, есть синтетические тесты выполняющие последовательное чтение-запись, есть произвольный доступ...

Чего ж вы тогда выбрали для своих задач дорогой и не самый производительный вариант если есть возможность тестировать? Значит купил когда-то сервер в такой конфигурации как менеджер насоветовал, и с тех пор всем советую, причем как истину в последней инстанции. А всех несогласных заставляю рисовать конвеер не разрывая его, ну или граф оптимизировать))

 

Кстати истина с каждым постом все ближе. 6хRDIMM у вас на двухпроцессорной системе, правильно? В итоге по 1 модулю на канал - по вашей ссылке бессмысленный конфиг с бесцельно заплаченными деньгами. 6х обычных ECC модулей были бы быстрее и дешевле, но нет, вы минимизируете латентность и боретесь с разрывами.

Link to post
Share on other sites

О, ну вы дальше продвинулись чем кайот с конвейером.

Уважаемый, так почему вы не остановили свой выбор на древней системе с ddr400 а зачем-то заморочились с ddr3? У нее ведь латентность ощутимо ниже, или это уже не столь и важно оказывается?

Link to post
Share on other sites

Чего ж вы тогда выбрали для своих задач дорогой и не самый производительный вариант если есть возможность тестировать? Значит купил когда-то сервер в такой конфигурации как менеджер насоветовал, и с тех пор всем советую, причем как истину в последней инстанции. А всех несогласных заставляю рисовать конвеер не разрывая его, ну или граф оптимизировать))

 

Кстати истина с каждым постом все ближе. 6хRDIMM у вас на двухпроцессорной системе, правильно? В итоге по 1 модулю на канал - по вашей ссылке бессмысленный конфиг с бесцельно заплаченными деньгами. 6х обычных ECC модулей были бы быстрее и дешевле, но нет, вы минимизируете латентность и боретесь с разрывами.

 

Я для своих задач закупаю десятки серверов класса DELL R610 или R410. Собираю в конфигураторе DELL. Имею возможность поставить все что угодно. Я тестировал на задачах порядка 3Мппс сервер с UDIMM и RDIMM в полностью идентичной конфигурации. Сервер на этой задаче с RDIMM показал лучшую производительность на 10-15%.

Link to post
Share on other sites

Уважаемый, так почему вы не остановили свой выбор на древней системе с ddr400 а зачем-то заморочились с ddr3? У нее ведь латентность ощутимо ниже, или это уже не столь и важно оказывается?

 

Латентность самих модулей памяти ниже, латентность подсистемы памяти намного выше.

Link to post
Share on other sites

Я для своих задач закупаю десятки серверов класса DELL R610 или R410. Собираю в конфигураторе DELL. Имею возможность поставить все что угодно. Я тестировал на задачах порядка 3Мппс сервер с UDIMM и RDIMM в полностью идентичной конфигурации. Сервер на этой задаче с RDIMM показал лучшую производительность на 10-15%.

Забавно. Жаль что ваш опыт никогда не совпадает ни с теорией, ни с логикой, ни с опытом других, ни даже с многократно вами же цитируемым делловским гайдом.

 

Уважаемый, так почему вы не остановили свой выбор на древней системе с ddr400 а зачем-то заморочились с ddr3? У нее ведь латентность ощутимо ниже, или это уже не столь и важно оказывается?

Латентность самих модулей памяти ниже, латентность подсистемы памяти намного выше.

Это уже клиника. Почему выше? Насколько?

У athlon 64 с интегрированным контроллером латентность всегда была ощутимо ниже чем у корок на 775ом сокете. Но общая скорость подсистемы памяти оставляла желать лучшего, как так?

Link to post
Share on other sites

Забавно. Жаль что ваш опыт никогда не совпадает ни с теорией, ни с логикой, ни с опытом других, ни даже с многократно вами же цитируемым делловским гайдом.

 

Статья делл - это руководство к размышлению и является истиной исключительно для синтетических тестов, который там применялись. Я вот взял, протестировал и получил противоположный результат для другой задачи. А вы?

 

Это уже клиника. Почему выше? Насколько?

У athlon 64 с интегрированным контроллером латентность всегда была ощутимо ниже чем у корок на 775ом сокете. Но общая скорость подсистемы памяти оставляла желать лучшего, как так?

 

Линия связи Киев-Минск-Москва имеет время отклика 8 мс. А Киев-Харьков-Москва 14 мс. Но на линии Киев-Минск-Москва задействована 1 DWDM лямбда и пропускная способность линии 10Г, а на линии Киев-Харьков-Москва задействовано 40 лямбд и пропускная способность 400Г. Как то так, все что я хотел, что бы вы поняли, что время отклика/задержка/латентность не определяют ПРОПУСКНУЮ способность.

 

Есть задачи где важна минимальная латентность, есть задачи, где важна максимальная пропускная способность.

Link to post
Share on other sites

Ну "идиоты" эти ребята из Интел, вот бы кайот с нитро их поучили собирать маршрутизаторы:

http://download.intel.com/embedded/applications/networksecurity/323814.pdf

 

C

onfiguration details for 50 percent lower idle power: Intel internal measurements of 221w at idle with Supermicro 2xe5450 (3.0ghz 80w) processors, 8x2gb 667Mhz FbDIMMs,

1

1x700w PSU, 1x320gb SaTa hard drive vs. 111w at idle with Supermicro software development platform with 2xe5540 (2.53ghz Nehalem 80w) processors, 6x2gb DDr3-1066

rDIMMs, 1x800w PSU, 1x150gb 10k SaTa hard drive. both systems were running windows* 2008 with USb suspend select enabled and maximum power savings mode for

PCIe* link state power management. Measurements as of February 2009.

Link to post
Share on other sites

Хорошо, последний мой пост.

Therefore, for two or more DIMMs per channel, RDIMMs will have lower latency and better bandwidth than UDIMMs.

У меня в топовых soft-router-ах именно по 6 RDIMM 1G.

Т.е. в вашем случае для двухпроцесорной системы используется по 1 модулю на канал, но магическим образом, вопреки всему, роутер работает на 10-15% быстрее. А не на 0.5% медленее как должен.

 

Линия связи Киев-Минск-Москва имеет время отклика 8 мс. А Киев-Харьков-Москва 14 мс. Но на линии Киев-Минск-Москва задействована 1 DWDM лямбда и пропускная способность линии 10Г, а на линии Киев-Харьков-Москва задействовано 40 лямбд и пропускная способность 400Г. Как то так, все что я хотел, что бы вы поняли, что время отклика/задержка/латентность не определяют ПРОПУСКНУЮ способность.

На маршрутизаторе мне нужна не "быстрая" память, а память имеющая наименьшую латентность.

Определитесь наконец, нужна ли вам латентность, или все-таки скорость памяти.

Link to post
Share on other sites

Хорошо, последний мой пост.

Therefore, for two or more DIMMs per channel, RDIMMs will have lower latency and better bandwidth than UDIMMs.

У меня в топовых soft-router-ах именно по 6 RDIMM 1G.

Т.е. в вашем случае для двухпроцесорной системы используется по 1 модулю на канал, но магическим образом, вопреки всему, роутер работает на 10-15% быстрее. А не на 0.5% медленее как должен.

 

Линия связи Киев-Минск-Москва имеет время отклика 8 мс. А Киев-Харьков-Москва 14 мс. Но на линии Киев-Минск-Москва задействована 1 DWDM лямбда и пропускная способность линии 10Г, а на линии Киев-Харьков-Москва задействовано 40 лямбд и пропускная способность 400Г. Как то так, все что я хотел, что бы вы поняли, что время отклика/задержка/латентность не определяют ПРОПУСКНУЮ способность.

На маршрутизаторе мне нужна не "быстрая" память, а память имеющая наименьшую латентность.

Определитесь наконец, нужна ли вам латентность, или все-таки скорость памяти.

 

см. выше. У меня есть результаты своих тестов и конфигурация тестовой платформы Интел и Vyatta на 20Мппс, а у вас от мертвого осла уши и это не фигура речи.

Link to post
Share on other sites

Ну "идиоты" эти ребята из Интел, вот бы кайот с нитро их поучили собирать маршрутизаторы:

http://download.intel.com/embedded/applications/networksecurity/323814.pdf

 

C

onfiguration details for 50 percent lower idle power: Intel internal measurements of 221w at idle with Supermicro 2xe5450 (3.0ghz 80w) processors, 8x2gb 667Mhz FbDIMMs,

1

1x700w PSU, 1x320gb SaTa hard drive vs. 111w at idle with Supermicro software development platform with 2xe5540 (2.53ghz Nehalem 80w) processors, 6x2gb DDr3-1066

rDIMMs, 1x800w PSU, 1x150gb 10k SaTa hard drive. both systems were running windows* 2008 with USb suspend select enabled and maximum power savings mode for

PCIe* link state power management. Measurements as of February 2009.

Теперь точно последний :blink:

У вас или очень плохо с английским(так на кой кидать ссылки на англоязыную документацию?), или просто отсутствует мозг. Ну черным по белому написано, типовые конфигурации для сравнения энергопотребления систем с разными поколениями ксеонов.. 8х2 и 6х2 для максимально близкого объема RAM на платформах с разным числом каналов. При чем тут роутеры и ваши фобии??

Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
  • Recently Browsing   0 members

    No registered users viewing this page.


×
×
  • Create New...