errorrishe (
errorrishe) wrote2017-03-27 08:35 pm
(no subject)
по работе из интереса потыкал палкой pandas
ощущения странные - вроде как тьма возможностей но я постоянно натыкаюсь на какие то не совсем гладкие углы. Но инструмент похоже зачетный
вообще есть некоторая зависть нынешнему поколению - уж очень много хороших бесплатных инструментов появилось
раньше надо было воровать matlab если хотелось чего то такого
теперь от количества всего всего для математики ML и AI глаза разбегаются
вторая возникшая мысль - не попробовать ли вместо сооружения залипухи на пандах и чьей то матери притянуть к этому делу spark - но пока есть ощущение что это некий оверкил
хотя данных не то что бы мало ( ну сотни гиг, кусками по 2-4 гига в батче который надо обрабатывать) но и не много что бы ебаться с кластерами. Плюс растет это хозяйство очень медленно. Пока не решил( тк кажется мне что learning curve у Spark по круче)
ощущения странные - вроде как тьма возможностей но я постоянно натыкаюсь на какие то не совсем гладкие углы. Но инструмент похоже зачетный
вообще есть некоторая зависть нынешнему поколению - уж очень много хороших бесплатных инструментов появилось
раньше надо было воровать matlab если хотелось чего то такого
теперь от количества всего всего для математики ML и AI глаза разбегаются
вторая возникшая мысль - не попробовать ли вместо сооружения залипухи на пандах и чьей то матери притянуть к этому делу spark - но пока есть ощущение что это некий оверкил
хотя данных не то что бы мало ( ну сотни гиг, кусками по 2-4 гига в батче который надо обрабатывать) но и не много что бы ебаться с кластерами. Плюс растет это хозяйство очень медленно. Пока не решил( тк кажется мне что learning curve у Spark по круче)
no subject
Но спарк такая говнюха внутри, боже мой, боже мой. Каждый раз хочется все переписать.
no subject
нет у меня веры в то что такой опен сорц без жирного спонсора с людьми на full time реален :|
на одной интерграции с готовыми пакетами весь энтузиазм быстро кончиться кмк
no subject
Імхо, скейлинг краще тримати під ручним контролем, поки є можливість.
P.S. Можливо курс поганий (він дійсно говнистий і сирий), можливо сам Спарк, можливо і те, і друге. Можливо, розподілені системи по своїй природі важкі.
no subject
всякие геморои были когда пытался начать а теперь сроки просраны смысла нет. Можно конечно лекции посмотреть составить впечатление получше ( я на edx.org пол курса уже как то проходил маленького)
там у них было все через databriks аккаунт но тоже было впечатление не очень гладкого повествования и лаб.
no subject
no subject
в принципе можно не морочаться и слепить скриптики на pandas которые будут рисовать нужные несколько десятков графиков без необходимости поднимать какие то сервисы
no subject
no subject