«Укрощение больших чисел» Билл Фрэнкс „Манн, Иванов и Фербер“, Москва 2014.
Терабайт, петабайт, эксабайт и далее
«Хватит про политику, а налейте аналитику!»
Степан Балакин
Стремительный прогресс «компьютерного» тренда идет прямо наших глазах! Наверняка многие еще помнят „хитовый 386-ой“ с жестким диском на 500 Мб. Потом пошел ряд Pentium и термин „Гигабайт“ уже прочно вошел в повседневную жизнь. А ведь если включить ассоциативное мышление, то 1 Гб вмещает объем данных, равный информации из книг, стоящих на полке длиной 9 метров! Но и это еще не все, казавшееся
Во время учебы в аспирантуре, при расчете аэродинамики самолетов, я сталкивался с большими (на тот момент казавшиеся мне ГИГАНТСКИМИ) массивами данных — матрица 10000*10000. Расчет по таким выходным данным занимал порядка недели! Не хочу даже писать про порядок обрабатываемых современных цифровых массивов в этой отрасли, дабы не испугать читателя: -) Иной раз с грустью ностальгируешь о том, что смог бы достичь академических вершин, будь на тот момент современная вычислительная техника. Ну, ладно, как говорит пословица: «Хороша ложка к обеду!», да и работа с большими массивами информации уже давно ушла из чисто научной стези в окружающий мир.
Некоторое время назад Мэр Москвы «бил себя кулаком в грудь» и клятвенно обещал, что с пробками будет покончено в ближайшее время. Прошли годы, а Столица как стояла, так и продолжает „стоять“. Но вот если бы вместо недалеких административных решений, провели углубленный статистический анализ, при этом каждую машину в Москве, снабдив миниатюрным передатчиком, а все данные сводили бы в „Единый Аналитический Центр“, то уже в течение месяца можно было понять: какой светофор, перекрывает движение на 15 сек больше необходимого; где находятся лишние ограничивающие знаки; какое круговое движение лучше превратить в перекресток, а какое наоборот; где ввести/убрать одностороннее движение; где и когда нужен реверс и пр. Но одно дело говорить о современных технологиях, другое — научиться их эффективно применять. Так что прогнозирую, что пока, Москва будет стоять, стоять и стоять!
Билл Фрэнсис, автор книги, не только прошел длинный путь бок о бок со стремительным развитием больших данных, но и принимал непосредственное участие в этом процессе. Сейчас он находится на самом острие современного аналитического подхода по обработке громадных массивов информации в компании Teradata, занимая пост Директора по аналитике. Наряду с подробным рассмотрением яркого «цифрового» тренда, Билл в дополнении слагает „песнь об аналитиках“, сразу отбрасывая популярное убеждение, что при „дружественном интерфейсе и автоматической системе отчетности“ любой непрофильный специалист „обуздает“ Big Data. Компьютер — это всего лишь инструмент для проведения анализа, а первоначальная постановка проблемы, выбор алгоритма решения, интерпретация результата в свете дальнейших действий компании – профессиональная „вотчина аналитика“ и вход на данную территорию без соответствующих навыков — крайне не желателен!
На протяжении всей книги Билл Фрэнкс неоднократно подчеркивает: «Успех в области аналитики определяется не инструментами и технологиями. Главным фактором успеха являются люди, которые применяют эти инструменты и технологии». При работе с большими данными, кроме аналитического мышления, крайне важны — „деловая смекалка, творческий подход, интуиция“. У аналитика появляется так же важная составляющая его компетенцией — ответственность, ведь полученные результаты обработки Big Data все сложнее проверить, а вскоре станет практически невозможно. Похоже штурвал компании наконец перейдет их рук забюрократезированной бухгалтерии и ориентированного на сиюминутную выгоду отдела продаж, к самым передовым и инновационным людям в компании — аналитическому подразделению. Только не стоит обольщаться раньше времени — Россия, к большому сожалению, плетется в хвосте этой тенденции.
Не совершаете распространенную ошибку по «оптимизации свободного места на диске», постоянной удаляя ненужные в настоящий момент данные! С имеющимся массивом можно провести массу различных преобразований, получив актуальные результаты. Не обращайте внимание на постоянное ворчание ИТ служб о „захламлении“ рабочего пространства диска! Стоимость устройств с большим объемов памяти падает с каждым днем, а сами данные с имеющимся методиками анализа, представляют все большую ценность и становятся конкурентным преимуществом компании „высокого порядка“. Если вы решили серьезно заняться работой с Big Data, то столкнетесь с серьезным непониманием со стороны многих коллег. Но это не может быть оправданием, для сворачивания работы, ведь за Большими данными — будущее бизнеса, да и всей ЦИВИЛИЗАЦИИ!
PS »Информации, получаемой из Матрицы, гораздо больше, чем ты можешь расшифровать.»
Фильм «Матрица»
C уважением, Козуля Игорь Иванович
Член Гильдии маркетологов.
Эксперт по маркетингу, MBA.
http://kii08.blogspot.ru/