Какой язык программирования лучше всего подходит для практических вопросов исследования с большими наборами данных? - PullRequest
7 голосов
/ 25 ноября 2010

Я закончил свою государственную программу для выпускников по государственной политике, но она была совсем не технически тяжелой - некоторая экономика и эконометрика, но не требующая каких-либо знаний в области CSЗначительная часть исследовательских работ в DC требует базового уровня знаний в области программирования.В основном им нужны люди, которые могут выполнять расширенные функции поиска и поиска с большими наборами данных и сохранять данные в различных форматах на своих серверах.И они хотят знания STATA / stats, которые у меня есть некоторые.

Мой вопрос таков: где лучше всего начать изучать программирование, чтобы достичь этого уровня?Например, является ли Java, SQL, VBA или что-то еще лучшим и наиболее полезным для этих целей?И сколько математики мне нужно, чтобы написать и выполнить простые запросы?

Спасибо

Ответы [ 8 ]

3 голосов
/ 25 ноября 2010

Меня зовут Альваро. Я работал старшим биоинформатиком в огромных базах данных генов. Изучал биоинформатику в Гарварде.

Язык сценариев, который вам нужен для этого, - Perl.

Тогда вам нужно полное понимание SQL. Все это вы можете найти в Интернете.

Если вы продвинуты, вы также можете использовать язык программирования R для статистики. Проверьте в Интернете о R Project. А также MathLab.

Но не все сразу!

Забудьте о Java или VBA для этих целей.

удачи

1 голос
/ 25 ноября 2010

Возможно, вам следует расширить свои знания STATA и попытаться получить доступ к большим данным в STATA через интерфейс SQL / ODBC.

VBA больше не активно развивается и определенно не является хорошим вариантом.

1 голос
/ 25 ноября 2010

Имейте в виду, что я не знаю этой области, так как я веб-разработчик, но я думаю, что что-то вроде Haskell, F #, R или Python будет лучшим выбором.

И да, SQL. Я буду изучать и обрабатывать SQL92, а затем, когда у вас будет наименьший общий знаменатель, перейти к изучению расширений для MS SQL (я предполагаю, что для работы в GOVT вы будете в основном в среде Windows).

1 голос
/ 25 ноября 2010

Для статистики и запросов / манипуляций с базой данных я бы начал с SQL.

0 голосов
/ 25 ноября 2010

Я бы избегал любого стандартного языка программирования и направлялся бы на платформы статистического анализа. Я не эксперт, но на ум приходит S-Plus , как и SPSS. Возможно, вы захотите щелкнуть ссылку «математика» ниже, потому что программисты помогут вам перейти к языкам программирования. Не уверен, что люди делают статистику, но я сомневаюсь, что они все знают, например, SQL и Perl.

0 голосов
/ 25 ноября 2010

Сколько у тебя времени?

Из того, что я прочитал, мое первое (и единственное) предложение состоит в том, чтобы взять ближайшего известного вам программиста в ближайший паб, чтобы получить базовые знания о программировании и базах данных :-) А затем вернитесь на stackoverflow.com

Это то, что я сделал в 1997 году, практически при тех же обстоятельствах, будучи финансовым консультантом в «Большой пятерке».

0 голосов
/ 25 ноября 2010

Я программист на Java, который создает много отчетов.Я бы рекомендовал начинать с языка программирования (естественно, я бы порекомендовал Java) и SQL одновременно, потому что создание таблиц независимо от реального использования не очень интересно.

Я работаю в основном с DB2, но для начала я бы порекомендовал бесплатную базу данных, такую ​​как MySQL.После установки вы можете настроить таблицы и узнать о ссылочной целостности, простых запросах, объединениях и всяких полезных вещах.

Затем вы можете создать несколько простых программ, которые отображают данные и читают данные в БД.В Java есть много простых примеров, которым будет легко следовать, если вы поймете основы своей базы данных.Потребности приложения заставят вас создавать более сложные конструкции БД.

После этого текущее направление в Java движется к чему-то, что называется ORM (объектно-реляционное отображение), звучит страшно ... но это не таки что это получается ... еще меньше ... Если вы можете забыть о SQL, все таблицы автоматически преобразуются в объекты.Объекты являются основными строительными блоками при работе в Java.Короче говоря, вы можете использовать базу данных, только зная теорию базы данных и язык Java, не обладая конкретными знаниями SQL (что, к сожалению, различается в разных базах данных).Учитывая все вышесказанное, освоить SQL по-прежнему гораздо проще.

Совет по работе с языком сценариев, таким как Perl, тоже хорош.PHP также будет хорошим выбором, если вы немного заинтересованы в создании программ для Интернета.

Возможно, вы захотите получить какую-то сертификацию.Есть много для всех основных баз данных и много языков.Предметы большие, и даже если вы посмотрите только на требования к сертификации, у вас будет руководство о том, что изучать.

Я не думаю, что вам нужно много математики для большинства приложений.Я использую только средние () и некоторую математику для дат ... Одно из моих увлечений - графическое программирование, поэтому я, конечно, не против математики, потому что большинство баз данных полны бизнес-данных, поэтому я бы не стал слишком беспокоиться.

0 голосов
/ 25 ноября 2010

Что ж, если вы будете работать с базами данных, вам почти наверняка понадобится знание SQL. Но сам по себе SQL - это просто способ связи с базой данных - это не настоящий язык программирования. Довольно часто SQL соединяется с языком программирования, таким как Java или PHP. Лично я не фанат Java, но он широко используется и преподается в университетах, так что это, вероятно, будет хорошим выбором.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...