빅데이터에 관한 많은 뉴스를 접하면서 빅데이터가 어떤 것인지 정확하게 알고 싶어 읽게 되었다. 빅데이터는 사전적으로 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합 또한 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 말하는데 이 책을 통해 빅데이터를 통계적으로 분석하고 활용하는 것에 대한 중요성을 알게 되었다.
“최소제곱법에 기초하여 불규칙성이 내포된 데이터에서 참값을 추정하려면 어떤 방법이 가장 좋은가? 그 대답은 ‘평균을 사용하는 것이 추정 방법으로서 적절하다’이다. 일반적으로 평균은 ‘데이터 값을 전부 더한 다음 총 개수로 나눈 것’이라고 알고 있다. 하지만 이 말은 어디까지나 계산 절차만을 나타낸 지극히 단순한 설명에 지나지 않는다. 다음의 말만큼은 끝까지 잘 기억해두었으면 한다.