데이터 26

북미 조류의 3분의 1이 사라졌습니다.

최근 연구에 따르면 1970년대 이후 북미 대륙의 조류 개체수의 약 3분의 1에 해당하는 30억 마리의 새가 사라졌다고 합니다. 연구진은 처음에 이 결과에 충격을 받았지만 철저한 확인 결과 데이터에 오류가 없는 것으로 밝혀졌습니다. 초원 조류가 가장 큰 타격을 받아 50% 이상 감소했으며, 산림 조류는 3분의 1로 감소했습니다. 뒷마당에서 흔히 볼 수 있는 새들도 크게 감소했으며, 총 손실의 90%가 12개 조류과에서 발생했습니다. 연구자는 "인간의 일생보다 짧은 기간 동안 전체 생물군의 거의 30%가 사라졌는데도 우리는 몰랐다"며 놀라움을 감추지 못했습니다.원문: https://nautil.us/a-third-of-north-americas-birds-have-vanished-340007/

Hacker News 2023.07.16

사기 중의 사기: 데이터 기반 광고 사기

디지털 광고는 데이터 기반 타겟팅이라고 주장하지만, 부정확하고 쓸모없는 데이터를 기반으로 하는 경우가 많습니다. Facebook이나 Google과 같은 기업은 사용자에 대한 상세한 정보를 보유하고 있어 관련성이 높은 광고를 게재할 수 있다고 주장하지만, 실제로는 알고리즘과 머신 러닝에 크게 의존하고 있어 결과가 좋지 않습니다. 타겟팅 광고에 대한 일반적인 가정은 실제로 더 효과적이라는 테스트 결과가 뒷받침되지 않는 등, 마케팅 자체가 엄격한 과학적 증거에 기반하지 않습니다. 결국 타겟팅 광고는 사용자의 관심사 및 인구 통계에 대한 잘못된 가정에 기반하여 관련성이 없는 경우가 많습니다.원문: https://anotherangrywoman.com/2023/07/05/scams-upon-scams-the-da..

Hacker News 2023.07.09

Apache Arrow와 함께한 여정(2부): 적응형 스키마 및 정렬

1. 저자들은 동적 데이터 스트림에 대한 Apache Arrow 사용을 최적화하기 위해 적응형 스키마 아키텍처를 개발합니다.2. 가능한 모든 경우를 포괄하는 일반 스키마로 시작하지만 실제로는 하위 집합만 사용합니다. 3. 사용하지 않는 필드를 제거하고, 최적의 사전 인코딩을 사용하고, 유니온 유형을 최적화하여 관찰된 데이터를 기반으로 스키마를 동적으로 조정합니다. 4. Apache Arrow는 재귀 스키마를 지원하지 않으므로 재귀 데이터를 이진 열로 직렬화합니다.5. 관련 열을 기준으로 테이블을 정렬하면 중복된 데이터를 그룹화하여 압축을 개선합니다.6. 테이블을 주에서 잎으로 정렬하고 델타 인코딩을 사용하면 압축률이 더욱 향상됩니다.7. 적응형 스키마 접근 방식과 정렬을 통해 메모리 사용량을 줄이고 압축..

Hacker News 2023.07.05

공기질 모니터링의 숨겨진 비용

일부 공기질 모니터 제조업체는 고객이 유료 구독으로 업그레이드하도록 유도하기 위해 무료 데이터 요금제와 액세스를 제한하는 경우가 점점 더 많아지고 있습니다. 이는 초기 하드웨어 비용을 넘어서는 높은 소유 비용으로 이어집니다. 독점 센서 모듈과 에코시스템 종속은 비용을 증가시킬 수 있습니다. 모니터의 수명, 수리 가능성 및 데이터 소유권은 제조업체가 수익성 극대화를 위해 우선순위를 두지 않는 경우가 많습니다. 고객은 제조업체에 구독, 데이터 소유권, 수리 및 예비 부품에 대해 질문하여 실제 소유 비용을 파악해야 합니다.원문: https://www.airgradient.com/blog/hidden-costs-of-air-quality-monitoring/소식봇 생각(아무 말 주의):

Hacker News 2023.06.28

트랜스포머 모델이란 무엇인가요?

트랜스포머 모델은 주의 메커니즘을 사용하여 단어와 같은 순차적 데이터 요소 간의 관계를 감지하는 강력한 유형의 신경망입니다. 트랜스포머 모델은 번역, 신약 개발 등의 애플리케이션을 지원하는 머신 러닝의 주요 발전을 주도해 왔습니다. 트랜스포머는 뛰어난 성능으로 인해 CNN이나 RNN과 같은 구형 신경망을 대체하고 있습니다. 주의 메커니즘을 통해 트랜스포머는 멀리 떨어진 요소 간의 종속성을 추적하여 문맥과 의미를 이해할 수 있습니다. 일반적으로 더 많은 매개변수를 가진 더 큰 트랜스포머 모델이 더 나은 성능을 발휘하지만, 훈련 비용이 많이 듭니다. 연구자들은 트랜스포머의 효율성을 개선하고 편향을 줄이기 위해 노력하는 동시에 일반 인공 지능에 대한 잠재력을 탐구하고 있습니다.원문: https://blogs...

Hacker News 2023.06.24

Zig 언어 서버 및 취소

저자는 계산 집약적인 작업을 수행하면서 소스 코드 편집을 처리하기 위한 Zig 언어 서버의 다양한 접근 방식에 대해 설명합니다. 이전 작업이 모두 완료된 후 편집이 순차적으로 처리되는 강력한 일관성은 간단하지만 비효율적입니다. 불변성은 이 문제를 피할 수 있지만 낭비적입니다. 이전 상태에 대한 인플라이트 작업을 취소하고 편집 내용을 적용하는 것은 좋은 절충안입니다. 편집 내용이 새로운 상태 공간으로 전환되는 반공간 메모리 모델도 도움이 될 수 있습니다. 휴리스틱을 사용하여 최신 AST 데이터와 미리 계산된 의미론적 정보의 균형을 맞추면 일시적으로 잘못된 결과가 허용되는 완화된 일관성을 통해 성능을 개선할 수 있습니다. 저자는 이 접근 방식이 점진적 컴파일 및 패치 적용이라는 Zig의 목표와 잘 맞아떨어진..

Hacker News 2023.06.10

해를 끼치지 마세요 청원: 빅 테크에 의료 기록에 대한 액세스 권한을 부여하지 마세요.

이 청원은 의료 기록에 대한 환자 개인정보 보호를 강화하기 위해 제안된 유럽 건강 데이터 공간 법안을 수정할 것을 의원들에게 촉구합니다. 현재 이 법은 환자의 동의 없이 연구 목적으로 민감한 의료 데이터에 대한 광범위한 접근을 허용하고 있습니다. 이는 빅파마, 기술 기업, 보험사가 환자의 전 생애에 걸친 의료 기록 전체에 접근할 수 있다는 것을 의미할 수 있습니다. 의료 기록에는 매우 민감한 개인 정보가 포함되어 있으므로 광범위한 접근 권한을 부여하면 의료 시스템에 대한 신뢰가 약화되고 환자의 기밀이 침해됩니다. 이 청원에서는 치료 목적이 아닌 목적으로 데이터를 공유하기 전에 명시적인 동의를 받고, 데이터를 사용할 수 있는 건강 데이터 범주와 목적을 제한하고, 데이터에 액세스할 수 있는 사람을 제한할 것..

Hacker News 2023.06.10

QR 코드를 직접 디코딩하는 방법(카메라 스캔 없이)

QR 코드는 약간의 인내심과 세심한 주의를 기울이면 손으로 해독할 수 있습니다. 첫 번째 단계는 모서리 세 개의 사각형으로 코드를 올바른 방향으로 회전하는 것입니다. 버전 번호는 코드의 물리적 크기와 복잡성을 나타냅니다. 형식 마커에는 오류 수정 수준과 데이터 마스크에 대한 정보가 포함되어 있습니다. 데이터 마스크 패턴은 기계가 더 쉽게 판독할 수 있도록 QR 코드에 적용되었습니다. 마스크 패턴에 따라 비트를 반전하면 원본 데이터를 복구할 수 있습니다. 데이터에는 인코딩 유형과 길이 필드에 이어 데이터 바이트가 포함됩니다. 인코딩 유형에 따라 길이 필드 크기와 데이터가 인코딩되는 방식이 결정됩니다. 비트를 지그재그 패턴으로 읽고 데이터 마스크를 고려하면 QR코드에 포함된 원본 텍스트 메시지를 바이트 단위..

Hacker News 2023.06.03

PyPI 소환

다음은 핵심 사항을 7문장으로 요약한 것입니다:PyPI(Python 패키지 인덱스)는 미국 법무부로부터 PyPI 사용자 이름 5명에 대한 데이터를 요청하는 소환장을 세 차례 받았습니다. 요청에는 이름, 이메일 주소, IP 주소, 계정 세부 정보 및 다운로드 로그가 포함되었습니다. 비공개 명령이 없었기 때문에 PyPI는 소환장을 준수하고 요청된 데이터를 제공하기로 결정했습니다. PyPI는 최소한의 개인 데이터만 수집하며, 현재 사용자 개인정보 보호를 위해 새로운 데이터 보존 및 공개 정책을 개발 중입니다. PyPI는 개인 사용자에게 무료 서비스를 제공하기 때문에 패키지 다운로드나 결제 정보를 위한 IP 주소를 보유하지 않습니다. 제공된 데이터에는 프로젝트 및 이벤트 기록, IP 주소, 계정 생성 및 지정된..

Hacker News 2023.05.25

인텔 OEM 개인 키 유출: UEFI 보안 부팅 보안에 대한 타격

MSI는 랜섬웨어 그룹 Money Message의 공격을 받아 소스 코드를 포함한 1.5TB의 데이터를 유출당했습니다. 이 그룹은 MSI에 400만 달러의 몸값을 요구했지만, 도난당한 데이터 중 일부가 이미 온라인에 공개되었기 때문에 MSI는 돈을 지불하지 않은 것으로 보입니다. MSI 데이터 유출로 인해 인텔 OEM 개인 키가 유출되었으며, 이로 인해 UEFI의 보안 부팅 보안이 크게 약화될 수 있습니다. 유출된 개인 키는 인텔의 11세대, 12세대, 13세대 프로세서에 영향을 미치며 인텔 자체, 레노버, 슈퍼마이크로를 포함한 다양한 OEM에 배포되었습니다. 유출된 인텔 부트 가드 BPM/KM 키는 최소 166개의 MSI 제품에 영향을 미쳤으며, 다른 제품에 대한 피해 범위는 현재 알려지지 않았습니다...

Hacker News 2023.05.07