'분류 전체보기' 카테고리의 글 목록 (3 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (130)

imhamburger 님의 블로그

프로그래머스 SQL 문제풀이 - 대장균들의 자식의 수 구하기

문제설명 대장균들은 일정 주기로 분화하며, 분화를 시작한 개체를 부모 개체, 분화가 되어 나온 개체를 자식 개체라고 합니다.다음은 실험실에서 배양한 대장균들의 정보를 담은 ECOLI_DATA 테이블입니다. ECOLI_DATA 테이블의 구조는 다음과 같으며, ID, PARENT_ID, SIZE_OF_COLONY, DIFFERENTIATION_DATE, GENOTYPE 은 각각 대장균 개체의 ID, 부모 개체의 ID, 개체의 크기, 분화되어 나온 날짜, 개체의 형질을 나타냅니다. Column nameTypeNullableIDINTEGERFALSEPARENT_IDINTEGERTRUESIZE_OF_COLONYINTEGERFALSEDIFFERENTIATION_DATEDATEFALSEGENOTYPEINTEGERFA..

Mysql 2025. 1. 19. 16:23

프로그래머스 DFS 문제풀이 - 여행경로

문제 (출처: 프로그래머스) 주어진 항공권을 모두 이용하여 여행경로를 짜려고 합니다. 항상 "ICN" 공항에서 출발합니다.항공권 정보가 담긴 2차원 배열 tickets가 매개변수로 주어질 때, 방문하는 공항 경로를 배열에 담아 return 하도록 solution 함수를 작성해주세요. 제한사항모든 공항은 알파벳 대문자 3글자로 이루어집니다.주어진 공항 수는 3개 이상 10,000개 이하입니다.tickets의 각 행 [a, b]는 a 공항에서 b 공항으로 가는 항공권이 있다는 의미입니다.주어진 항공권은 모두 사용해야 합니다.만일 가능한 경로가 2개 이상일 경우 알파벳 순서가 앞서는 경로를 return 합니다.모든 도시를 방문할 수 없는 경우는 주어지지 않습니다. 입출력 예ticketsreturn[["ICN..

알고리즘(Algorithm) 2025. 1. 11. 16:21

6개월간의 데이터엔지니어 부트캠프를 마치며

6개월이라는 시간은 길 것 같았는데, 매일 새로운 과제와 문제를 해결하며 배우다 보니 어느새 시간이 훌쩍 지나 있었다.부트캠프를 시작하기 전, 나는 데이터 기반 그로스 마케터로서 3년간 열심히 일해왔다.MySQL을 사용해 데이터를 분석하고, 그 데이터를 바탕으로 성과를 만들어내는 과정은 익숙했고, 즐겁기도 했다.특히 앱 데이터를 분석하며 여러 가지 인사이트를 발견했을 때, 데이터가 주는 가치를 실감했다. 그 데이터를 바탕으로 B2B 프로젝트를 기획했고, 결과적으로 한 달 만에 300개의 B2B 리드를 유치하며 기업 고객의 유지율을 10% 높이는 성과를 낼 수 있었다. 하지만 그 과정에서 깨달았다.단순히 데이터를 분석하는 것을 넘어, 데이터를 처음부터 끝까지 설계하고 대규모 데이터를 효율적으로 처리하는 기..

데이터 엔지니어링 2025. 1. 3. 17:25

데이터엔지니어 부트캠프 - 파이널 프로젝트 (12월의 기록)

파이널 프로젝트를 진행중이다. 이제 일주일정도 남았는데, 얼추 마무리가 되어 정리를 해보고자 한다. 팀프로젝트 개요 현재 다양한 플랫폼에 분산된 공연 및 스포츠 경기 등의 티켓 정보를 한곳에서 확인하고 비교할 수 있도록 지원하는 플랫폼을 개발합니다. 이를 통해 사용자들이 다양한 선택지를 쉽게 탐색하고 티켓 구매의 편의성을 높이고자 합니다. 목표 사용자가 여러 티켓 플랫폼에서 제공되는 티켓 정보를 쉽게 비교할 수 있도록 하여, 공연 및 스포츠 경기 티켓 구매 과정에서 시간을 절약하고, 최적의 선택을 할 수 있는 환경을 제공합니다. 기대 효과 1. 티켓 구매의 불편함 해소현재 다양한 공연, 스포츠 경기 티켓들이 여러 플랫폼에 분산되어 판매되며, 최적의 티켓을 찾기 위해 여러 웹사이트를 방문해야 하는 불..

데이터 엔지니어링 2024. 12. 28. 17:21

데이터엔지니어 부트캠프 - 유사 공연 추천시스템 cosine_sim[idx] 수정하기 (24주차)

지난주 유사 공연 추천시스템 구현 중에 다음과 같은 에러가 있었다. (지난글) 에러메세지Traceback (most recent call last): File "/Users/seon-u/TU-tech/ml/src/ml/main.py", line 43, in similar_performances = get_top_similar_performances(cosine_sim, performances) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/seon-u/TU-tech/ml/src/ml/utils.py", line 85, in get_top_similar_performances..

데이터 엔지니어링 2024. 12. 28. 15:26

데이터엔지니어 부트캠프 - 유사 공연 추천시스템 (23주차)

우리 프로젝트의 경우, 각기 다른 티켓예매사이트들의 티켓정보들을 한 사이트로 모아 여기저기 티켓을 찾아볼 필요없이 한 사이트에서 찾아볼 수 있는 서비스를 기획했다. 원래는 추천시스템을 만들 생각은 없었지만, 추천시스템이 없으면 단순 데이터 검색? 기능뿐이라 추천시스템을 추가하게 되었다.추천시스템은 DB에 적재되어 있는 공연의 상세설명(공연설명)을 읽어와 모든 공연 설명들에 대해 코사인 유사도로 계산하여 각 공연마다 유사도가 가장 높은 TOP3 까지의 공연만 보여주는 것이다. 그리고 나는 조건을 몇 개 더 추가하여 필터링하였다.기준 공연 시작일 이후이면서 기준공연 시작일 + 90일까지로 날짜 제한 설정기준 공연과 같은 지역으로 설정 추천시스템 코드 흐름공연설명을 형태소 분석기로 명사만 추출 (전처리)Wor..

데이터 엔지니어링 2024. 12. 22. 17:19

데이터엔지니어 부트캠프 - MongoDB jwt토큰 decode 하여 user_id 불러오기 (22주차)

지난글에서 user_id를 headers.get 하여 얻어오는 방식을 이용했었는데 그 부분을 바꿔야 한다.이유는 우리 프로젝트는 로그인 기능을 jwt토큰을 이용하였기 때문이다. 여기서 jwt란 Json Web Token 으로 인증에 필요한 정보들을 Token에 담아 암호화시켜 사용하는 토큰이다.jwt 토큰에는 Header / Payload / Signature 로 구성되어 있다. (jwt 토큰) 1. Header헤더는 JWT의 타입과 서명에 사용된 알고리즘을 나타낸다.{ "typ": "JWT", "alg": "HS256"} 2. Payload페이로드는 JWT에 포함될 실제 데이터이다. 이 데이터에는 사용자 정보나 권한과 같은 정보가 들어갈 수 있다.{ "sub": "1234567890", "u..

데이터 엔지니어링 2024. 12. 15. 16:38

데이터엔지니어 부트캠프 - MongoDB에 적재할 때 중복값 처리하기

파이널 프로젝트에서 DB 설계를 하던 중 3개의 웹사이트에서 크롤링한 데이터를 DB에 적재할 때 중복값 처리는 어떻게 할지 고민이었다.같은 웹사이트에서 가져오는 데이터라면 고유번호를 기준으로 DB에 적재하면 되는데 각기 다른 사이트이기에 이 방법은 쓸 수 없었다. 하지만 중복값이라는 건 어쨋든 같은 데이터이기 때문에... 대표 1개의 웹사이트를 정해서 먼저 DB에 데이터를 적재한 후,나머지 2개를 DB에 넣을 때 같은 값이 있을 경우에 "hosts"라는 컬럼 안에 site_id와 url 이 추가되는 것으로 처리하였다. Mongodb 초기 설계{ "_id": ObjectId("..."), "title": "뮤지컬 공연 제목", "start_time": "2024-11-20T19:00:00", "en..

데이터 엔지니어링 2024. 12. 10. 14:50

데이터엔지니어 부트캠프 - 로그데이터를 카프카를 이용해서 s3에 적재하기 (21주차)

파이널 프로젝트에서 우리의 서비스를 이용하는 사용자 로그를 s3에 적재하는 것을 설계했었다.로그데이터는 실시간으로 찍히기 때문에 Apache Kafka를 이용하면 딱! 이겠다라는 생각이 들었다. 로그데이터를 저장하려고하는 이유는,각 부서가 데이터 기반 의사결정을 내릴 수 있도록 지원하기 위해, 대시보드에서 실시간 데이터를 시각화하고 활용할 수 있게 만들기 위함이다. 이를 위해 로그 데이터를 실시간으로 수집하고 적재하는 안정적인 파이프라인이 필요하다.Apache Kafka는 높은 처리량과 낮은 지연 시간을 보장하며, 로그 데이터의 스트리밍 처리에 적합한 도구로, 실시간 데이터 수집과 처리에 딱 맞는 솔루션이라고 생각했다. 따라서, 로그데이터 적재 설계는 다음과 같다. 1. 우선 나는 로그를 생성하는 ..

데이터 엔지니어링 2024. 12. 8. 17:30

깃 푸시 오류 - remove secret from commit(s) or follow this URL to allow the secret

내 로컬에 있는 것을 원격 깃허브에 푸시하려할 때 다음과 같은 메세지가 떴다. 에러메세지(?) To push, remove secret from commit(s) or follow this URL to allow the secret. 이 오류 메시지는 Git 커밋에 민감한 정보(예: 비밀번호나 API 키)가 포함되어 있을 때 발생할 수 있다고 한다.GitHub와 같은 Git 호스팅 서비스에서는 보안상의 이유로 민감한 정보가 푸시되는 것을 막는다. 알고보니, 내가 테스트하려고 만들어 놓은 파이썬 파일에 AWS 키가 들어가 있었다....(큰일날뻔)그래서 그거를 삭제하고 푸시하려하니... 에러가 해결되지 않았다. 삭제한 후에도 같은 오류가 발생하는 경우, Git 커밋 기록에 여전히 민감한 정보가 남아 있을 수..

깃(Git)과 깃허브(Github) 2024. 12. 6. 17:33

이전 Prev 1 2 3 4 5 6 ··· 13 Next 다음

목록분류 전체보기 (130)

imhamburger 님의 블로그

티스토리툴바