전자상거래 리뷰의 효율적인 장단기 메모리 기반 감성 분석 2부

Jan 18, 2024

Muhammadet al. [20]은 호텔 리뷰에 word2vec과 LSTM을 사용하여 감성 분석 모델을 제시했습니다.

무함마드는 이슬람의 선지자이자 창시자이다. 그는 현명하고 현명하며 현명한 사람으로 알려져 있습니다. 그의 기억력은 매우 강력하여 정보를 처리하고 자신의 생각을 표현하는 데 매우 효과적입니다.

무함마드의 기억은 그의 교육 및 경험과 많은 관련이 있습니다. 기록에 따르면 그는 젊었을 때 종종 생각과 성찰에 몰두했다고 한다. 지식에 대한 이러한 호기심과 갈증은 그가 탄탄한 지식 기반과 기억력을 구축하는 데 도움이 되었습니다.

게다가 무함마드의 지능도 그의 기억 능력에 큰 역할을 했습니다. 똑똑하고, 재치 있고, 통찰력이 있고, 논리적인 사고력을 갖고 있어 복잡한 정보를 다룰 때 매우 유리하다. 이 이점은 그가 기억 과정을 더 잘 관리하고 제어하는 ​​데 도움이 되었고, 그 결과 기억력이 향상되었습니다.

그러나 무함마드의 기억력은 타고난 것이 아니라 노력과 실천을 통해 향상되었습니다. 지식을 더욱 깊이 이해하고 습득할 수 있도록 반복 읽기, 받아쓰기, 말하기 등의 기억 훈련을 자주 실시합니다.

무함마드의 기억력은 단지 타고난 재능이 아니라, 노력과 연습을 통해 향상되었습니다. 이는 우리 각자가 학습과 연습을 통해 기억력을 향상시키고 학습 및 작업 효율성을 향상시킬 수 있음을 보여줍니다. 무함마드처럼 기억력을 지속적으로 향상시키고 삶과 일에서 더 큰 성공을 거두기 위해 적극적으로 열심히 노력합시다! 기억력 향상이 필요하다고 볼 수 있는데, Cistanche Deserticola는 아세틸콜린 수치와 성장인자 수치를 높이는 등 신경전달물질의 균형도 조절할 수 있기 때문에 기억력을 크게 향상시킬 수 있습니다. 이 물질은 기억과 학습에 매우 중요합니다. 또한 고기는 혈류를 개선하고 산소 전달을 촉진하여 뇌에 충분한 영양분과 에너지를 공급하여 뇌의 활력과 지구력을 향상시킬 수 있습니다.

increase brain power

단기 기억력을 향상하려면 '알기'를 클릭하세요.

본 연구에서는 셀레늄과 스크랩을 이용하여 여행 웹사이트를 크롤링하여 데이터를 수집하였다. +e 이 실험의 가장 큰 목적은 word2vec와 LSTM의 매개변수를 변경하여 정확도를 분석하는 것이었습니다. +e 결과는 매개변수를 사용하여 85.96의 평균 정확도를 달성할 수 있음을 보여 주었으며 이는 유망한 결과를 보여주었습니다.

Zhaoet al. [21]은 전자상거래 웹사이트의 리뷰를 통해 고객의 감정을 분석하는 새로운 기술을 도입했습니다. +e는 4단계로 구성된 LocalSearch Improvised Bat Algorithm based Elman NeuralNetwork(LSIBA-ENN)라는 최적화 기술을 제안하고 극성을 감지하고 리뷰의 감정을 분류합니다. +e 이 연구의 데이터는 고객 리뷰를 추출하기 위해 전자상거래 웹사이트의 웹 스크래핑 도구를 사용하여 수집되었습니다.

본 연구에서는 데이터 전처리 외에도 용어 가중치 및 특성 선택을 위해 "LTF-MICF(LogTerm Frequency-based Modified Inverse Class Frequency) 및 HMEWA(Hybrid Mutation based Earth Warm Algorithm)"를 활용합니다. +e 제안된 방법론은 예측 정확도 측면에서 다른 기준 기술을 능가했습니다.

Jiang [22]은 전자 상거래 플랫폼 Taobao에서 얻은 리뷰의 감정을 분류하는 모델을 제안했습니다.+e 연구에서는 기계 학습 알고리즘과 분류를 위한 지원 벡터 기계 및 향상된 입자 떼 최적화(IPSO)를 활용하여 매개변수를 최적화했습니다. +e 연구를 위한 데이터는 웹사이트의 댓글을 크롤링하여 수집되었습니다. +e 실험 결과는 SVM과 IPSO를 결합한 접근 방식이 더 높은 정확도를 갖는 것으로 나타났습니다. 그러나 기존 모델의 대부분은 과적합[23–25], 열악한 수렴 속도[26–28] 및 Vanishing Gradient 문제[29–31]로 인해 어려움을 겪고 있습니다.

3. 실험적 연구

+is 섹션에서는 감정 분류를 위해 프로젝트에서 사용된 방법론에 대한 명확한 개요를 제공합니다. +e 기술은 다수의 Amazon 데이터베이스 리뷰를 분류하는 데 사용되는 Long Short-Term Memory 네트워크입니다. +e 사용된 임베딩은 데이터베이스에 따라 맞춤 학습된 word2vec입니다.

데이터 세트에 따라 word2vec를 조정하면 모델의 전반적인 성능이 향상됩니다. +e LSTM 사용의 이점은 구조화되지 않은 검토 데이터에 대해서도 더 나은 결과를 제공한다는 것입니다. 장기적인 종속성을 포함하는 리소스에 유용한 기능을 얻을 수 있습니다.

+e 데이터는 Amazon 리뷰 데이터 세트에서 수집된 후 전처리됩니다. Word2vec 임베딩은 데이터 전처리에서 중요한 단계를 형성합니다. 훈련 및 테스트 데이터가 생성되었습니다. +e 훈련 데이터는 훈련 및 검증 데이터 세트로 분할됩니다. +e 사용자 정의 word2vec 모델은 데이터베이스별로 훈련됩니다. +e 특징 벡터가 획득되어 LSTM 모델의 임베딩 레이어로 사용됩니다.

Keras는 최대 기능이 50이고, 임베딩 크기가 16인 LSTM 순차 모델을 구축하는 데 사용됩니다. 그런 다음 +emodel은 10세대 동안 학습됩니다. +e 모델은 sklearn 성능 지표를 기반으로 테스트되었습니다. +e 특징을 얻는 과정은 그림 2에 묘사되어 있습니다.

3.1. 데이터세트. 정확한 결과를 생성하려면 사용되는 데이터 세트가 크고 풍부해야 합니다. +e 데이터세트는 Amazon Reviews 데이터세트(2018)의 온라인 휴대폰 및 액세서리 섹션에서 수집되었습니다. +e 데이터 세트는 총 938,261개의 ​​리뷰로 구성되며, 그 중 47901개는 고유 제품 리뷰이고 153124개는 고유 사용자 리뷰입니다. +e 데이터세트는 처음에 1부터 5까지의 평점, 리뷰 시간, 리뷰어 ID, 제품 ID, 리뷰 텍스트 요약 등 7개의 열로 구성됩니다.

중복 항목을 삭제한 후 데이터 세트는 938,254개의 레코드로 구성되며 표 2는 원본 데이터 세트 레코드의 일부를 보여줍니다.

3.2. 방법론. 우리는 분류를 위해 LSTM 모델과 함께 사용되도록 word2vecmodel을 맞춤 훈련했습니다. Word2vec은 벡터의 여러 용어 모음으로 단어를 표현하는 데 사용되는 단어 임베딩입니다. 단어를 벡터 공간에 매핑하는 것과는 다릅니다. +e 데이터 세트가 Pandas 데이터 프레임에 로드됩니다. 맞춤형 word2vec 모델을 개발하기 위한 첫 번째 단계는 데이터 전처리입니다.

우리는 평점과 리뷰 텍스트만 보고 다른 모든 것을 삭제합니다. +e 문장 부호를 제거하여 텍스트를 정리합니다. 200개에 가까운 텍스트의 하위 샘플이 생성되므로 000 리뷰와 클린 텍스트 방법이 적용되어 모든 리뷰를 단어 목록으로 변환됩니다. +이 단어 목록은 이제 Genism word2vec 모델에 대한 입력으로 작동합니다.

우리는 맞춤 훈련된 스킵 그램 word2vec모델을 구축하고 차원으로 모델을 인스턴스화했습니다. 단어 벡터의 크기는 100, 창 크기는 15, 말뭉치에서 2번 미만 나타나는 단어의 경우 최소_2로 계산됩니다. 음수는 5이고 샘플링 속도는 1e−5입니다. 우리는 이러한 모든 차원을 사용하여 복습 문장에서 어휘를 구축했습니다.

increase memory

우리는 1000 에포크 동안 word2vec 모델을 훈련합니다. +en 매 에포크마다 손실을 계산합니다. +e 손실은 처음에는 높고 마지막 에포크로 갈수록 감소합니다. +e 에포크 0의 손실은 2239394.0이고 에포크 1000의 손실은 11504.0입니다.+e 그런 다음 저장된 모델이 다시 로드되고 작업이 수행됩니다.

예를 들어 데이터 세트에서 소음과 유사한 단어를 찾으려면 취소하고 헤드폰을 사용합니다.

마찬가지로 earphones 및 Headphones와 같은 특정 단어 간의 유사도는 {{0}}.48756이고, 충전 및 충전기 단어 간의 유사도는 0.89264입니다.

데이터의 차원을 줄이기 위해 TSNE 시각화를 사용하여 데이터를 2차원으로 표시했습니다. 이제 이러한 단어 벡터를 사용하여 추가 분류를 수행할 수 있습니다. +ese 임베딩은 추가 스트리밍을 위한 기능으로 사용됩니다.

3.2.1. LSTM을 위한 데이터 준비. 우리의 데이터 세트는 938,254개의 레코드로 구성되어 있으며 대부분의 리뷰는 3점 이상의 점수 분포를 가지고 있습니다. 먼저 각 리뷰의 단어 수를 계산했습니다. +e 평균 평균은 리뷰의 평균 길이를 찾기 위한 통계로 사용됩니다. +e 리뷰의 평균 길이는 44.59이고 최대 길이는 4303입니다.

우리는 100단어 이하의 리뷰로 구성된 데이터 세트를 만들었습니다. 길이가 20개 이상 100개 미만인 리뷰는 Short 리뷰로 분류되고, 다시 작성한 리뷰는 Long 리뷰로 분류됩니다. +e 짧은 리뷰 수는 411313이고 긴 리뷰는 100239입니다. 모델에 사용된 하이퍼파라미터는 표 3에 설명되어 있습니다.

다음으로, 감정 평가가 3보다 크거나 같을 경우 감정 평가를 긍정적으로 정의했습니다. 그렇지 않으면 평가는 부정적입니다. 열차 데이터 세트 생성에 대한 리뷰 텍스트와 감정을 고려했습니다. +e 테스트 데이터는 리뷰가 10개 이상인 제품으로 구성됩니다.

배포 후 학습 데이터 세트는 총 203,891개의 레코드로 구성되었으며, 그 중 175,910개가 양성 클래스에 속하고 27981개가 음성 클래스에 속했습니다. +e 테스트 데이터 세트는 총 686,345개의 레코드로 구성되었으며, 그 중 592,118개가 긍정 클래스에 속하고 94,227이 부정 클래스에 속했습니다.

이 연구에서는 Keras를 사용하여 임베딩 레이어에 대한 입력으로 최대 50개의000 기능을 사용하는 LSTM 모델을 구축했습니다. 장단기 기억(LSTM)은 정보의 흐름을 조절하는 내부 메커니즘을 사용하는 순환 신경망의 일종입니다.+내부 메커니즘은 관련 없는 정보를 정확하게 필터링하고 유용한 정보를 유지할 수 있도록 훈련이 필요한 게이트로 구성됩니다.

ways to improve brain function

그림 3은 제안된 방법론에서 LSTM 모델의 기본 아키텍처를 보여줍니다.

Ht−1 및 Xt는 LSTM 장치에 대한 입력입니다. 일반적으로 단기 메모리라고 하는 Ht−1은 이전 상태의 출력을 입력으로 사용합니다. +e 메모리셀 또는 장기 기억 Ct -1은 시퀀스 프로세스 전반에 걸쳐 관련 정보를 전달하는 데 도움이 됩니다. +eLSTM 아키텍처는 망각 게이트, 입력 게이트 및 출력 게이트의 세 가지 게이트를 결합합니다. LSTM 유닛에서는 tanh 및 sigmoid 함수를 사용하여 이러한 게이트를 얻습니다.

+e 열차 데이터는 동일한 길이의 열차 및 검증 데이터로 분할되었습니다. +e 데이터 길이는 101945로 계산되었으며 클래스 분포는 {1:87955, 0:13990}입니다. TensorFlow 열차 테스트 및 검증 데이터 세트를 생성하려면 열차 데이터를 시퀀스로 변환해야 합니다. 모든 시퀀스의 길이가 동일하도록 최대 길이 100까지 패딩했습니다. +e 학습 및 테스트 라벨

improve your memory


For more information:1950477648nn@gmail.com



당신은 또한 좋아할지도 모릅니다