Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

To się w ram ie nie zmieści

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 19 Anuncio

To się w ram ie nie zmieści

Descargar para leer sin conexión

Prezentacja Michała Brzezicki z 9 spotkania Data Science Warsaw przedstawiająca w jaki sposób pobierane i analizowane są dane w SentiOne. Opowiada o problemach związanych z crawlowaniem ponad pół miliona domen oraz dlaczego Hadoop i ElasticSearch jest fajny i na ilu dyskietkach mieści się 5,7 miliarda przeanalizowanych wypowiedzi.

Prezentacja Michała Brzezicki z 9 spotkania Data Science Warsaw przedstawiająca w jaki sposób pobierane i analizowane są dane w SentiOne. Opowiada o problemach związanych z crawlowaniem ponad pół miliona domen oraz dlaczego Hadoop i ElasticSearch jest fajny i na ilu dyskietkach mieści się 5,7 miliarda przeanalizowanych wypowiedzi.

Anuncio
Anuncio

Más Contenido Relacionado

A los espectadores también les gustó (13)

Similares a To się w ram ie nie zmieści (14)

Anuncio

Más reciente (20)

Anuncio

To się w ram ie nie zmieści

  1. 1. To się w RAM-ie nie zmieści - Bolączki i wyzwania efektywnego monitowania i analizy treści w sieci WWW DATA SCIENCE WARSAW MEETUP 8 GRUDNIA 2015
  2. 2. SentiOne to monitorowanie i analiza Internetu oraz social media Poznaj opinie SentiOne to najszybszy sposób dotarcia do opinii w Internecie. To źródło cennych analiz dotyczących obecności marek w social media. To nowy kanał komunikacji z potencjalnymi klientami online. Analizuj trendy Dyskutuj
  3. 3. SalesLift to zarządzanie wizerunkiem marki w mediach społecznościowych
  4. 4. Potencjał biznesowy Big Data
  5. 5. Pozyskiwanie danych  Sieć WWW  Miliony domen  Każda podstrona HTML inna  Treść, data, autor, kontekst  API portali społecznościowych  Domeny dodawanie ręcznie lub automatycznie wyszukiwane przez Google
  6. 6. Generyczna ekstrakcja danych  Wyszukiwanie powtarzających się wzorców w drzewie DOM  Wyszukiwanie dat w tekście  Setki formatów dat  Pola ze zmienną treścią  Wykrywanie artykułów na stronie
  7. 7. 460 formatów dat  Today 11:59 AM 5 minutes ago at 11:19 21.10. Tuesday 2014 27Sep/14 Thu Dec 18 10:14:48 CET 2014 Tue Apr 24, 2012 07:02 Napisane Jun 16, 2007, 11:53 pm 2011 October 19, Wednesday оригирана в 15:07 часа на 13 май, 2015 год. Maandag, 23 juni 2014 om 12:01 Geplaatst op 27 januari 2014 doo 14. toukokuu 2015 10:40
  8. 8. Profile XPath  Sposób na ręczne zdefiniowanie profilu strony  Dużo szybsze niż generyczna ekstrakcja  Generowane automatycznie na podstawie wyników ekstraktora generycznego  Sieć neuronowa akceptująca wygenerowane profile XPath
  9. 9. Gdzie crawler powinien wchodzić  Nieodwiedzone strony gdzie pojawi się nowy content (np. nowe artykuły)  Strony gdzie pojawiają się linki do nowych treści (listy wątków na forum)  Odwiedzone strony gdzie pojawiają się nowe treści (np. aktywne wątki na forum)
  10. 10. Strategia crawlowania  Minimalizacja czasu pomiędzy publikacją treści, a jego indeksacją  Maksymalizacja liczby pobieranych treści  Minimalizacja liczby wejść na stronę
  11. 11. Kolejka crawlowania  500 000+ monitorowanych domen  Duże grafy witryn  Posortowana kolejka w pamięci RAM  Limit na liczbę zagłębień  Nieposortowana kolejka w klastrze Hadoop  Zadania MapReduce tworzące paczkę stron do odwiedzenia
  12. 12. Problemów ciąg dalszy  Wykorzystany transfer  Detekcja czy strona jest duża czy mała  Parametr kindness – robots.txt crawl-delay  Strony z niepoprawnym kodem HTML  USER AGENT: SentiBot www.sentibot.eu (compatible with Googlebot)
  13. 13. Analiza tekstu  Wykrywanie języka  Tabele częstości słów na podstawie opensubtitles.org  N-gramy - Bayes  Niepoprawne słowa  Krótkie teksty  Mieszanie języków  Wykrywanie płci autora
  14. 14. Sentyment  Pobierane automatycznie zbiory uczące  Bayes + SVM  Leksykon  Minimalizacja błędów false positive testowana na prawie unijnym
  15. 15. Zapisywanie danych  ElasticSearch  Wyszukiwanie pełnotekstowe  Indeksy czasowe  Skalowanie i replikacja  Monitorowanie  Rozmiar 5 890 mln dokumentów - 12,42TB  Cassandra  Zmieniające się metadane (liczba polubień, udostępnień etc.)  Rozmiar 2 465 mln wpisów 2.06 TB
  16. 16. Tworzenie zapytań  Lucene  Wildcardy * i ?  Proximity search  Stemming  Stronicowanie ((_all:everytap AND keywords:152946751543136 AND author:SurfBurger) OR (sourceURLDomain: instagram.com AND "surf burger”~2)) AND NOT type:fc
  17. 17. Powrót na studia :)  Projekt badawczy w ramach Programu Badań Stosowanych organizowanego przez Narodowe Centrum Badań i Rozwoju  Całkowita wartość projektu ponad 3 mln zł  Konsorcjum Politechnika Gdańska, SentiOne i SalesLift  Współpraca z Katedrą Inżynierii Oprogramowania ETI  Kierownik projektu prof. Krzysztof Goczyła  Oczekiwane rezultaty projektu  Usprawnienie algorytmów oceny sentymentu  Usprawnienie działania robotów indeksujących sieć
  18. 18. Poszukiwany, poszukiwana!  Szukamy naukowców i entuzjastów Data Science do współpracy  Oferujemy darmowy dostęp do danych dla projektów naukowych  Wygodny dostęp przez RESTful API
  19. 19. “ ” Dziękuję za uwagę! ZAPRASZAM DO KONTAKTU Michał Brzezicki michal@sentione.com https://pl.linkedin.com/in/brzezicki +48 603 926 001

×