Opasnet talk:Structures of the building blocks of open risk assessments
Variable structure
Fact discussion: . |
---|
Opening statement: More variable attributes needed in Intarese project context?
Closing statement: Under discussion (to be changed when a conclusion is found) (A closing statement, when resolved, should be updated to the main page.) |
Argumentation:
←--1: . In the Intarese training session of 22 and 23 May 2007 in Schiphol Airport, Jouni and I received suggestions for adjustments to contents and structure of the variable attribute list. First of all, a distinction between a general and specific part was suggested. The general part can be used in and copied to other risk assessments, e.g. daily average PM2.5 concentration, while the specific part only applies to the specific assessment study. Furthermore, there is need for a new uncertainty attribute to clarify assumptions and limitations. The function / formula was recognised as a key attribute that should be separately described. On the other hand, the scope attribute should be extended to include the application range, while the discussion attribute can be used also to inform about the iterations and consequent changes in the variable specification. --Eva Kunseler 13:06, 25 May 2007 (EEST) (type: truth; paradigms: science: defence)
|
How to combine different kinds of info about a variable?
In our current risk modeling, we have started to see more and more of a problem that there are different kinds of information available about a variable, and the question is how to combine that. There are some methods in BBN world where you can give weights to iterations in order to make the distributions match each other in a coherent way. I'd like to hear more about these methods, and any other method that gives me help with this kind of problems (see an example below).
In practice, I am struggling with an idea that we should try and develop a large joint distribution database in which all variables are in coherence. What is needed, then, is a random sample of all variables (say, 5000 iterations in a pilot case) in such a way that none of the iterations is in conflict with the data and restrictions, and that together the 5000 iterations form the joint distribution of all the variables included in the database.
______________________
What systematic approaches can be used to derive a distribution to the following variable: "Annual average concentration of PM2.5 (in µg/m^3) in the measuring station of Vallila (an urban traffic station), Helsinki, for the year 2005."
Let's assume that the following information is available:
- The causal relations can be described using an atmospheric box model, and an estimate for each day can be calculated using the following parameters: regional background PM2.5 concentration, emission rate of the urban combustion, wind speed, wind direction, mixing height, and traffic density of the nearby street. The values for all of these parameters are available for every day of 2005.
- The measured daily concentrations of PM2.5 in Vallila for seven random days during 2005 were 15.4, 7.4, 12.4, 5.3, 10.4, 14.3, 9.6.
- The respective value for Stockholm was 11.4 µg/m^3; the difference between concentrations in Stockholm and Helsinki have followed the normal distribution with mean 1.6 and SD 1.3 during the years 1985-2004.
- The annual average for the total suspended particle concentration (which is equal to PM2.5 plus the coarse particle fraction) for 2005 was 17.6. There are no measurements available about the coarse particle fraction for 2005, but the annual averages for 1985-2004 followed a normal distribution with mean 9.8 and SD 2.4.
This problem reflects the observation that there may be at least four different kinds of information (are there other kinds?) available for deriving a distribution. And, of course, there may be available several pieces of information of any kind, for example, several atmospheric models.
- There is quantitative understanding of the causal dependencies of the variable.
- There are some directly relevant (but incomplete) data about the variable of interest.
- There are data from an analogous or similar situation and it can be expected that the variable of interest is close to that.
- There are some boundaries that the answer cannot exceed.
My own understanding says that if we have data 1 and 2, we have several methods available, both frequentist and Bayesian. But data 3 is tricky, and I don't know other methods to deal with that than using it as a prior in Bayesian hierarchical modeling. Especially data 4 causes trouble to me, because I don't know how to deal with random variables that together are bound by some limits. At least my causal box model does not reflect this at all.
Keskustelua aiheesta:
Hei!
Kommenttisi ovat tosi hyviä ja auttavat ajattelua eteenpäin. 3)-tyypin data on ehkä hyödyllistä vain semmoisessa tapauksessa, jossa varsinaisesta mielenkiintoisesta muuttujasta on hyvin vähän tai ei ollenkaan tietoa. Sen sijaan 4)-tyyppi voinee joskus toimia mallin validoinnissa, kun nähdään uskottavien tulosten rajoja. (Sanoin muuten aiemmin väärin, että esimerkin 4)-kohta olisi ruotsalaisdataa. Tarkoitin, että se on oikeasta paikasta mutta ei mielenkiinnon kohteena olevalta ajalta.)
Jouni
Marja-Leena Hannila wrote:
Hei,
Minä täällä vielä kelaan tuota esimerkkiäsi mielessäni (kun näistä tutkimuskysymyksistä ei niin vaan pääse eroon vaikka joskus haluaisikin). Jos Boxin mallilla saa hyvän arvion ko. muuttujasta, niin siitähän saisi "havainnot" kullekin päivälle, jolloin meillä olisi kiinnostavasta muuttujasta aikasarja. Tällöin keskiarvon jakauman voisi määrittää jollakin aikasarjamallilla (ehkä AR-malli, tulee sanasta autoregressive) tai sitten käyttämällä bootstrappiä. Tätä jakaumaa voisi sitten diagnostisesti arvioida noilla oikeilla mittauksilla. Tässä tapauksessa unohtaisin kohdat 3 ja 4, ne kun eivät anna suoraa infoa ko. muuttujasta.
Marja-Leena
On Fri, 26 Jan 2007, Jouni Tuomisto wrote:
Hei!
Kiitos vastauksesta, olet toistaiseksi ainoa.
Ensin selvennettäköön, että tuo esimerkki on keksitty eikä mitään dataa oikeasti ole. Mutta esitin kysymyksen sillä ajatuksella, että jos tässä on kaikki mitä sinä voit saada selville, mitä sille voi tehdä. Kysymys on siis periaatteellinen, jota yritin havainnollistaa konkreettisella esimerkillä.
Vastauksia sitten noihin kysymyksiin 1) Box-malli on yksinkertainen deterministinen malli, joka käyttää massataseita eli olettaa että kaupungin ilmatilavuudessa (boxissa) olevan PMn määrän muutos = sisään tuleva-ulos menevä PM. Noita sitten mallitetaan tiedoilla ilmatilavuuden koosta, ilman virtausnopeudesta ja PM-pitoisuuksista. 2) Päivämäärätietoja ei ole käytössä. 3) ja 4) Tulokset perustuvat ruotsalaiseen aineistoon, jota meillä ei ole mahdollista saada käyttöömme, ainostaan nuo jakaumatiedot.
Luulenpa, että tärkein vastaus kuitenkin jo saatiin: pakko miettiä tapauskohtaisesti.
Jouni
Marja-Leena Hannila wrote:
Hei,
Joko olet saanut hyviä vastauksia? Tässä minun ajatuksia asiasta.
Informaation yhdistämisestä sanoisin sen verran, että mitään automaattista joka tapaukseen sopivaa hyvää menetelmää tuskin on olemassa. Parhaaseen lopputulokseen pääsee yleensä sillä, että katsoo tapauksen kerrallaan.
Tähän kyseiseen tapaukseen minulla olisi muutama lisäkysymys. Kohtaan 1) Onko mainitsemasi malli jokin regressio- tai aikasarjamalli ja onko sille myös virhetermin varianssiestimaatti olemassa? Mitä aineistoa mallin konstruoinnissa on käytetty? Kohtaan 2) Onko mittausten päivämäärätiedot olemassa? Kohtaan 3 ja 4) Mihin jakaumatulokset perustuu? Kenties johonkin aineistoon?
Yleisesti voisin sanoa, että luotan mieluummin raakaan dataan kuin eksperttiarvioihin varsinkin korrelaatiorakenteiden arvioimisessa. Oman lisänsä tähän kyseiseen ongelmaan tuo sen, että kyseessä on aikasarja ja sen mukanaan tuoma mahdollinen autokorrelaatio mutkistaa sen analysointia.
Terveisin, Marja-Leena